AI OSS Tools 🧰 ИИ инструменты с открытым кодом


Channel's geo and language: World, Russian
Category: Technologies


Just links to Open Source Software with AI, ready to run locally. ИИ инструменты локально, открытый код #tools #oss #local #ai

Related channels

Channel's geo and language
World, Russian
Statistics
Posts filter




Forward from: Анализ данных (Data analysis)
🔥 eliza — это проект, направленный на создание платформы для автономных агентов, способных выполнять сложные задачи, взаимодействовать с пользователями и использовать внешние инструменты!

🌟 Цель проекта — упростить процесс разработки агентов, которые могут действовать независимо, обрабатывать команды на естественном языке и решать поставленные задачи с минимальным вмешательством человека. Такие агенты могут использоваться как чат-боты, NPC в видеоиграх, для трейдинга и многих других задач!

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml


https://github.com/shobrook/termite

Project: Termite is a tool that generates terminal user interfaces (TUIs) from simple text prompts.

Introduction to the Code:
Termite uses a large language model (LLM) to generate and execute Python scripts that create TUIs. By default, it utilizes the urwid library but can also work with rich, curses, or textual.

Features:
- Rapid prototyping of terminal applications.
- Supports multiple Python TUI libraries.
- Customizable prompts for various tasks.

Capabilities:
- Generates functional TUIs based on user prompts.
- Executes Python scripts to display the UI in the terminal.

Limitations:
- Experimental; may produce unexpected results.
- Running AI-generated code carries inherent risks.

Inputs and Outputs:
- Input: Text prompt describing the desired TUI.
- Output: Executed Python script presenting the TUI in the terminal.

Simple Usage Example:
1. Install Termite:
pipx install termite-ai

2. Set API Key:
export OPENAI_API_KEY="your_openai_api_key"

3. Generate a TUI:
termite "Create a file explorer"

This command will generate and display a file explorer TUI in your terminal.


https://github.com/JusperLee/Apollo

*Project:* Apollo is a music restoration tool designed to enhance lossy MP3 audio files to near-lossless quality.

*Introduction to the Code and Features:*
- Band-Sequence Modeling: Leverages advanced algorithms for audio quality enhancement.
- Restoration Features: Focused on improving fidelity and auditory clarity for compressed audio.

*Capabilities:*
- Enhances lossy MP3 files to approach lossless audio quality.

*Limitations:*
- Cannot perfectly reconstruct original lossless audio.
- Effectiveness depends on the quality of the input MP3 file.

*Inputs and Outputs:*
- Input: MP3 file (lossy audio).
- Output: Enhanced audio file in higher quality.

*Simple Usage Example:*
1. Clone the Repository:
git clone https://github.com/JusperLee/Apollo.git
2. Navigate to the Directory:
cd Apollo
3. Run the Inference Script:
python inference.py --input_file=path_to_input_mp3 --output_file=path_to_output_audio

Replace path_to_input_mp3 with the path to your MP3 file and path_to_output_audio with the desired output file location.

Refer to the repository for further documentation and customization options.


Forward from: Data Science | Machine Learning | Artificial Intelligence
D New SOTA Text to Audio model using rectified flow and FLUX architecture

A new TTA model trained with rectified flow matching followed by preference optimisation is released! Fully open sourced. Inference on a GPU takes about 3 seconds.

https://redd.it/1hq9hx1
@artificialintelligence24x7


https://github.com/OpenSPG/KAG

Knowledge Augmented Generation

KAG is a logical reasoning and Q&A framework based on the OpenSPG engine and large language models, which is used to build logical reasoning and Q&A solutions for vertical domain knowledge bases. KAG can effectively overcome the ambiguity of traditional RAG vector similarity calculation and the noise problem of GraphRAG introduced by OpenIE. KAG supports logical reasoning and multi-hop fact Q&A, etc., and is significantly better than the current SOTA method.

In the context of private knowledge bases, unstructured data, structured information, and business expert experience often coexist. KAG references the DIKW hierarchy to upgrade SPG to a version that is friendly to LLMs.

KAG proposes a logically formal guided hybrid solution and inference engine.


Forward from: Data Science | Machine Learning | Artificial Intelligence
Introduction to AnyLearning - our Offline Privacy-Respect computer vision labeling and training tool

After months of development, we've thrilled to introduce **AnyLearning - a desktop app that let you label images and train AI models completely offline.**
With AI-assisted labeling, no-code AI model training, and detailed documentation, we want to bring you a no-code, all-in-one tool for developing a computer vision model for your project. After this release, the development of the tool will depend on the valuable feedback from customers. We are selling it with a price of $69 lifetime, and $39 for the first 10 customers (it is a limited offer).

**You can try it now here:** [https://anylearning.nrl.ai/](https://anylearning.nrl.ai/) .

**🔒 There are some reasons which push our development of AnyLearning**:

* 100% offline - your data stays on your machine
* No cloud dependencies, no tracking
* No monthly subscriptions, just a one-time purchase
* Perfect for sensitive data (HIPAA & GDPR friendly)

**✨ Current Features:**

* Image classification
* Object detection
* Image segmentation
* Handpose classification
* Auto-labeling with Segment Anything (MobileSAM + SAM2)
* CPU/Apple Silicon support
* MacOS & Windows support

**💡 We are looking to your comments and ideas to develop this software better and better**!

**Some screenshots:**

https://preview.redd.it/1vol5an3sp9e1.png?width=2718&format=png&auto=webp&s=9f668ee06009dd6fb00a39f8decef452b1fd18ac

[Project setup](https://preview.redd.it/9no6ltg4sp9e1.png?width=2830&format=png&auto=webp&s=1ff2f5c3940f6f1e55b5d56ac7e47c96ea7dbf4a)

[Data view](https://preview.redd.it/a0tad4v4sp9e1.png?width=2830&format=png&auto=webp&s=a951b687f472240b999e6232661053fac100b278)

[Labeling view](https://preview.redd.it/5m844ke5sp9e1.png?width=2830&format=png&auto=webp&s=c6469adc69a2c370bdebd4bfdca9bf693ad916f4)

[Training](https://preview.redd.it/su4i0iw5sp9e1.png?width=2830&format=png&auto=webp&s=8709a8f36d790530c560dc1ab591316076d6baf4)



https://redd.it/1honz55
@artificialintelligence24x7


Forward from: Нейронавт | Нейросети в творчестве
1.58-bit FLUX

Bytedance и POSTECH квантизовали FLUX [dev].
Квантизованная модель требует для инференса в 5 раз меньше VRAM и занимает на диске в 7.7 раз меньше места.

К сожалению, есть только препринт, а ссылка из препринта ведет на несуществующий сайт. Ждем

#news #optimization #flux


Forward from: Hacker News
Show HN: Anki AI Utils (Score: 150+ in 16 hours)

Link: https://readhacker.news/s/6kdsm
Comments: https://readhacker.news/c/6kdsm

Hi hn, I am nearly at the end of medical school so it is time I publish and "advertise" my open source scripts/apps for anki! Here's the pitch:
Anki AI Utils is a suite of AI-powered tools designed to automatically improve cards you find challenging. Whether you're studying medicine, languages, or any complex subject, these tools can:
- Explain difficult concepts with clear, ChatGPT-generated explanations.
- Illustrate key ideas using Dall-E or Stable Diffusion-generated images.
- Create mnemonics tailored to your memory style, including support for the Major System.
- Reformulate poorly worded cards for clarity and better retention.
Key Features:
- Adaptive Learning: Uses semantic similarity to match cards with relevant examples.
- Personalized Memory Hooks: Builds on your existing mnemonics for stronger recall.
- Automation Ready: Run scripts daily to enhance cards you struggled with.
- Universal Compatibility: Works across all Anki clients (Windows, Mac, Linux, Android, iOS).
Example:
For a flashcard about febrile seizures, Anki AI Utils can:
- Generate a Dall-E illustration of a toddler holding a teacup next to a fireplace.
- Create mnemonics like "A child stumbles near the fire, dances symmetrically, has one strike, and fewer than three fires."
- Provide an explanation of why febrile seizures occur and their diagnostic criteria.
Call for Contributors:
This project is battle-tested but needs help to become a polished Anki addon. If you’re a developer or enthusiast, join us to make these tools more accessible!
Check out my other projects on GitHub: [Anki AI Utils](https://github.com/thiswillbeyourgithub)
Transform your Anki experience with AI—because learning should be smarter, not harder.


Forward from: Градиент обреченный
Осваиваю ComfyUI, прикольная штука. Пайплайн для нужной задачи нужно составлять самому из набора блоков и это занятие само по себе довольно увлекательное (пока разберешься, что куда прикручивать, узнаешь много нового).

Какие-то несложные вещи, типа добавления цветности к ч/б фото или масштабирования, можно освоить довольно быстро. Попробую сделать что-то поинтересней, типа подключения LoRA и массовой обработки фоточек.

Хорошей документации я пока не нашел (может вы видели?), зато отдельных примеров есть огромное количество.

🔸 Установить ComfyUI можно локально, просто скачав и распаковав архив.

🔸 Сразу установите ComfyUI-Manager, через него можно будет находить и устанавливать кастомные блоки, которые будут почти в каждом примере, которые вы увидите.

🔸 Вот тут есть сотни моделей для upscale'а картинок. Надо скачать веса и подложить в папку upscale_models.

🔸 А вот тут написано про то как установить модуль ComfyUI-DDColor для задачи добавления цветности.

👉 Предлагаю поразбираться на досуге и собрать собственный AI-редактор изображений у себя на компьютере. Легкие операции будут спокойно отрабатывать без видеокарты.


Forward from: Machinelearning
🌟 OmniAudio: Мультимодальная модель для обработки аудио и текста.

OmniAudio - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов.

OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса.

Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею.

OmniAudio обучалась в три этапа:

🟠Предварительное обучение - alignment аудио и текста с применением датасета MLS English 10k transcription. Для различения задач транскрибирования и завершения был введен специальный токен .

🟠Этап SFT улучшил возможности ведения диалога за счет использования синтетических данных, полученных на основе контекстно релевантных ответов к тому же датасету. Для из синтеза создания применялась собственная модель.

🟠На финальном этапе, DPO, было повышено качество за счет исправления неточностей при сохранении семантического соответствия с помощью GPT-4o в качестве эталона. Для стабильности качества при обработке как аудио, так и текстовых данных, ответы Gemma2 использовались как «золотой стандарт».

Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду.

В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF.

Модель опубликовала в 4 вариантах квантования в формате GGUF:

🟢OmniAudio-2.6B-model-fp16 - 5.24 Gb
🟢OmniAudio-2.6B-model-q8_0 - 2.78 Gb
🟢OmniAudio-2.6B-model-q4_K_M - 1.71 Gb
🟢OmniAudio-2.6B-model-q4_0 - 2.78 Gb

⚠️ Разработчик рекомендует локальный инференс в Nexa-SDK, опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей.

⚠️ В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии q4_K_M требуется 1.30GB RAM.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Модель
🟡Demo
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #OmniAudio #NexaAI


Forward from: Machinelearning
🌟 DRT-o1: метод машинного перевода с техникой CoT.

DRT-o1 - экспериментальная методика для повышения качества нейронного машинного перевода с помощью техники Chain-of-Thoughts, которая успешно применятся в задачах логического вывода.

Машинный (дословный) перевод текстов, содержащих сравнения и метафоры, зачастую не обеспечивает адекватную передачу смысла. DRT-o1 - попытка расширить возможности нейропереводчиков и сделать их более "человечными".

В методе используется многоагентная архитектура, моделирующая мыслительно- итеративный процесс перевода, где каждый этап базируется на предыдущем, способствуя более точному и глубокому пониманию сложных языковых конструкций.

За основу для тестовых моделей были взяты Qwen2.5-7B-Instruct и Qwen2.5-14B-Instruct. Обучающий датасет собирался на основе 400 англоязычных литературных произведений были извлечены предложения, содержащие сравнения или метафоры. Предложения, для которых дословный перевод на китайский язык был признан неадекватным, сохранялись для последующей обработки.

Затем использовался многоагентный пайплайн из переводчика, советника и оценщика. Переводчик генерировал варианты перевода, советник предоставлял рекомендации по их улучшению, а оценщик проводил анализ качества перевода на каждом этапе. Этот процесс повторялся итеративно до достижения установленного критерия качества.

В финале, для достижения удобочитаемости и связности полученных данных применялся GPT-4o, который модифицировал и оптимизировал процесс размышления. В результате было собрано 22 264 образца машинного перевода с длинными цепочками рассуждений.

В результате получились 2 модели перевода между английским и китайским языками:

🟢DRT-o1-7B
🟢DRT-o1-14B

Посттренинговые тесты обеих моделей показали ощутимое повышение качества перевода литературных текстов.
DRT-o1-7B показала улучшение на 8.26 в BLEU, 1.31 в CometKiwi и 3.36 в CometScore по сравнению с Qwen2.5-7B-Instruct. Она превзошла QwQ-32B-Preview на 7.82 в BLEU и 1.46 в CometScore.

DRT-o1-14B достигла еще более высоких показателей - 7.33 в BLEU, 0.15 в CometKiwi и 1.66 CometScore по сравнению с Qwen2.5-14B-Instruct.

▶️Пример инференса с DRT-o1-7B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Krystalan/DRT-o1-7B"

model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Translate the following text from English to Chinese:%text%."
messages = [
{"role": "system", "content": "You are a philosopher skilled in deep thinking, accustomed to exploring complex problems with profound insight."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
**model_inputs,
max_new_tokens=2048
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.


🟡Модель 7B
🟡Модель 14B
🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Translation #CoT #DRTo1


Forward from: Нейронавт | Нейросети в творчестве
Aria-UI: Visual Grounding for GUI Instructions

Быстрый легковесный ИИ-агент для выполнения задач на устройстве пользователя через взаимодействие с пользовательским интерфейсом

Код
Демо

#assistant #agent


Forward from: дAI потестить!
Делаем звук для (де)генеративного видео
Сегодня простенько-коротенько. Добрался до https://github.com/hkchengrex/MMAudio.
В четырех словах - делает звук по видеоряду. Замечательно работает в ComfyUI https://github.com/kijai/ComfyUI-MMAudio. Не забываем скачать модели https://huggingface.co/Kijai/MMAudio_safetensors/tree/main в папку ComfyUI/models/mmaudio. Побаловаться точно стоит тем, кто делает генеративный видеоконтент.
P.S. Когда будете смотреть видео, включите звук😊😊
#audio




Forward from: Data Science | Machine Learning | Artificial Intelligence
AI for transcription/meeting notes - Fully Open source building this to run locally on PC

TL;DR: In this approach, I plan to build openly—meaning I’ll gather feedback and develop step by step. The initial UI development is complete, and I intend to build the rest as time allows. Contributions are welcome.

This is my humble attempt to solve a problem I face within my company: taking meeting notes while a client call is ongoing. The solution is a fully open-source tool that uses open-source models and tools.

When I explored existing tools to make this process easier, I encountered a significant issue: I don't want my company’s confidential data stored in someone else’s database.

Since I am already building my own local AI-based tools and agents to automate most of my tasks, I decided to create this tool—a privacy-first, open-source meeting assistant that transcribes and summarizes meetings, all locally on my own device.

This week, I focused on the UI, and here’s a sneak peek 👀 of what I’ve been working on!

Repo Link : https://github.com/Zackriya-Solutions/meeting-minutes

https://redd.it/1hmronq
@artificialintelligence24x7


Forward from: Нейронавт | Нейросети в творчестве
Stable Diffusion 3.5 Medium Turbo (SD3.5M Turbo)

Высокопроизводительная дистиллированная версия картинкогенератора #SD35 Medium от Tensorart

Поддерживает лоры

#optimization #text2image


Forward from: Анализ данных (Data analysis)
Video is unavailable for watching
Show in Telegram
🔥 identity-rag-customer-insights-chatbot — проект для создания чат-бота, который использует систему IdentityRAG для объединения и анализа данных о клиентах!

🌟 Система решает задачи по разрешению идентификации клиентов и предоставлению единой, и актуальной информации о клиентах из различных источников.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml


Forward from: Machinelearning
✔️ AGUVIS: платформа для автономных агентов GUI на основе компьютерного зрения.

Salesforce Research представил AGUVIS, фреймворк, использующий компьютерное зрение для автономных агентов GUI пользователя, работающего с web, mobile и PC-интерфейсами. AGUVIS использует единые визуальные данные и согласованное пространство действий для повышения обобщаемости в GUI-средах.

Модель обладает возможностями планирования и рассуждения и использует набор траекторий агентов GUI с многомодальным основанием. AGUVIS показал среднюю точность 89,2% в GUI-задачах, превзойдя другие методы, и снижение затрат на вывод на 93% по сравнению с GPT-4o.
Веса модели и код инференса - в планах, код для тренировки, траектории планирования и рассуждений доступны на Github.
aguvis-project.github.io

✔️ Google повела итоги года в области ИИ: 60 главных анонсов 2024 года.

Google подвела итоги 2024 года, отметив значительный прогресс в области развития технологий ИИ. За год было сделано 60 крупных анонсов: в начале 2024 года были представлены обновления для Gemini, Chrome, Pixel и Search и функция Circle to Search. В феврале дебютировала модель Gemini 1.5, а Bard стал Gemini. В марте акцент был сделан на использовании ИИ в здравоохранении, а в мае на конференции Google I/O были представлены новые продукты и функции на базе ИИ.

В течение года Google запустила новые инструменты для Google Workspace, образования, перевода, поиска и покупок. В декабре была представлена Gemini 2.0, модель нового поколения наступающей агентной эры ИИ.
blog.google

✔️ Лазерный искусственный нейрон имитирует функции нервных клеток со скоростью света.

Исследователи Университета Гонконга разработали лазерный искусственный нейрон, который полностью имитирует функции, динамику и обработку информации биологического градиентного нейрона. Новая разработка достигает скорости обработки сигнала в 10 ГБод, что в миллиард раз быстрее, чем у биологических аналогов.

Лазерный градиентный нейрон преодолевает ограничения скорости фотонных версий спайковых нейронов и имеет потенциал для еще более быстрой работы. Ученые использовали его для создания системы резервуарных вычислений, которая демонстрирует исключительную производительность в задачах распознавания образов и прогнозирования последовательностей. Тестовая среда обработала данные 100 миллионов сердечных сокращений или 34,7 миллиона рукописных цифровых изображений всего за одну секунду.
eurekalert.org

✔️ xAI выпустила мобильное приложение Grok для iOS с возможностью генерации изображений.

xAI выпустила Grok для iOS, которое в настоящее время находится на стадии бета-тестирования в Австралии и некоторых других регионах. Приложение имитирует основные функции Grok и использует модель искусственного интеллекта Grok-2.

Приложение может переписывать и обобщать текст, отвечать на вопросы и создавать изображения на основе текстовых запросов, а также получать доступ к данным из интернета и X в режиме реального времени. Одной из отличительных особенностей Grok - возможность генерации изображений, которая не имеет таких строгих ограничений, как у некоторых конкурентов, и позволяет анализировать изображения, загруженные пользователями.
techradar.com

✔️ Соучредитель Anthropic прогнозирует "еще более резкий" прогресс в развитии ИИ в 2025 году.

Джек Кларк, соучредитель Anthropic, в своей публикации на LinkedIn предположил, что в 2025 году темпы развития ИИ значительно ускорятся, благодаря сочетанию традиционных методов масштабирования моделей и масштабирования вычислительных ресурсов во время выполнения, используемое в моделях o-серии OpenAI. Кларк уверен, что сочетание традиционного масштабирования с новыми методами приведет к "еще более резким" достижениям в области ИИ в 2025 году.

Anthropic пока не выпустила модель, конкурирующую с o-серией OpenAI или Gemini от Google. Их модель Opus 3.5 была отложена из-за высоких затрат, но она помогла в разработке Sonnet 3.5.
the-decoder.com

@ai_machinelearning_big_data

#news #ai #ml



20 last posts shown.