AI OSS Tools 🧰 ИИ инструменты с открытым кодом


Гео и язык канала: Весь мир, Русский
Категория: Технологии


Just links to Open Source Software with AI, ready to run locally. ИИ инструменты локально, открытый код #tools #oss #local #ai

Связанные каналы

Гео и язык канала
Весь мир, Русский
Категория
Технологии
Статистика
Фильтр публикаций


Репост из: Futuris
Эмм, тут кто-то зафайнтюнил Qwen 2.5 Math 7B модельку так что она теперь рвёт по математическим и логическим тестам gpt4o🤯 и называется Eurus-2-7B-PRIME. Использовали новый подход, который улучшает обучение языковых моделей, оценивая не только конечный результат, но и каждый шаг процесса.. в общем, не вдаваясь в детали можно потестить самому ✨

https://github.com/PRIME-RL/PRIME


Репост из: Нейронавт | Нейросети в творчестве
Видео недоступно для предпросмотра
Смотреть в Telegram
Gaussian Frosting: Editable Complex Radiance Fields with Real-Time Rendering

Новый метод представления поверхностей с помощью сетки, покрытой слоем гауссиан разной толщины.

Этот слой, называемый "Frosting", позволяет захватывать как сложные объемные эффекты, создаваемые материалами вроде волос или травы, так и плоские поверхности. Модель создается только из RGB-изображений и может быть визуализирована в реальном времени, а также анимирована с использованием традиционных инструментов анимации

🍒Ну и вишенка: есть аддон для блендера

Код
Blender

#blender #gaussian #rendering #realtime


Репост из: Нейронавт | Нейросети в творчестве
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Генератор звуковых эффектов. Речь и музыку не вывозит, проверил.

Зато выдает 44 КГц, до 30 секунд. На А40 на это уходит всего 3 секунды

Код
Демо

#text2audio #text2sfx #foley




Репост из: Анализ данных (Data analysis)
🔥 eliza — это проект, направленный на создание платформы для автономных агентов, способных выполнять сложные задачи, взаимодействовать с пользователями и использовать внешние инструменты!

🌟 Цель проекта — упростить процесс разработки агентов, которые могут действовать независимо, обрабатывать команды на естественном языке и решать поставленные задачи с минимальным вмешательством человека. Такие агенты могут использоваться как чат-боты, NPC в видеоиграх, для трейдинга и многих других задач!

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml


https://github.com/shobrook/termite

Project: Termite is a tool that generates terminal user interfaces (TUIs) from simple text prompts.

Introduction to the Code:
Termite uses a large language model (LLM) to generate and execute Python scripts that create TUIs. By default, it utilizes the urwid library but can also work with rich, curses, or textual.

Features:
- Rapid prototyping of terminal applications.
- Supports multiple Python TUI libraries.
- Customizable prompts for various tasks.

Capabilities:
- Generates functional TUIs based on user prompts.
- Executes Python scripts to display the UI in the terminal.

Limitations:
- Experimental; may produce unexpected results.
- Running AI-generated code carries inherent risks.

Inputs and Outputs:
- Input: Text prompt describing the desired TUI.
- Output: Executed Python script presenting the TUI in the terminal.

Simple Usage Example:
1. Install Termite:
pipx install termite-ai

2. Set API Key:
export OPENAI_API_KEY="your_openai_api_key"

3. Generate a TUI:
termite "Create a file explorer"

This command will generate and display a file explorer TUI in your terminal.


https://github.com/JusperLee/Apollo

*Project:* Apollo is a music restoration tool designed to enhance lossy MP3 audio files to near-lossless quality.

*Introduction to the Code and Features:*
- Band-Sequence Modeling: Leverages advanced algorithms for audio quality enhancement.
- Restoration Features: Focused on improving fidelity and auditory clarity for compressed audio.

*Capabilities:*
- Enhances lossy MP3 files to approach lossless audio quality.

*Limitations:*
- Cannot perfectly reconstruct original lossless audio.
- Effectiveness depends on the quality of the input MP3 file.

*Inputs and Outputs:*
- Input: MP3 file (lossy audio).
- Output: Enhanced audio file in higher quality.

*Simple Usage Example:*
1. Clone the Repository:
git clone https://github.com/JusperLee/Apollo.git
2. Navigate to the Directory:
cd Apollo
3. Run the Inference Script:
python inference.py --input_file=path_to_input_mp3 --output_file=path_to_output_audio

Replace path_to_input_mp3 with the path to your MP3 file and path_to_output_audio with the desired output file location.

Refer to the repository for further documentation and customization options.


Репост из: Data Science | Machine Learning | Artificial Intelligence
D New SOTA Text to Audio model using rectified flow and FLUX architecture

A new TTA model trained with rectified flow matching followed by preference optimisation is released! Fully open sourced. Inference on a GPU takes about 3 seconds.

https://redd.it/1hq9hx1
@artificialintelligence24x7


https://github.com/OpenSPG/KAG

Knowledge Augmented Generation

KAG is a logical reasoning and Q&A framework based on the OpenSPG engine and large language models, which is used to build logical reasoning and Q&A solutions for vertical domain knowledge bases. KAG can effectively overcome the ambiguity of traditional RAG vector similarity calculation and the noise problem of GraphRAG introduced by OpenIE. KAG supports logical reasoning and multi-hop fact Q&A, etc., and is significantly better than the current SOTA method.

In the context of private knowledge bases, unstructured data, structured information, and business expert experience often coexist. KAG references the DIKW hierarchy to upgrade SPG to a version that is friendly to LLMs.

KAG proposes a logically formal guided hybrid solution and inference engine.


Репост из: Data Science | Machine Learning | Artificial Intelligence
Introduction to AnyLearning - our Offline Privacy-Respect computer vision labeling and training tool

After months of development, we've thrilled to introduce **AnyLearning - a desktop app that let you label images and train AI models completely offline.**
With AI-assisted labeling, no-code AI model training, and detailed documentation, we want to bring you a no-code, all-in-one tool for developing a computer vision model for your project. After this release, the development of the tool will depend on the valuable feedback from customers. We are selling it with a price of $69 lifetime, and $39 for the first 10 customers (it is a limited offer).

**You can try it now here:** [https://anylearning.nrl.ai/](https://anylearning.nrl.ai/) .

**🔒 There are some reasons which push our development of AnyLearning**:

* 100% offline - your data stays on your machine
* No cloud dependencies, no tracking
* No monthly subscriptions, just a one-time purchase
* Perfect for sensitive data (HIPAA & GDPR friendly)

**✨ Current Features:**

* Image classification
* Object detection
* Image segmentation
* Handpose classification
* Auto-labeling with Segment Anything (MobileSAM + SAM2)
* CPU/Apple Silicon support
* MacOS & Windows support

**💡 We are looking to your comments and ideas to develop this software better and better**!

**Some screenshots:**

https://preview.redd.it/1vol5an3sp9e1.png?width=2718&format=png&auto=webp&s=9f668ee06009dd6fb00a39f8decef452b1fd18ac

[Project setup](https://preview.redd.it/9no6ltg4sp9e1.png?width=2830&format=png&auto=webp&s=1ff2f5c3940f6f1e55b5d56ac7e47c96ea7dbf4a)

[Data view](https://preview.redd.it/a0tad4v4sp9e1.png?width=2830&format=png&auto=webp&s=a951b687f472240b999e6232661053fac100b278)

[Labeling view](https://preview.redd.it/5m844ke5sp9e1.png?width=2830&format=png&auto=webp&s=c6469adc69a2c370bdebd4bfdca9bf693ad916f4)

[Training](https://preview.redd.it/su4i0iw5sp9e1.png?width=2830&format=png&auto=webp&s=8709a8f36d790530c560dc1ab591316076d6baf4)



https://redd.it/1honz55
@artificialintelligence24x7


Репост из: Нейронавт | Нейросети в творчестве
1.58-bit FLUX

Bytedance и POSTECH квантизовали FLUX [dev].
Квантизованная модель требует для инференса в 5 раз меньше VRAM и занимает на диске в 7.7 раз меньше места.

К сожалению, есть только препринт, а ссылка из препринта ведет на несуществующий сайт. Ждем

#news #optimization #flux


Репост из: Hacker News
Show HN: Anki AI Utils (Score: 150+ in 16 hours)

Link: https://readhacker.news/s/6kdsm
Comments: https://readhacker.news/c/6kdsm

Hi hn, I am nearly at the end of medical school so it is time I publish and "advertise" my open source scripts/apps for anki! Here's the pitch:
Anki AI Utils is a suite of AI-powered tools designed to automatically improve cards you find challenging. Whether you're studying medicine, languages, or any complex subject, these tools can:
- Explain difficult concepts with clear, ChatGPT-generated explanations.
- Illustrate key ideas using Dall-E or Stable Diffusion-generated images.
- Create mnemonics tailored to your memory style, including support for the Major System.
- Reformulate poorly worded cards for clarity and better retention.
Key Features:
- Adaptive Learning: Uses semantic similarity to match cards with relevant examples.
- Personalized Memory Hooks: Builds on your existing mnemonics for stronger recall.
- Automation Ready: Run scripts daily to enhance cards you struggled with.
- Universal Compatibility: Works across all Anki clients (Windows, Mac, Linux, Android, iOS).
Example:
For a flashcard about febrile seizures, Anki AI Utils can:
- Generate a Dall-E illustration of a toddler holding a teacup next to a fireplace.
- Create mnemonics like "A child stumbles near the fire, dances symmetrically, has one strike, and fewer than three fires."
- Provide an explanation of why febrile seizures occur and their diagnostic criteria.
Call for Contributors:
This project is battle-tested but needs help to become a polished Anki addon. If you’re a developer or enthusiast, join us to make these tools more accessible!
Check out my other projects on GitHub: [Anki AI Utils](https://github.com/thiswillbeyourgithub)
Transform your Anki experience with AI—because learning should be smarter, not harder.


Репост из: Градиент обреченный
Осваиваю ComfyUI, прикольная штука. Пайплайн для нужной задачи нужно составлять самому из набора блоков и это занятие само по себе довольно увлекательное (пока разберешься, что куда прикручивать, узнаешь много нового).

Какие-то несложные вещи, типа добавления цветности к ч/б фото или масштабирования, можно освоить довольно быстро. Попробую сделать что-то поинтересней, типа подключения LoRA и массовой обработки фоточек.

Хорошей документации я пока не нашел (может вы видели?), зато отдельных примеров есть огромное количество.

🔸 Установить ComfyUI можно локально, просто скачав и распаковав архив.

🔸 Сразу установите ComfyUI-Manager, через него можно будет находить и устанавливать кастомные блоки, которые будут почти в каждом примере, которые вы увидите.

🔸 Вот тут есть сотни моделей для upscale'а картинок. Надо скачать веса и подложить в папку upscale_models.

🔸 А вот тут написано про то как установить модуль ComfyUI-DDColor для задачи добавления цветности.

👉 Предлагаю поразбираться на досуге и собрать собственный AI-редактор изображений у себя на компьютере. Легкие операции будут спокойно отрабатывать без видеокарты.


Репост из: Machinelearning
🌟 OmniAudio: Мультимодальная модель для обработки аудио и текста.

OmniAudio - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов.

OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса.

Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею.

OmniAudio обучалась в три этапа:

🟠Предварительное обучение - alignment аудио и текста с применением датасета MLS English 10k transcription. Для различения задач транскрибирования и завершения был введен специальный токен .

🟠Этап SFT улучшил возможности ведения диалога за счет использования синтетических данных, полученных на основе контекстно релевантных ответов к тому же датасету. Для из синтеза создания применялась собственная модель.

🟠На финальном этапе, DPO, было повышено качество за счет исправления неточностей при сохранении семантического соответствия с помощью GPT-4o в качестве эталона. Для стабильности качества при обработке как аудио, так и текстовых данных, ответы Gemma2 использовались как «золотой стандарт».

Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду.

В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF.

Модель опубликовала в 4 вариантах квантования в формате GGUF:

🟢OmniAudio-2.6B-model-fp16 - 5.24 Gb
🟢OmniAudio-2.6B-model-q8_0 - 2.78 Gb
🟢OmniAudio-2.6B-model-q4_K_M - 1.71 Gb
🟢OmniAudio-2.6B-model-q4_0 - 2.78 Gb

⚠️ Разработчик рекомендует локальный инференс в Nexa-SDK, опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей.

⚠️ В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии q4_K_M требуется 1.30GB RAM.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Модель
🟡Demo
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #OmniAudio #NexaAI


Репост из: Machinelearning
🌟 DRT-o1: метод машинного перевода с техникой CoT.

DRT-o1 - экспериментальная методика для повышения качества нейронного машинного перевода с помощью техники Chain-of-Thoughts, которая успешно применятся в задачах логического вывода.

Машинный (дословный) перевод текстов, содержащих сравнения и метафоры, зачастую не обеспечивает адекватную передачу смысла. DRT-o1 - попытка расширить возможности нейропереводчиков и сделать их более "человечными".

В методе используется многоагентная архитектура, моделирующая мыслительно- итеративный процесс перевода, где каждый этап базируется на предыдущем, способствуя более точному и глубокому пониманию сложных языковых конструкций.

За основу для тестовых моделей были взяты Qwen2.5-7B-Instruct и Qwen2.5-14B-Instruct. Обучающий датасет собирался на основе 400 англоязычных литературных произведений были извлечены предложения, содержащие сравнения или метафоры. Предложения, для которых дословный перевод на китайский язык был признан неадекватным, сохранялись для последующей обработки.

Затем использовался многоагентный пайплайн из переводчика, советника и оценщика. Переводчик генерировал варианты перевода, советник предоставлял рекомендации по их улучшению, а оценщик проводил анализ качества перевода на каждом этапе. Этот процесс повторялся итеративно до достижения установленного критерия качества.

В финале, для достижения удобочитаемости и связности полученных данных применялся GPT-4o, который модифицировал и оптимизировал процесс размышления. В результате было собрано 22 264 образца машинного перевода с длинными цепочками рассуждений.

В результате получились 2 модели перевода между английским и китайским языками:

🟢DRT-o1-7B
🟢DRT-o1-14B

Посттренинговые тесты обеих моделей показали ощутимое повышение качества перевода литературных текстов.
DRT-o1-7B показала улучшение на 8.26 в BLEU, 1.31 в CometKiwi и 3.36 в CometScore по сравнению с Qwen2.5-7B-Instruct. Она превзошла QwQ-32B-Preview на 7.82 в BLEU и 1.46 в CometScore.

DRT-o1-14B достигла еще более высоких показателей - 7.33 в BLEU, 0.15 в CometKiwi и 1.66 CometScore по сравнению с Qwen2.5-14B-Instruct.

▶️Пример инференса с DRT-o1-7B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Krystalan/DRT-o1-7B"

model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Translate the following text from English to Chinese:%text%."
messages = [
{"role": "system", "content": "You are a philosopher skilled in deep thinking, accustomed to exploring complex problems with profound insight."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
**model_inputs,
max_new_tokens=2048
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.


🟡Модель 7B
🟡Модель 14B
🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Translation #CoT #DRTo1


Репост из: Нейронавт | Нейросети в творчестве
Aria-UI: Visual Grounding for GUI Instructions

Быстрый легковесный ИИ-агент для выполнения задач на устройстве пользователя через взаимодействие с пользовательским интерфейсом

Код
Демо

#assistant #agent


Репост из: дAI потестить!
Делаем звук для (де)генеративного видео
Сегодня простенько-коротенько. Добрался до https://github.com/hkchengrex/MMAudio.
В четырех словах - делает звук по видеоряду. Замечательно работает в ComfyUI https://github.com/kijai/ComfyUI-MMAudio. Не забываем скачать модели https://huggingface.co/Kijai/MMAudio_safetensors/tree/main в папку ComfyUI/models/mmaudio. Побаловаться точно стоит тем, кто делает генеративный видеоконтент.
P.S. Когда будете смотреть видео, включите звук😊😊
#audio




Репост из: Data Science | Machine Learning | Artificial Intelligence
AI for transcription/meeting notes - Fully Open source building this to run locally on PC

TL;DR: In this approach, I plan to build openly—meaning I’ll gather feedback and develop step by step. The initial UI development is complete, and I intend to build the rest as time allows. Contributions are welcome.

This is my humble attempt to solve a problem I face within my company: taking meeting notes while a client call is ongoing. The solution is a fully open-source tool that uses open-source models and tools.

When I explored existing tools to make this process easier, I encountered a significant issue: I don't want my company’s confidential data stored in someone else’s database.

Since I am already building my own local AI-based tools and agents to automate most of my tasks, I decided to create this tool—a privacy-first, open-source meeting assistant that transcribes and summarizes meetings, all locally on my own device.

This week, I focused on the UI, and here’s a sneak peek 👀 of what I’ve been working on!

Repo Link : https://github.com/Zackriya-Solutions/meeting-minutes

https://redd.it/1hmronq
@artificialintelligence24x7


Репост из: Нейронавт | Нейросети в творчестве
Stable Diffusion 3.5 Medium Turbo (SD3.5M Turbo)

Высокопроизводительная дистиллированная версия картинкогенератора #SD35 Medium от Tensorart

Поддерживает лоры

#optimization #text2image

Показано 20 последних публикаций.