AI OSS Tools 🧰 ИИ инструменты с открытым кодом


Kanal geosi va tili: Butun dunyo, Ruscha


Just links to Open Source Software with AI, ready to run locally. ИИ инструменты локально, открытый код #tools #oss #local #ai

Связанные каналы

Kanal geosi va tili
Butun dunyo, Ruscha
Statistika
Postlar filtri


Data Science | Machine Learning | Artificial Intelligence dan repost
Automatically turning a CLI program into a GUI program?

There's a system called Gooey that automatically generates a user interface for a CLI program.

Is there a similar system for Haskell, or a way to automatically generate whatever json file Gooey needs from A a CLI interface defined using optparse-applicative?

I understand that this won't work for all programs, but for some it will.

https://redd.it/1i4qqit
@artificialintelligence24x7


Data Science | Machine Learning | Artificial Intelligence dan repost
This Open-source tool that acts like an AI social media intern 🤖
https://redd.it/1i4ubpj
@artificialintelligence24x7


👾 НЕЙРО-СОФТ ● РЕПАКИ И ПОРТАТИВКИ dan repost
🐠 Fish Speech MOD ● Модифицированная версия синтезатора речи с клонированием голоса ● RU ● Portable by NerualDreming

Ссылка на оригинальный GitHub: https://github.com/fishaudio/fish-speech
Репакер: #NerualDreming
Дата обновления: 15 января 2025
Версия: 1.4.3
Категории: #TTS, #voiceclone, #AIaudio
Платформа: #Windows
Язык: RU
Место на диске: 10 ГБ
Системные требования: NVIDIA GPU 8gb
Совместимость: #Nvidia

🖥 Описание софта:
Fish Speech - это мощный инструмент для синтеза речи с возможностью клонирования голоса. Особенность данной модифицированной версии в том, что она адаптирована для русскоязычных пользователей и дополнена новыми функциями для более удобной работы.


😬 Основные возможности Fish Speech:
🟣 Клонирование голоса по образцу 15-60 секунд
🟣 Поддержка русского и других языков (английский, японский, корейский, китайский, французский, немецкий, арабский, испанский)
🟣 Высокая точность синтеза речи
🟣 Сохранение в форматах MP3 и FLAC
🟣 Полностью русифицированный интерфейс
🟣 Упрощенная работа с папкой examples - достаточно добавить MP3 и текстовый файл с расшифровкой для добавления новых голосов
🟣 Оптимизированный интерфейс без неиспользуемых элементов


📣 Встроенные голоса:
🔘 Крастер (YouTube)
🔘 Губка Боб
🔘 Тинькофф (YouTube)
🔘 Кропина (YouTube, женский)
🔘 Бухмин (AudioBook)
🔘 Володарский
🔘 Гоблин Пучков (YouTube)
🔘 Дедпул (Гланц)
🔘 Денис Колесников (YouTube)
🔘 5 дополнительных женских голосов на английском языке


⚠️ Отказ от ответственности:
Все примеры голосов взяты из открытых источников и представлены с уважением к их носителям и исключительно в демонстрационных целях. Для коммерческого использования рекомендуем обращаться к авторам. Несанкционированное использование чужих голосов в коммерческих целях и без разрешений не только нарушает права их владельцев, но и может преследоваться по закону. Мы категорически запрещаем и осуждаем использование данной технологии для нарушения чьих-либо прав или для совершения противоправных действий!

💿 Установка и запуск:
⁍ Скачайте zip архив Fish Speech
⁍ Распакуйте архив в удобное место
⁍ Запустите файл install.bat
⁍ Дождитесь окончания установки (будет выведено соответствующее сообщение)
⁍ Запустите start.bat для начала работы

➡️ Скачать Fish Speech Mod Portable ZIP — обычный ZIP архив

💬 Обсудить в чате | ⭐️ Поддержать канал

👾 НЕЙРО-СОФТ — Делаем нейросети доступнее.


Нейросети и Блендер dan repost
Небольшой дайджест

🔥 Интересный анализ работы Devin (frontend агента), ребята провели много тестов:
Что получилось:
* Интеграция API — извлечение данных из базы Notion в Google Sheets.
Что не получилось:
* Из 20 задач успешно выполнены только 3, при этом схожие задачи давали разные результаты.
* Проблемы с пониманием и модификацией уже написанных проектов.
* Выявление множества ложных уязвимостей.
* Некоторые задания занимали дни вместо ожидаемых часов.
LINK
В комментах забавных скрин из статьи.

🚀 Про Cosmos, новую модель от Nvidia. В посте пример созданный на L40S (48GB) в ComfyUI. 5 секунд видео генерится ~ 10 минут
LINKCOMFYUI настройка

🎃 Luminal Space — пример очень атмосферной работы соединяя FLUX для картинок и анимацию через KlingAI
LINKComfyUI workflow

🤩 Очень качественный пример Vid2Vid анимации через Hunyuan vid2vid. Делалось батчами.
John Wick LoraHunyuan ComfyUI vid2vid nodesComfyUI настройка

☃️ Cult of the Snowman — Смесь славянской глубинки, деревни дураков и новеллы Гоголя Вий.
LINK

🤫 И второй ролик из инета — Гарри Поттер волшебник Северной Кореи. Подсмотрел у Derp Learning.
LINK

🚠 И на последок применение нейровидео для перебивок в сноубордических фильмах. Как-то очень хорошо в итоге выглядит. Или может я соскучился по сноуборду, уже 3 года не катался.
Интересно через сколько лет AI видеомодельки смогут повторить сноубордические видео?
LINK на полное видео


Machinelearning dan repost
🚀Только что выпущено новое семейство моделей генерации кода Salesforce (SFR-Embedding-Code), занявшее 1-е место на бенчмарке CoIR!

Модель доступна в в 2-х размерах: 2B, 400M.

Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования, Python, Java, C++, JavaScript, C# и другие!

Пример Запуска:

import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel

# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
"how to implement quick sort in Python?"
]

# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]

# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)

# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)

# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)

scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())


Документация
Модель 400M
Модель 2B


📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.

@ai_machinelearning_big_data


#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml


Machinelearning dan repost
⭐️ Самые интересные Open Source AI релизы за неделю

- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.

- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.

- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.

- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.

💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯

- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!

- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.

- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻

- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.

- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.

- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.

👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.

⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.

📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.

🧠 Playground
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

@ai_machinelearning_big_data


#ml #digest #datasets #opensource #ai #llm #news


Machinelearning dan repost
⭐️ NVIDIA выпустили AceMath - новый мощный набор математических моделей, предназначенных для решения сложных задач.

Флагманская модель AceMath-72B-Instruct выглядит лучше Qwen2.5-Math-72B и превосходит GPT-4o и Claude-3.5 Sonnet в области решения математических задач.

В открытом доступе
выложили модели обучения, модели вознаграждения, полные наборы датасетов и бенчмарки: 🤗 HF: https://huggingface.co/collections/nvidia/acemath-678917d12f09885479d549fe
📄 Статья: https://arxiv.org/pdf/2412.15084

@ai_machinelearning_big_data


#math #nvidia #opensource #llm #ml


Machinelearning dan repost
⭐️ Самые интересные Open Source AI релизы за неделю

- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.

- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.

- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.

- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.

💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯

- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!

- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.

- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻

- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.

- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.

- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.

👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.

⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.

📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.

🧠 Playground
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

@ai_machinelearning_big_data


#ml #digest #datasets #opensource #ai #llm #news


Анализ данных (Data analysis) dan repost
🔥 Umi-OCR — бесплатное оффлайн-приложение для OCR (распознавания текста)!

🌟 Оно поддерживает распознавание текста на скриншотах, пакетную обработку изображений, PDF-документов, а также функции работы с QR-кодами и формулами. Инструмент ориентирован на удобство использования, прост в настройке (работает без установки) и поддерживает командную строку и HTTP-интерфейсы для интеграции с другими приложениями.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml


Нейронавт | Нейросети в творчестве dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
Upscayl v2.5.5

Обновился опенсорсный инструмент для апскейла изображений - интерфейс для RealESRGAN и других зарекомендовавших себя моделей

Код

#upscale #gui




Нейронавт | Нейросети в творчестве dan repost
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode

Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет

SenseVoice - распознавание голоса и эмоций

CosyVoice - генерирует речь по тексту

Демо CosyVoice 2.0

Демо CosyVoise 2.0 на modelscope

Код

#tts #text2speech #stt #speech2text #realtime


Нейронавт | Нейросети в творчестве dan repost
Cosmos1GP: Cosmos1GP for the GPU Poor by DeepBeepMeep

Нвидиевский видеогенератор миров Cosmos, версия для бедных.

с правильными настройками на 3090/4090 можно генерить о 10 секунд видео

#text2video #image2video #simulation #text2world #image2world


Анализ данных (Data analysis) dan repost
🔥 HuatuoGPT-o1 — медицинская модель, ориентированная на сложные рассуждения в медицинской области!

🌟 Модель предназначена для диагностики, анализа ошибок и предложений альтернативных стратегий, улучшая свои ответы с помощью усиленного обучения (PPO) и верификации на основе специализированных медицинских задач.

🖥 Github

@data_analysis_ml


Нейронавт | Нейросети в творчестве dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
JASCO: Joint Audio And Symbolic Conditioning for Temporally Controlled Text-To-Music Generation

Генератор музыки от запрещенной Meta AI на базе audiocraft - опубликован код и веса

На вход принимает текст / аккорды / мелодию / ноты / отдельные партии, например ударные

Есть API, генерирует 10-секундные куски

Обучен на 16000 часов лицензионной музыки

Код
Модель
Jupiter notebook

#music #text2music #conditioning #music2music

15 ta oxirgi post ko‘rsatilgan.