⭐️ Самые интересные Open Source AI релизы за неделю
-
VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 1
6 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.
- BytedanceTalk выпустил модель
SA2VA с параметрами
26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.
-
VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.
-
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.
💬 LLM-
MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯
- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения
Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!
- Kyutai labs выпустили
Helium-1 Preview 2B -
многоязычный LLM для edge девайсов и мобильных устройств.
-
Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻
-
ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.
- Вriaforall выпустила
Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.
-
UnslothAI адаптировали
Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.
👀
Vision-
MatchAnything - это новая универсальная модель для сопоставления изображений.
-
FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.
⭐️ Аудио-
OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.
📖 Поиск- Lightblue выпустила новую модель для поиска связи в тексте, основанную на
Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более
95 языков-
cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.
🧠
PlaygroundLeetGPU - бесплатная платформа для написания и запуска кода на
CUDA. Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!
@ai_machinelearning_big_data#ml #digest #datasets #opensource #ai #llm #news