AI feed


Гео и язык канала: не указан, Русский
Категория: Технологии


AI ideas pool

Связанные каналы

Гео и язык канала
не указан, Русский
Категория
Технологии
Статистика
Фильтр публикаций


Forbes: аналитики предсказали, что Microsoft выкупит OpenAI в течение трех лет

Эксперты объясняют это тем, что скоро хайп вокруг ИИ начнет спадать, и инвесторы уже не будут так щедры. Тем временем стартапам нужно будет все больше и больше денег, которых у них самих не хватит.

В итоге крупные компании, для которых ИИ имеет большую ценность (такие как Microsoft и Amazon) начнут скупать успешные стартапы вроде OpenAI и Anthropic.

Вот это поворот...


Original post link: t.me/data_secrets/5109
Forwarded and filtered by @smartfeed_bot


Нобелевкой по физике дело не кончилось и нобелевку по химии тоже получили машинлернеры

Ее выдали Демису Хассабису и Джону Джамперу из Google за модель AlphaFold2 для предсказания структуры белка


Original post link: t.me/data_secrets/5108
Forwarded and filtered by @smartfeed_bot


Репост из: Machinelearning
📌Подборка фреймворков для локального инференса на устройствах.

Всего полтора года назад казалось, что запустить локально языковую или генеративную модель было чем-то из области фантастики, доступной немногим. Тогда было всего несколько самописных вариантов вариантов, и каждый из них требовал знаний, усилий и ресурсов.

Но время шло, и сфера фреймворков для инференса начала развиваться с невероятной скоростью. Появились новые фреймворки и инструменты, библиотеки, интерфейсы для запуска любых моделей на чем угодно.

Сегодня мы имеем десятки вариантов для инференса LLM, от простых и удобных фреймворков до сложных и требовательных систем. Выбор стал настолько широким, что теперь можно подобрать инструмент под конкретную задачу.

Это настоящая революция, которую мы не замечаем, и она происходит прямо на наших глазах. Интересно будет посмотреть. во что это выльется еще через полтора года.

🟠llama.cpp
Проект, написаный на С++, позволяет запускать LLM, VLM, MMLM на СUDA, AMD, NPU, Metal. Наиболее распространенные реализации - ollama и LMStudio.

🟠MLC
Развертывание LLM на WebGPU. Самая быстрая реализация LLM на WebGPU из существующих на сегодняшний день.

🟠MLX
Самый быстрый фреймворк для Mac. Поддерживает GenAI (Flux, SDXL и др.), speech-2-text (Whisper), LLM.

🟠Candle
Минималистичный кроссплатформенный ML-фреймворк от Huggingface, написанный на Rust. Поддерживает работу с GPU и прост в использовании.

🟠Transformers.js
Фреймворк для запуска моделей напрямую в браузере, без сервера. Написан на Javascript (WebGPU) поверх ONNXruntimeweb.

🟠Ratchet
Кроссплатформенный инструментарий от Huggingface для WebGPU/CPU инференса с поддержкой запуска квантованных версий моделей Whisper, Phi 2 & 3 и Moondream. Написан на Rust.

🟠zml
Кросплатформенный фреймворк с возможностью распределенного запуска модели на разных платформах (CUDA, ROCm и Cloud). Написан на Zig.

🟠gpu.cpp
Простой и эффективный фреймворк для работы с GPU на C++. Работает с CUDA, AMD, Intel GPU, Metal за счет WebGPU.


@ai_machinelearning_big_data

#AI #ML #LLM #Frameworks


Минутка истории. Для тех, кто забыл про связь deep learning и разной интересной физики.

Пост Анатолия Левенчука 2015-го года очень в тему:

https://ailev.livejournal.com/1197148.html

Жаль, Анатолий вышел из нашего чата, он, конечно, многое может сказать по теме и по сути.

Про RBM тоже надо будет что-нибудь хорошее найти. Новое поколение их, наверное, не застало и не знает, да и какого-то прямого выхлопа в области прямо сейчас они не имеют, но в целом energy-based models это отдельная и очень большая тема, которая вполне себе живёт.


Original post link: t.me/gonzo_ML/2952
Forwarded and filtered by @smartfeed_bot


Репост из: Data Secrets
Делимся полезным контентом по ML: выложили доклады с Practical ML Conf 2024

Отдельно рекомендуем посмотреть доклад Саввы Степурина — старшего рексис разработчика в Яндекс Музыке. Тема была по-настоящему горячая: как рекомендовать незнакомый контент. Любые крупные рексис с этим сталкиваются, и Савва понятно разложил, как можно перейти от обычных фильтров на отдельные модели отбора кандидатов и ранжирования. В конце у доклада приятная плюшка – универсальные неочевидные советы "Как улучшить вашу рексис": например, оказывается, что для пользователей чувство серендипности — ключевое, и поэтому обязательно стоит увеличивать вес незнакомого контента.

Вот еще парочка интересных тем докладов, которые советуем посмотреть самостоятельно:

⚙️ Как обучить LLM работе с кодом. Доклад руководителя ML-лаборатории в Yandex Platform Engineering с занятными деталями о том, почему исследователи решили предсказывать стейтменты и как это повысило результаты онлайн-метрик качества.

⚙️ Как создавался Нейро — поиск на основе ИИ. Рассказали все про то, как обучали модель, выбирали архитектуру, боролись с отморозами и галлюцинациями, а также подискутировали про будущее поиска.

⚙️ Как в в Яндекс Книгах появился «Виртуальный рассказчик» — нейронная сеть для синтеза аудиокниг. Особенно интересно послушать про то, как в системе внедряли длинный контекст в low-resource real-time модель, и при чем тут диффузионки.

А еще были крутые доклады про бенчмаркинг, синтетические данные, оптимизацию RAG-систем, VLM и, конечно, рексис. В общем, такое однозначно смотрим.


Репост из: Machinelearning
✔️ Inflection AI сотрудничает с Intel в создании нового устройства LLM.

Устройство будет построено на базе аппаратного ускорителя машинного обучения Intel Gaudi 3 и будет работать под управлением Inflection 3.0, новейшей LLM от Inflection AI. Inflection 3.0 будет доступна в двух версиях: одна для чат-ботов, а другая — для задач, требующих точного следования инструкциям пользователя.

Последняя также сможет предоставлять ответы в формате JSON, для расширения возможностей интеграции с другими приложениями.

По заявлению Inflection AI, их ПО на процессорах Intel может работать вдвое эффективнее, чем на процессорах некоторых конкурентов. Выпуск устройства запланирован на первый квартал 2025 года.
siliconangle.com

✔️ Hearst и OpenAI заключили партнерство в сфере контента.

Издательский дом Hearst объявил о новом партнерстве с компанией OpenAI, в рамках которого контент газет и журналов Hearst будет интегрирован в продукты OpenAI. Соглашение охватывает более 20 журналов: Esquire, Cosmopolitan, ELLE и Runner’s World и более 40 газет.

Интеграция контента Hearst в продукты OpenAI позволит пользователям ChatGPT получать более широкий спектр информации: местные новости, мода, дизайн, здоровье, фитнес и автомобили.

Контент Hearst в ChatGPT будет сопровождаться соответствующими ссылками на оригинальные источники. Цель партнерства — повысить достоверность информации в продуктах OpenAI и обеспечить доступ к высококачественной журналистике.
openai.com

✔️ США инвестирует в разработку новых материалов для производства чипов с помощью ИИ.

Министерство торговли США объявило конкурс с бюджетом до 100 миллионов долларов на разработку экологически чистых материалов и процессов для производства полупроводников с использованием ИИ.

Проект направлен на сокращение времени и ресурсов для создания новых материалов и фокусируется на AI/AE, объединяющем машинное обучение и автоматизированные лаборатории.

Внедрение AI/AE ускорит поиск и синтез материалов не только в полупроводниковой промышленности, но и в других областях, - энергетике, аэрокосмической и оборонной промышленности, биологии, химии и фармацевтики.
asiatimes.com

✔️ Baidu запускает Baige 4.0 для повышения эффективности кластеров GPU и платформу Qianfan 3.0.

Baige 4.0 контролирует кластеры GPU, автоматически обнаруживая сбои и перенося рабочие нагрузки для предотвращения простоев. С его применением эффективность обучения LLM достигла 99,5%, что на 30% выше средних показателей по отрасли благодаря улучшениям в проектировании кластеров, планировании заданий и оптимизации VRAM. Платформа поддерживает кластеры до 100 000 графических процессоров.

Baidu также обновила платформу Qianfan Foundation Model до версии 3.0, обеспечивая доступ к почти 100 крупным моделям, включая ERNIE, и снизилая стоимость инференса моделей более чем на 90%.
analyticsindiamag.com

✔️ Adobe запускает веб-приложение для защиты авторов от нежелательного использования их работ в сфере ИИ.

Веб-приложение Content Authenticity, выход бета-версии которого запланирован на первый квартал 2025 года, позволит помечать изображения, видео и аудиофайлы атрибутивными метаданными: имя автора, веб-сайт и страницы в социальных сетях.

Ключевой особенностью приложения является возможность запретить использование контента для обучения генеративных моделей ИИ. Метаданные, добавляемые приложением, будет сложно удалить, и они должны сохраняться даже на скриншотах. Приложение Content Authenticity станет ответом на опасения авторов по поводу несанкционированного использования их работ.
adobe.com

@ai_machinelearning_big_data

#news #ai #ml


This is a daily stats digest!
Today the bot processed: 47 messages
Today you received: 7 messages
Our filtering prevented you from: 40 messages

Top 3 source channels:
Нейроинтерфейсы: 12 message(s)
Data Secrets: 8 message(s)
что-то на DL-ском: 6 message(s)


React to posts with 👍, 👎, ❤️, or 🔥. Spot spam? Mark it with 🤬 or 💩. Your input is valuable!
Text t.me/OlegBEZb if you want to see something else in the daily report


Репост из: AI Для Всех
🤖 Anthropic Batch API: Эффективность и преимущества в сравнении с OpenAI Batch API

Компания Anthropic представила новый Message Batches API — решение для асинхронной обработки большого количества запросов. Этот API позволяет отправлять до 10,000 запросов в одном пакете, обрабатывая их менее чем за 24 часа (скорость в обмен на скидку в 50%). Теперь у Антропика тоже есть удобное API для таких задач, как анализ данных и классификация.

Anthropic Batch API может обрабатывать до 10,000 запросов в батче (у openAI - 50,000 в батче)

По деньгам получается следующее - например, для модели Claude 3 Haiku стоимость входных токенов с Batch API составляет $0.125 за 1 млн токенов, а выходных — $0.625 за 1 млн токенов.

OpenAI Batch API также предоставляет скидку на 50%. Например, для модели GPT-4o-mini стоимость входных токенов составляет $0.075 за 1 млн токенов, а выходных — $0.300 за 1 млн токенов при использовании Batch API, что значительно дешевле по сравнению с моделями Anthropic.

Anthropic Batch API обещают обработка в течение 24 часов или быстрее. Пользователи могут отслеживать статус через Console или API.


Поддерживаемые модели: Claude 3.5 Sonnet, Claude 3 Haiku и Claude 3 Opus.

Разнообразие запросов: Поддержка Vision, Tool use, системных сообщений и диалогов в одном пакете.

Период доступности результатов: Результаты доступны для загрузки в течение 29 дней после создания пакета.

Ссылка


LLM знают больше, чем показывают: исследование ученых из Техниона, Google Research и Apple

Оказывается, языковые модели в своих representations слоях (имеются в виду слои эмбеддингов) энкодят гораздо больше информации о "правдивости" ответов, чем затем выплевывают в генерации. Другими словами, модель знает больше, чем говорит: в том числе она как бы может знать, что неправа, или даже знать правильный ответ, но при этом все равно болтать чепуху.

Самое интересное: информация о правдивости (в статье это называется truthfulness information) содержится в определенных токенах. К тому же, ученые доказали, что можно предсказать "тип" ошибки, которую выдаст модель, опять же по ее внутренним representations. Они даже обучили классификатор на такую детекцию. Точность получилась вполне приемлемая.

Статья полностью – тут


Original post link: t.me/data_secrets/5104
Forwarded and filtered by @smartfeed_bot


Репост из: Knowledge Accumulator
LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench [2024] - так могут они планировать или нет?

Часть LLM-критиков используют формулировку "Can't Plan", "Don't plan", но мне они не нравятся.

Многие из них подразумевают, что в структуру LLM должно быть явным образом зашита процедура "планирования", как в AlphaZero/MuZero - так называемая System 2. Подразумевается, что без этого модель не способна планировать, но я уже говорил, что это ложный фреймворк. Модель всегда планирует, причём ровно в той степени, которая нужна для минимизации лосс-функции при обучении.

Правильная постановка вопроса - может ли LLM решать новые задачи, требующие планирования? Именно это и пытаются выяснить авторы данной статьи.

Есть задачки Blocksworld - даны несколько блоков, их можно перемещать / ставить друг на друга, цель - построить из них заданную структуру. Они за 0.3 секунды решаются простым перебором, так что сложность задач низкая. Когда задача описана на естественном языке, в промпте указаны все правила взаимодействия с этими блоками.

Версия Mystery Blocksworld - все действия заменены на "кодовые слова", не имеющие особого смысла. Randomized Mystery Blocksworld - версия, в которой все сущности заменены на случайные наборы символов. Итак, поехали смотреть результаты.

Обычные SOTA-LLM решают половину Blocksworld, но плавятся в ноль при переходе к Mystery Blocksworld. При этом LLM справляются с переводом задачи из Mystery - деобфускацией, но даже с предоставлением словаря для перевода в промпте к задаче модель не справляется. Вывод напрашивается банальный - оригинальные задачи были в претрейне и модель их просто запомнила.

Модель O1 решает 100% задач оригинального Blocksworld, что наталкивает на вывод, что Chain of Thought помогает в том числе вспоминанию тренировочных данных. Самый важный прорыв происходит на обфусцированных версиях - модель решает половину `Mystery
Blocksworld` и треть Randomized Mystery Blocksworld. Кого-то это наталкивает на оптимизм, но меня не особо, и вот почему.

Мне бы не пришло в голову проверять способность к решению задач, давая уже известные задачи, в которой слова заменены на случайные. Легко поверить, что LLM умеет генерализовывать данные с точностью до замены слов на другие, но это не говорит о том, что модель умеет решать такую задачу с нуля.

Качественной проверкой было бы придумывание хотя бы новых инстансов той же самой задачи, хотя в идеале было бы давать задачи похожей сложности с другой внутренней логикой. У кого есть доступ к o1 - позадавайте тупые версии парадокса Монти Холла, будет вам тест на логику 😁

Авторы всё же делают одну интересную проверку - они дали модели 100 модифицированных нерешаемых Blocksworld, из которых O1 признала таковыми 27, а для 54 сгенерировала некорректный план. С Randomized Mystery Blocksworld такой же тест выдал 79/100 некорректных планов.

На способности к планированию O1 влияют используемые в задаче слова. Итоговый вывод как нельзя красив - модель и планирует, и не планирует одновременно.

@knowledge_accumulator


Нейросетевая Нобелевка!

BREAKING NEWS

The Royal Swedish Academy of Sciences has decided to award the 2024 #NobelPrize in Physics to John J. Hopfield and Geoffrey E. Hinton “for foundational discoveries and inventions that enable machine learning with artificial neural networks.”

https://x.com/NobelPrize/status/1843589140455272810?t=83ux2ru68oFVnk_CMtoqMA&s=19


Original post link: t.me/gonzo_ML/2949
Forwarded and filtered by @smartfeed_bot


Репост из: Machinelearning
✔️ Hitachi совместно с Nvidia запустили сервис обслуживания железных дорог на основе ИИ.

Система HMAХ анализирует данные, собираемые с поездов, чтобы предсказывать оптимальное время для замены деталей. Это первый коммерческий продукт Hitachi, использующий ИИ для обслуживания железных дорог, и он уже работает на некоторых маршрутах в Великобритании и Италии.

HMAX использует GPU от NVIDIA для мгновенного анализа изображений и данных о температуре и вибрации. Этот анализ позволяет проводить техобслуживание по мере износа узлов и повышает безопасность поездок.
kyodonews.net

✔️ Huggingface запустила лидерборд для оценки возможностей LLM в финансовой сфере.

OpenFinLLM Leaderboard - рейтинг LLM для финансовых задач. Он оценивает модели на 40 задачах в 7 категориях: извлечение информации, текстовый анализ, вопросы и ответы, генерация текста, управление рисками, прогнозирование и принятие решений. Для оценки используются метрики: точность, F-меру, ROUGE и коэффициент корреляции Мэтьюза.

С момента запуска в рейтинге лидируют модели GPT-4 и Llama 3.1, показавшие высокую точность в задачах по анализу финансовых настроений. В задачах финансового прогнозирования компактные модели Llama-3.1-7b и internlm-7b превосходят более крупные модели.
huggingface.co

✔️ MongoDB создает партнерскую экосистему ИИ.

MongoDB представила обновлённую версию 8.0 своей базы данных линейки Enterprise и облачного сервиса Atlas. Обновления обещают увеличить пропускную способность на 32%, ускорить пакетную запись на 56% и повысить скорость параллельной записи на 20%.

Для решения проблем, связанных с быстрым развитием ИИ, неопределённостью в выборе технологий и нехваткой навыков, MongoDB запустила программу MongoDB AI Application Program (MAAP).

Компания планирует создать глобальную экосистему партнёров, которые будут устанавливать отраслевые стандарты для решений на основе ИИ, сотрудничая с Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, Anthropic и Fireworks AI.
Уже реализованы коммерческие решения для «французской автомобильной компании» и «глобального производителя бытовой техники».
iteuropa.com

✔️ RATIONALYST: Как неявные логические обоснования улучшают логику ИИ.

Исследователи из Университета Джона Хопкинса представили RATIONALYST - модель на базе LLaMa-3-Instruct-8B, разработанную для улучшения логических возможностей LLM за счет неявных логических обоснований, полученных из немаркированных текстовых данных. Rationalyst генерирует и фильтрует обоснования на основе подсказок-примеров, фиксируя основные схемы рассуждения для новых текстов.

Обученный на 79 000 неявных обоснованиях, Rationalyst отслеживает пошаговые решения проблем, генерируя обоснования для каждого этапа, чтобы направлять выбор оптимальных следующих шагов. При оценке различных логических задач RATIONALYST добился повышения точности в среднем на 3,9%, превзойдя GPT-4.
arxiv.org | Github.com

✔️ Выпущена новая версия Python 3.13 🔗 Скачать

✔️ Qualcomm представил чип A7 Elite, оптимизированный для работы с ИИ.

Networking Pro A7 Elite - новый чип для маршрутизаторов и сетевых устройств. Чип основан на новом стандарте Wi-Fi 7. A7 Elite может управлять до 16 потоками данных, это вдвое больше возможности предыдущей версии стандарта. A7 Elite преобразует данные с помощью 4096-QAM, технологии, которая кодирует на 20% больше информации в каждом импульсе по сравнению с методом в Wi-Fi 6.

Другая новая функция, MLO, позволяет маршрутизатору Wi-Fi 7 распределять соединение по нескольким радиочастотным диапазонам. Qualcomm утверждает, что маршрутизаторы, оснащенные A7 Elite, могут обеспечить пропускную способность до 33 ГБ\с.

A7 Elite интегрирован с сопроцессором ИИ, который имеет максимальную производительность 40 TOPS. Этот сопроцессор позволяет устройствам Wi-Fi, оснащенным A7 Elite, запускать модели ИИ локально. Qualcomm предлагает библиотеку из 100 предварительно оптимизированных моделей ИИ, чтобы упростить разработку программного обеспечения для производителей сетевого оборудования.
siliconangle.com

@ai_machinelearning_big_data

#news #ai #ml


Репост из: AI Для Всех
🤖 Новый визуальный гид по Mixture of Experts (MoE)!

Маартен Гроотендорст выпустил замечательное визуальное руководство по MoE — методу, который помогает улучшить качество и эффективность больших языковых моделей. В этом руководстве представлено более 50 иллюстраций, которые наглядно объясняют, как работает MoE и почему это важно для современных технологий искусственного интеллекта.

Что такое MoE?

MoE — это метод, использующий несколько компонентов, называемых "экспертами". Каждый эксперт обрабатывает различные виды информации, а специальный "роутер" решает, каких экспертов использовать для каждой части текста. Это помогает модели работать быстрее и использовать меньше ресурсов, так как активируется только нужная часть экспертов.

Эксперты не специализируются на конкретных областях, таких как "Психология" или "Биология". Вместо этого они анализируют определенные языковые шаблоны. Роутер выбирает подходящего эксперта для каждого кусочка текста, называемого "токеном". Токен — это, например, слово или его часть.

Если хотите узнать больше про MoE, обязательно посмотрите визуальное руководство Маартена Гроотендорста!

Визуальное руководство по Mixture of Experts (MoE)


С момента моего прошлого обзора Edge плат прошло уже два года. И кажется, что с тех пор многое поменялось. Jetson уже не самая популярная плата (но самая удобная). Стало больше крупных игроков. Те кто были игроками второго плана (Hailo и Jetson) - стали де-факто стандартами.
За последний год было столько релизов Edge - плат сколько не было за предыдущие года два.
Пора делать новый обзор!
Мне кажется что он получился достаточно всеобъемлющим. И может его хватит на следующие пол года - год. Я попробовал уйти от прошлой логики где все платы были отбенчмарканы, так как их стало слишком много.
Удобнее всего читать статью. Но записал и видео, чтобы можно было посмотреть в фоне.
статья - @zlodeibaal/cookbook-for-edge-ai-boards-2024-2025-b9d7dcad73d6' rel='nofollow'>https://medium.com/@zlodeibaal/cookbook-for-edge-ai-boards-2024-2025-b9d7dcad73d6
видео - https://youtu.be/wnMFBqDalnE
Возможно будет ещё версия на хабре, но пока не знаю.


Original post link: t.me/CVML_team/304
Forwarded and filtered by @smartfeed_bot


This is a daily stats digest!
Today the bot processed: 32 messages
Today you received: 4 messages
Our filtering prevented you from: 28 messages

Top 3 source channels:
Нейроинтерфейсы: 8 message(s)
Machinelearning: 6 message(s)
Математика Дата саентиста: 6 message(s)


React to posts with 👍, 👎, ❤️, or 🔥. Spot spam? Mark it with 🤬 or 💩. Your input is valuable!
Text t.me/OlegBEZb if you want to see something else in the daily report


Репост из: AI[ex]Time
Kaggle соревнование lmsys chatbot arena, часть 2. Технические подходы.

В продолжение разбора соревнования обещал написать вторую часть с техническим обзором. Время пришло.

Задачу можно было решать двумя вариантами: добавить голову и учить модель на задачу классификации или же оставить предсказание следующего токена и напрямую предсказывать токен-метку. Разницы особой нет, но во втором случае можно использовать много разных фреймворков с оптимизациями обучения и инференса по типу unsloth.

Бейзлайн выглядит так:

1. Берем llama3-8B или gemma2-9B
2. Учим лору, вставляя адаптеры во все линейные слои
3. Инференсим квантизованную модель в int4/8 без мерджа весов адаптеров

Улучшить решение можно было несколькими способами:

1. Pseudo-labeling. берем какой-нибудь lmsys-1M-dataset, составляем пары ответов на один промпт и размечаем llama3.1_405B. Были попытки и с нуля генерировать синтетические данные, но докидывали они значительно меньше, все-таки распределение данных в таком случае сильно отличается от целевого.
2. External Datasets. Просто докидываем больше данных в post pre-train. Важно, что не в финальный fine-tune, тк на последнем шаге лучше использовать только данные из соревнования. Много интересных датасетов можно найти в RLHFlow. Авторы так же в свое время писали неплохую статью про RLHF.
3. Ensembling. Пришлось пробовать много разных моделей: MistralNemo, Llama3/3.1, Phi, Yi, Qwen, Gemma и тд. Лучше всего заработала gemma2-it, причем с большим отрывом по сравнению с другими моделями. На втором месте Llama3 (интересно, что 3.1 не докидывала). Удивительно, но модели от Mistral вообще не могли справиться с задачей.
Если добавить всякие оптимизации во время инференса (dynamic batch size, dataset length sorting), где-то пожертвовать длиной контекста, то можно было уместить на 2xT4 инференс gemma + llama за 9 часов. Gemma работала значительно дольше, в частности, из-за огромного словаря.
4. Inference tricks. Всякие мелкие, но важные детали. Например, если мы используем ансамбль, то в одну модель лучше отправлять question-responseA-responseB, а в другую ответы поменять местами, чтобы добавить больше разнообразия. Важно также выставить truncation left side, чтобы жертвовать токенами из начала — они меньше влияет на предикт модели. Кто-то лез совсем в детали и выключал logit soft-capping в gemma, писали, что докидывает пару тысячных на лб — типичный кегл 😋
Кстати, если я не ошибаюсь, это первое соревнование, в котором завели инференс 33B моделей: vllm + квантизация AWQ + Tensor Parallel.

5. И напоследок прием, который зарешал больше всех — Distillation. Парень с таким подходом и взял первое место. Логика следующая:
1. Бьем весь трейн на 5 фолдов.
2. Тренируем на фолдах Llama3-70B и Qwen2-72B и размечаем весь датасет их предиктами.
3. Опять же на фолдах дистиллируем предикты больших моделей в gemma2, используя самый простой KL loss. Учим только LoRA адаптеры и в итоге получаем 5 моделей.
4. Усредняем веса всех адаптеров и получаем с помощью такого model merging финальную модель.
5. На все про все — А100 80G * 8 + ZeRO2

Часть 1 про лик в соревновании


За последний месяц произошел какой-то бум опенсорса. Сами оцените, вот краткая сводка:

➡️ NVIDIA релизнули Nemotron 51B, NVLM 1.0 (мультимодальную), OpenMath, Nemotron Reward, RADIO
➡️ Llama 3.2 – первая VLM от Meta. Кроме того, компания дропнула SAM 2.1 и CoTracker 2.1
➡️ Molmo от AllenAl, очень впечатляюще
➡️ Emu3 от BAAI: моделька полностью на next token prediction, умеет работать с видео/картинками/текстом как на вход, так и на выход
➡️ Даже OpenAl в стороне не осталась: компания выложила веса для модельки транскрибирования аудио whisper 3
➡️ И это не все: еще Google обновили Gemma для японского, Apple релизнули Depth Pro, IBM вместе с NASA выкатили Prithvi WxC для прогнозов погоды, у ColQwen2 вышел visual retriever на основе Qwen2-VL и ColBERT, и конечно мы увидели новую Llava

Красивое 🤩


Original post link: t.me/data_secrets/5096
Forwarded and filtered by @smartfeed_bot


Репост из: Machinelearning
📎 Machine Learning: Медицинский дайджест за период 30.09 - 06.10 2024 г.

▶️ Модели машинного обучения и бенчмарки

🔘OmniGenBench: платформа для автоматизированного бенчмаркинга геномных моделей.

Платформа с открытым исходным кодом, предназначенная для бенчмаркинга геномных фундаментальных моделей.

🔘PocketDTA: модель прогнозирования близости препарат - целевой материал.

PocketDTA - модель для предсказания drag-target affinity (DTA), использующая трехмерную структурную информацию о лекарстве и целевом материале.


▶️ Фреймворки и методологии

🔘ZODIAC: многоагентная платформа на основе LLM для кардиологической диагностики.

ZODIAC разработан для помощи кардиологам в диагностике клинически значимых аритмий с использованием данных пациентов, собранных в реальных условиях.

🔘Обучение с "забыванием" знаний для предсказания мутаций белков.

PROEDIT - методика обучения с техникой с "забыванием знаний" (knowledge unlearning) для выборочного удаления информации из предварительно обученной языковой модели белка для прогнозирования эффекта мутации.

🔘ReXplain: конвертация рентгенологических данных в понятные видеоотчеты.

ReXplain (Radiology eXplanation) - система на основе ИИ, которая генерирует понятные для пациентов видеоотчеты по результатам рентгенологических исследований.

🔘Оценка LLM в медицине с помощью прокси-задач.

Методология оценки медицинских аргументов, сгенерированных LLM, основанная на прокси-задачах и ранжировании. Позволяет точнее сопоставить результаты с критериями оценки человека и преодолеть типичные галлюцинации в LLM, используемых в качестве оценщиков.

🔘MVSF-AB: метод предсказания аффинности связывания антитело-антиген.

MVSF-AB - метод, основанный на машинном обучении, который использует информацию о последовательности антитела и антигена для точного предсказания аффинности связывания.


▶️Исследования и обзоры.

🔘Выбор моделей на основе данных для зашумленных биологических систем.

Метод построения математических моделей биологических систем с использованием данных и нейронных сетей.


🔜 Читать полный дайжест


@ai_machinelearning_big_data


Репост из: Нейроинтерфейсы
Попробуем угадать лауреата BCI Award 2024?

Уже во вторник, 8 октября, будут объявлен лауреат 2024 года главной нейроинтерфейсной премии BCI Award, а также кто займет второе и третье места.

Вот полный список проектов:

1 Synthetic touch for brain-controlled bionic hands: tactile edges and motion via patterned microstimulation of the human somatosensory cortex
Giacomo Valle, Ali H. Alamri, John E. Downey ... Robert A. Gaunt, Charles M. Greenspon, Sliman J. Bensmaia
University of Chicago, University of Pittsburgh, Northwestern University, Shirley Ryan Ability Lab

2 A brain to spinal cord digital bridge to restore voluntary arm and hand movements after a spinal cord injury
Thibault Collin, Icare Sakr, Valeria Spagnolo ... Jocelyne Bloch, Grégoire Courtine, Henri Lorach
EPFL, Lausanne University Hospital, University of Lausanne, ONWARD Medical, Clinatec

3 A streaming silent-speech neuroprosthesis for restoring naturalistic communication
Cheol Jun Cho, Kaylo T. Littlejohn, Jessie R. Liu ... David A. Moses, Edward F. Chang, Gopala K. Anumanchipalli
UCB, UCSF

4 Brain-controlled augmented hearing for spatially moving conversations in multi-talker environments
Vishal Choudhari, Cong Han, Stephan Bickel, Ashesh D. Mehta, Catherine Schevon, Guy M. McKhann, Nima Mesgarani
Columbia University, Hofstra Northwell School of Medicine, The Feinstein Institutes for Medical Research

5 Passive Intraoperative Tumor Mapping Using Electrocorticography
Yihan Wu, Tao Chang, Siliang Chen, Gerwin Schalk, Ning Jiang, Qing Mao, Yuan Yang, Jiayuan He
Sichuan University, Mayo Clinic, Fudan University

6 Human Motor Cortex Encodes Complex Handwriting Through a Sequence of Primitive Neural States
Yu Qi, Xinyun Zhu, Xinzhu Xiong ... Junming Zhu, Jianmin Zhang, Yueming Wang
Zhejiang University School of Medicine, NANHU Brain-Computer Interface Institute, Zhejiang University

7 Efficacy of brain-computer interface training with motor imagery-contingent feedback in improving upper limb function and neuroplasticity among persons with chronic stroke: a double-blinded, parallel-group, randomized controlled trial
Joon-Ho Shin
National Rehabilitation Center [Korea]

8 Endogenous modifications in M1 activity allows online error detection and correction in human BCI
Camille Gontier, Nicolas Kunigk, William Hockeimer, Edgar Canario, Brian Dekleva, Jeff Weiss, Jennifer L. Collinger
University of Pittsburgh

9 Project HYBIS: Electrotactile BCI for Top-Down Somatosensory Training
Andrej M. Savić, Marija Novičić, Vera Miler Jerković, Olivera Đorđević, Ljubica Konstantinović
University of Belgrade, Clinic for Rehabilitation “Dr Miroslav Zotović”

10 Intuitive avatar control through a non-invasive multimodal Brain-Computer Interface
Taiga Seri, Seitaro Iwama, Kurumi Adachi, Junichi Ushiba
Keio University

11 Large-scale data practicalizes EEG-based speech decoding
Motoshige Sato, Kenichi Tomeoka, Ilya Horiguchi, Kai Arulkumaran, Ryota Kanai, and Shuntaro Sasai

Araya Inc.

12 Robust online movement prediction from EEG data for post-stroke rehabilitation
Niklas Kueper, Su Kyoung Kim, Mathias Trampler, Marc Tabie, Kartik Chari, Elsa Kirchner
German Research Center for Artificial Intelligence, University of Duisburg-Essen

Ном
инантов двенадцать, а телеграм позволяет создавать голосования только по 11 позициям, поэтому разбиваем проекты на две группы. Просьба проголосовать только в одной из них.

Голосование будет идти до начала церемонии объявления победителей (15:00 МСК).

Голосуем!


This is a daily stats digest!
Today the bot processed: 35 messages
Today you received: 0 messages
Our filtering prevented you from: 35 messages

Top 3 source channels:
Нейроинтерфейсы: 24 message(s)
Machinelearning: 4 message(s)
Data Secrets: 4 message(s)


React to posts with 👍, 👎, ❤️, or 🔥. Spot spam? Mark it with 🤬 or 💩. Your input is valuable!
Text t.me/OlegBEZb if you want to see something else in the daily report

Показано 20 последних публикаций.