AI Для Всех


Гео и язык канала: не указан, Русский


Канал, в котором мы говорим про искусственный интеллект простыми словами
Главный редактор и по рекламе: @crimeacs
Иногда пишут в канал: @GingerSpacetail, @innovationitsme

Связанные каналы  |  Похожие каналы

Гео и язык канала
не указан, Русский
Статистика
Фильтр публикаций


Репост из: DLStories
Мы наконец открыли набор на осенний семестр Deep Learning School!

DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами. В этом семестре мы улучшили многие занятия, записали новые версии лекций и семинаров и обновили домашки.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.

Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).

Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.

Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.

Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.

❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.

Старт обучения — 21 сентября. В этот день откроется первое занятие и будет живой вводный вебинар.

Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.

Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty

Если остались вопросы, пишите нам на почту (dlphystech@gmail.com) или в комментарии под этим постом.

Ждём вас в чатике курса в новом семестре!


- o1 использовалась исследователями для создания бота GitHub, который пингует нужных CODEOWNERS для обзора
- Во внутренних тестах o1 задавала себе сложные вопросы для оценки своих возможностей
- Широкие знания о мире добавляются и будут улучшаться в будущих версиях
- Для будущих итераций модели планируются более свежие данные для o1-mini (сейчас октябрь 2023)

Техники и лучшие практики промптинга

- o1 выигрывает от стилей промптов, которые предоставляют крайние случаи или стили рассуждений
- Модели o1 более восприимчивы к подсказкам для рассуждений в промптах по сравнению с более ранними моделями
- Предоставление релевантного контекста в генерации с дополнением извлечением (RAG) улучшает производительность; нерелевантные куски могут ухудшить рассуждения

Общая обратная связь и будущие улучшения

- Ограничения скорости низкие для o1-preview из-за раннего этапа тестирования, но будут увеличены
- Активно ведутся работы над улучшением задержки и времени вывода

Замечательные возможности модели

- o1 может размышлять над философскими вопросами, такими как "Что такое жизнь?"
- Исследователей впечатлила способность о1 справляться со сложными задачами и обобщать на основе ограниченных инструкций
- Способности o1 к творческому рассуждению, такие как самотестирование для оценки своих возможностей, демонстрируют её высокоуровневое решение проблем​​​​​​​​​​​​​​​​


Итоги AMA с командой OpenAI o1

Названия моделей и парадигма рассуждений

- OpenAI o1 названа так, чтобы отразить новый уровень возможностей ИИ; счётчик сброшен на 1
- "Preview" указывает на то, что это ранняя версия полной модели
- "Mini" означает меньшую версию модели o1, оптимизированную для скорости
- o - как OpenAI
- o1 не "система"; это модель, обученная генерировать длинные цепочки мыслей перед выдачей окончательного ответа
- Иконка o1 метафорически представляет собой пришельца с необычайными способностями (виза талантов О1 в США по которой работает большое количество людей в OpenAI)

Размер и производительность моделей o1

- o1-mini намного меньше и быстрее o1-preview, поэтому в будущем будет предложена бесплатным пользователям
- o1-preview - ранняя контрольная точка модели o1, размер тот же
- o1-mini лучше справляется с задачами STEM, но имеет ограниченные знания о мире
- o1-mini превосходит o1-preview в некоторых задачах, особенно связанных с кодом
- Входные токены для o1 рассчитываются так же, как для GPT-4o, используя тот же токенизатор
- o1-mini может исследовать больше цепочек мыслей по сравнению с o1-preview

Контекст входных токенов и возможности модели

- Скоро появятся бóльшие входные контексты для моделей o1
- Модели o1 могут справляться с более длинными, открытыми задачами с меньшей необходимостью разбивки входных данных по сравнению с GPT-4o
- o1 может генерировать длинные цепочки мыслей перед предоставлением ответа, в отличие от предыдущих моделей
- В настоящее время нет возможности приостановить вывод во время CoT для добавления дополнительного контекста, но это изучается для будущих моделей

Инструменты, функциональность и предстоящие функции

- o1-preview пока не использует инструменты, но планируется поддержка вызова функций, интерпретатора кода и браузер
- В будущих обновлениях будут добавлены поддержка инструментов, структурированные выходные данные и системные промпты
- В будущих версиях пользователи, возможно, получат контроль над временем размышления и ограничениями токенов
- Ведутся работы по включению потоковой передачи и учёта прогресса рассуждений в API
- Мультимодальные возможности встроены в o1, нацелены на наилучшую производительность в задачах типа MMMU

Рассуждения CoT (Chain of Thought)

- o1 генерирует скрытые цепочки мыслей во время рассуждений
- Нет планов раскрывать токены CoT пользователям API или ChatGPT
- Токены CoT суммируются, но нет гарантии верности реальному ходу рассуждений
- Инструкции в промптах могут влиять на то, как модель думает о проблеме
- Обучение с подкреплением (RL) используется для улучшения CoT в o1, и GPT-4o не может сравниться с его производительностью CoT только через промпты
- Этап размышления кажется медленнее, потому что он суммирует процесс мышления, хотя генерация ответа обычно быстрее

API и ограничения использования

- o1-mini имеет еженедельное ограничение в 50 промптов для пользователей ChatGPT Plus
- Все промпты в ChatGPT считаются одинаково
- Со временем будут введены новые уровни доступа к API и более высокие ограничения
- Кэширование промптов в API - популярный запрос, но сроки пока не определены

Ценообразование, файнтюнинг и масштабирование

- Ожидается, что цены на модели o1 будут следовать тенденции снижения каждые 1-2 года
- Batch ценообразование API будет поддерживаться после увеличения ограничений
- Файнтюнинг в планах, но сроки пока не определены
- Масштабирование o1 ограничено исследовательскими и инженерными талантами
- Новые парадигмы масштабирования для вычислений могут принести значительные выгоды в будущих поколениях моделей

Разработка модели и исследовательские выводы

- o1 была обучена с использованием обучения с подкреплением для достижения производительности в рассуждениях
- Модель демонстрирует творческое мышление и высокую производительность в нестандартных задачах, таких как поэзия
- Философские рассуждения o1 и способность к обобщению, например, расшифровка шифров, впечатляют


Революция в мире ИИ: Что мы узнали о модели O1 от разработчиков OpenAI

Компания OpenAI, известная своими передовыми разработками в области искусственного интеллекта, недавно провела сессию "Спрашивай меня о чём угодно" (AMA), посвященную своей новейшей модели O1. И вот что мы узнали:

O1 — это не просто очередное обновление. Название модели символизирует новый отсчёт в развитии ИИ, начало принципиально нового подхода. Главная особенность O1 заключается в её способности генерировать длинные цепочки рассуждений перед формулировкой окончательного ответа. Как отметил один из разработчиков: "O1 — это не итерация, а смена парадигмы в подходе к рассуждениям ИИ".

Ключевые возможности O1 включают:

1. Продвинутые рассуждения: модель способна создавать скрытые цепочки мыслей, что позволяет ей эффективно решать сложные задачи.
2. Оптимизированные версии: вариант "Мини" разработан для быстрой работы, что расширяет сферу применения модели.
3. Улучшенная работа в области точных наук: O1-мини демонстрирует выдающиеся результаты в задачах, связанных с программированием и точными науками.

Несмотря на впечатляющие достижения, у O1 есть области для совершенствования. Версия "Мини" обладает ограниченными знаниями о мире по сравнению с полной версией. Кроме того, некоторые функции, такие как вызов внешних инструментов, интерпретация кода и просмотр веб-страниц, пока находятся в разработке.

Процесс создания O1 был полон вызовов. Команда столкнулась с серьёзными трудностями при масштабировании модели и оптимизации её способностей к рассуждению. Интересно, что во время внутреннего тестирования O1 демонстрировала способность к самооценке, задавая себе сложные вопросы для проверки собственных возможностей.

Разработчики уделили особое внимание этическим аспектам. Хотя O1 может генерировать длинные цепочки рассуждений, эти скрытые процессы мышления не будут доступны пользователям. Это решение призвано обеспечить баланс между прозрачностью работы системы и безопасностью её использования.

В сравнении с другими моделями, O1 выделяется своим уникальным подходом к рассуждениям и решению задач. В отличие от GPT-4o, производительность O1 в построении цепочек рассуждений не зависит исключительно от промптов. Как пояснил один из разработчиков: "GPT-4o не может сравниться с O1 в рассуждениях только с помощью промптов; архитектура O1 фундаментально меняет правила игры".

Планы по развитию O1 включают:
- Внедрение поддержки внешних инструментов, включая вызов функций и интерпретацию кода.
- Расширение возможностей пользовательского контроля, в том числе над временем обработки запросов и лимитами токенов.
- Развитие мультимодальных возможностей для работы с различными типами данных.

Команда OpenAI рассматривает O1 как важный шаг на пути к созданию ещё более совершенных моделей ИИ. Ведутся исследования новых подходов к масштабированию вычислений, что может привести к значительному прогрессу в будущих версиях.

Потенциал применения O1 огромен: от автоматизации сложных задач программирования до улучшения понимания естественного языка в сфере обслуживания клиентов. Однако разработчики подчёркивают важность ответственного подхода к внедрению таких технологий и продолжают активно обсуждать вопросы безопасности ИИ.

Сессия AMA предоставила уникальную возможность заглянуть в будущее искусственного интеллекта. O1 не просто демонстрирует впечатляющие технические возможности — она знаменует новый этап в развитии ИИ, открывая дорогу к более глубокому и эффективному машинному мышлению. По мере развития этой технологии мы можем ожидать значительных изменений в различных сферах, где применяется искусственный интеллект.​​​​​​​​​​​​​​​​

Почитать АМА целиком


Готовы познакомиться с нуля с машинным обучением для реальных задач?

19 сентября Mathshub запускает бесплатный курс, где вы изучите практическую работу с алгоритмами, используемыми в скоринге, рекомендательных системах, компьютерном зрении, ChatGPT и автопилотах.

Программа курса
1. Оптимизация и внедрение ML-моделей, работа с pipeline, предобработкой данных и кросс-валидацией
2. Библиотеки PyTorch, NLTK, sklearn для повышения производительности
3. Реализация нейросетей, разработка классификационной модели для компьютерного зрения

Живые сессии, практические задания, финальный проект и сертификат по окончании.

Преподаватель
Олег Булыгин — Data Scientist с 7-летним опытом в космической отрасли и 6-летним преподавательским стажем. Специалист по внедрению ML-решений в реальных проектах.

О Mathshub
Международная школа с более чем 40 000 студентов. 93% завершения курсов, средняя оценка 9/10, более 3 000 выданных сертификатов. Индивидуальный подход и акцент на практическое обучение.

🚀 Регистрация уже открыта!

#реклама


Видео недоступно для предпросмотра
Смотреть в Telegram
AlphaProteo: ИИ, который подбирает «ключи» для биологических замков

Среди авторов канала есть drug delivery & drug discovery scientist, поэтому сегодня разговор об этой сфере.

Одна из гиганских проблем разработки лекарств - побочные эффекты из-за неспецифических взаимодействий лекарства со всем подряд в нашем организме. Ее можно решить, например, инкапсулировав лекарство в наночастицу, которая распакуется, когда попадет внутрь целевой клетки из-за изменения pH. Тут возникает проблема доставки уже наночастицы в целевые клетки.

Для наглядности представьте, что вам нужно доставить посылку, только она магнитная: на нее всякое налипает, и она ко всему прилипает.
Ваша задача — создать такую посылку, чтобы она сильнее всего "прилипла" ровно к нужным дверям.
Для этого наночастицу "украшают" хитрым лигандами, которые взаимодействуют только с рецепторами, присутвующими в целевой клетке. И лиганды, и рецепторы - это белки. Мне нравится думать о них как о ключах и замках.

Анонсированная 5 сентября модель AlphaProteo от DeepMind выглядит для такой задачи очень и очень полезной. Она не просто ищет существующие ключи, но и генерирует новые, позволяя ученым разрабатывать биоструктуры с полезными функциями.

Да, функциями. Это ещё один слой проблем и возможностей drug discovery. Функция белка ведь зависит от структуры, если мы прикрепили что-то к белку, его функция может измениться. В биологии на каждом шагу нежданчик, и DeepMind очень старается помочь предсказывать возможные варианты.

В качестве теста AlphaProteo сгенерил лиганды для двух целевых вирусных белков (BHRF1 и SC2RBD домен связывания рецептора спайкового белка SARS-CoV-2), и для пяти белков, участвующих в развитии рака, воспаления и аутоиммунных заболеваний (IL-7Rɑ, PD-L1, TrkA, IL-17A и VEGF-A).
А потом проверили в настоящей лаборатории.

Под капотом все те же сверточные нейронные сети (CNN) и трансформеры, которые обрабатывают последовательности аминокислот и предсказывают их 3D-структуру с атомарной точностью, а также потенциальные функции белков.

Тренировочные данные - Protein Data Bank белков с известными структурами и функциями и более 100 млн белков авторства AlfaFold, отполировано обучением с подкреплением (reinforcement learning) и методами оптимизации энергетических ландшафтов.

Поиграться пока нельзя, возможно, добавят функционал в 🧬alphafold server
Пока только 📝пост
И 📖whitepaper


Обмани астрономию, если сможешь

У меня есть новости для тех, кто как и я думал, что школьные уроки астрономим им нигде и никогда не пригодятся. Если заинтриговал, то читаем далее 😊

Одним из побочных эффектов повсеместного распространения ИИ является рост deep-fake изображений и видео.

Задача распознавания дипфейков становится все сложнее, так как их качество растет с каждым днём пропорционально развитию ИИ моделей.

Как быть? Помощь пришла с совсем неожиданной стороны: астрономия 🌌

Британские учёные придумали новый метод обнаружения изображений, сгенерированных ИИ.

Метод использует анализ отражений в глазных яблоках человека. Реальные изображения показывают постоянные отражения в обоих глазах, а дипфейки в большинстве случаев - нет.

Метод заимствует инструменты из астрономии, такие как коэффициент Джини, обычно используемый для изучения изображений галактик.

Хотя этот метод не является 100% надежным, он предлагает новый подход к решению проблемы обнаружения дипфейков и их быстрой предварительной фильтрации.

Хотите определить дипфэйк, ищите звёзды в их глазах 👀

Блог


Sapiens: основа для моделей человеческого зрения

Meta Reality Labs представляет Sapiens, семейство моделей для четырех основных задач человеческого зрения: оценка 2D-позы, сегментация частей тела, оценка глубины и прогнозирование нормалей поверхности.

Модели поддерживают высокое 1К разрешение "из коробки" и легко тюнятся для отдельных задач путем простой тонкой настройки. Для обучения использовались более чем 300 миллионов изображений человека в дикой природе.

Полученные модели демонстрируют замечательное обобщение для данных в дикой природе, даже когда маркированные данные скудны или полностью синтетические.

Конструкция модели также обеспечивает масштабируемость — производительность модели в разных задачах улучшается по мере того, как мы масштабируем параметры от 0,3 до 2 миллиардов.

Sapiens постоянно превосходит существующие базовые показатели в различных бенчмарках, ориентированных на человека.

🖥️ Блог

📜 Paper


Flux Pro + Claude.

Использовал Claude для того что бы улучшать промт для Flux.

1. Генерируем промпт по вашему описанию (кошка в пустыне)
2. Генерируем 4 изображения
3. Подаем эти изображения обратно в Claude и просим улучшить
4. Получаем промпт для генерации
5. Повторять 2-3 раза

https://fal.ai/models

А еще приходите нас навестить в кэмпе Blue CATerpillar на 9&I


🤙Чат: какая сейчас самая Крутая LLM без интернета на айфон? Хочу установить и в пустыне без интернета пользоваться


The AI Scientist: Автоматизация научных исследований

Японская исследовательская лаборатория Sakana.ai представила миру своего ИИ ученого - систему, предназначенную для автоматизации всего цикла научных исследований. Он создан, чтобы снизить трудозатраты на проведение научных экспериментов и написание статей, особенно в области машинного обучения.

Плюсы:
1. Автоматизация процессов: AI Scientist способен самостоятельно генерировать исследовательские идеи, писать код, проводить {computational} эксперименты и анализировать результаты. Это позволяет значительно ускорить исследовательский процесс.

2. End-to-end: Система охватывает весь цикл научного исследования от формулирования гипотез до написания и рецензирования научных статей. Это делает возможным проведение исследований без необходимости в ручной работе со стороны человека.

3. Open-source: Код проекта и его подробное описание открыты для всех. Это позволяет другим исследователям и разработчикам изучать, модифицировать и применять технологию в своих проектах.

Ограничения:
1. Сфера применения: Сейчас AI Scientist натренин и может использоваться в области машинного обучения. Расширение на другие научные дисциплины потребует дополнительных усилий.

2. Креативность исследований: Хотя система способна генерировать научные идеи и критически их оценивать, текущая версия системы работает в основном с уже существующими данными и моделями, это, конечно, ограничивает инновационность создаваемых результатов.

3. Human-in-the-loop: Контроль со стороны человека безусловно необходимым. Это особенно важно на этапах проверки гипотез и интерпретации результатов, где необходимы экспертные знания.

The AI Scientist задуман, чтобы взять на себя рутинные задачи исследователей. И кажется, это новый рубеж, в котором машина становится не просто ассистентом, а полноценным аспирантом ученым.

💻Код
😤Статья об AI Scientist, написанная людьми
💻Статья авторства самого AI Scientist (их в repo много)


Кто едет на Burning Man 2024?

Друзья, this time of year again! На плаю потихонечку съезжаются люди. Строится храм и человек!

Я уверен что нас тут больше одного человека, которые едут на Берн. У меня уже есть билет, но вот с Кэмпом пока не определился. Кто еще едет?

Давайте сорганизуемся!


🚀 Друзья, мы нашли крутую визуализацию для понимания архитектуры Transformer!

🧠 Transformer - это основа современных языковых моделей, таких как GPT и BERT.

🔍 "Transformer Explainer" позволяет заглянуть внутрь этой технологии:

- Embedding: преобразование текста в числа
- Self-Attention: внимание на важные части данных
- Feed-Forward Networks: обработка информации

🎮 Интерактивные возможности:
- Ввод собственного текста
- Наблюдение за работой внимания
- Эксперименты с температурой генерации

🔗 Потрогать трансформер
📽️ Посмотреть видео

Отличный инструмент для всех, кто интересуется ИИ!


AGI для настольного тенниса

Google DeepMind разработали робота, который может играть в настольный теннис на высоком уровне, бросая вызов опытным игрокам.

Эти роботы используют:

- Компьютерное зрение для отслеживания мяча и движений противника

- Роботизированные руки/суставы для быстрых и точных ударов

- ИИ для предугадывания движений противника и разработки стратегии

Хотя это в первую очередь исследовательский проект, возможно в недалеком будущем матчи человек-робот могут стать реальностью.

Сыграли бы вы в настольный теннис с роботом? 🏓🤖

💻 Блог


Визуальные Эмбеддинги от Nomic: SOTA в мультимодальном поиске

Команда Nomic дерзнула и поместила публичную коллекцию Метрополитен-музея искусства в латентное пространство, внедрив 250 000 произведений в свою новейшую модель эмбеддингов. Это впечатлило MET, и они зарегистрировались на Hugging Face. Трогательно, когда самый популярный музей США таким твистом вкатывается в ИТ.

А нам теперь можно искать произведения искусства, вводя запросы типа "картина маслом с цветами и собаками" — это первый в своем роде семантический поиск предметов искусства 🖼️🔎

Что под капотом:
Vision Encoder: 92M параметров.
Text Encoder: 137M параметров.
Натренированы на 1.5 млрд пар "изображение-текст" (DFN-2B).
Vision Encoder инициализирован с Eva02 MIM ViT B/16, Text Encoder — с Nomic Embed Text.

Обучали 3 полных эпохи на 16 H100 GPUs, размер батча — 65,536.
Contrastive Learning: обучение с использованием image-text pairs.
Locked Text Image Tuning (LiT): замороженный текстовый энкодер.

В результате получили SOTA модель, обошедшую OpenAI CLIP
Imagenet 0-shot: 71.0 (v1.5)
Datacomp Avg.: 56.8 (v1.5)
MTEB Avg.: 62.28 (v1.5)

Если хотите свое унифицированное латентное пространство для мультимодальных задач и семантический поиск по изображениям и текстам одновременно, модель доступна под лицензией CC-BY-NC-4.0

MET map
📃Пост
🌐Repo
🤗v1.5


RLHF: не совсем то, чем кажется

Привет, друзья! Сегодня поговорим о RLHF (обучение с подкреплением на основе обратной связи от людей). Это важный этап в создании языковых моделей, но давайте разберемся, почему он не так крут, как кажется на первый взгляд.

🎮 Представьте, что мы учим ИИ играть в шахматы или Go. Настоящее обучение с подкреплением (RL) - это когда ИИ играет тысячи партий сам с собой и учится выигрывать. А RLHF? Это как если бы мы показывали 2 доски с ходами ИИ и спрашивали людей: "Какая из этих позиций вам нравится больше?".

📊 В RLHF мы создаем "модель наград" на основе человеческих оценок. ИИ потом пытается "понравиться" этой модели. Но это не то же самое, что научиться реально побеждать!

🤔 Почему же RLHF все-таки работает для языковых моделей?
1. Людям проще выбрать лучший ответ из нескольких, чем самим написать идеальный.
2. RLHf помогает уменьшить "галлюцинации" ИИ.

🚀 Но представьте, если бы мы могли применить настоящее RL к языковым моделям! Это был бы огромный прорыв. Пока что это сложно, потому что трудно определить четкие "правила игры" и "победу" для разговора или написания текста.

💡 Итог: RLHF - полезный инструмент, но это не то волшебное RL, которое привело к победе AlphaGo над чемпионами мира. Будущее за тем, кто сможет применить настоящее RL к языковым моделям!

Пост Андрея


Новый трек Sber500 и GigaChat: открыт прием заявок для AI-стартапов 🔥

Акселератор Sber500 вместе с GigaChat запустили отдельный трек для стартаперов, готовых интегрировать AI-сервис GigaChat в свои решения — уже готовые или новые.

Подавай заявку до 10 августа по ссылке. Лучшие кейсы представим на международной конференции AI Journey 2024.

✔️Кого ждем среди участников:
- команды действующих стартапов стадии MVP и выше,
- впервые для Sber500 — индивидуальных участников с идеей.

✔️Что ты получишь за 10 недель программы:
- возможность работы с международными менторами и трекерами акселератора Sber500,
- помощь от партнера трека Школы 21 с поиском IT-специалистов для реализации идеи.

Участвуйте в акселераторе, чтобы стать частью классного комьюнити российских фаундеров и создать яркое AI-решение для рынка вместе с GigaChat.

Регистрация по ссылке.

#Реклама ООО "СТАРТЕХ БАЗА" ИНН 5047276050 Erid: 2VtzqvY69to


Apple идёт в Open-Source!

Apple выпустила и полностью открыла DCLM, 7B LLM, включая веса, код обучения и датасет.

DCLM превосходит Mistral/Qwen2/Gemma по разным бенчмаркам. Основные данные на английском языке, окно контекста 2048, лицензия Apple Sample Code License.

Модель обучена на 2.5 трлн токенов с использованием DataComp-LM (DCLM) и данных из Common Crawl. DCLM - тестовая платформа для контролируемых экспериментов с данными

AI Стратегия Apple кардинально изменилась в сторону Open-Source, что может означать большие планы для AI на их устройствах.

🤗HuggingFace


Замечена реклама Claude в аэропорту Сан-Франциско


Видео недоступно для предпросмотра
Смотреть в Telegram
Синтетическая реальность. Громкое обновление в проекте GR00T: метод аугментации данных для обучения роботов

Огромные корпусы данных позволили создать очень смышлёные LLM. Время сделать то же в робототехнике. Инженеры NVIDIA разработали решение, позволяющую в тысячу раз умножать собранные человеком-специалистом тренировочные данные для обучения роботов.
Речь идет о многообещающем проекте GR00T (да, как Грут из вселенной Марвел) и методике масштабирования обучающих данных, применяемых в робототехнике.

Как это работает:
1. Сбор реальных данных в Apple Vision Pro
NVIDIA применяет виар очки, чтобы предоставить оператору возможность полного погружения в тело робота. Vision Pro анализирует позы рук человека и перенаправляет эти движения на робота в реальном времени. С точки зрения оператора, он буквально становится роботом-аватаром, реально как в фильме "Аватар". Хотя сбор данных таким образом медленный и трудоемкий, этого вполне достаточно для создания начальной базы.
2. Генеративная симуляция в RoboCasa
Фреймворк, созданный Yuke Zhu берет небольшое количество собранных данных и умножает их, изменяя визуальный облик и планировку окружающей среды. На видео показано, как робот ставит чашку в сотнях различных кухонь с разнообразными текстурами, мебелью и расположением предметов. У компании есть только одна физическая кухня в лаборатории GEAR в NVIDIA HQ, но в симуляциях их может быть бесконечное количество.
3. Вариативность движений с помощью MimicGen
MimicGen позволяет ещё больше увеличить количество данных, варьируя движения робота. Этот метод генерирует множество новых траекторий действий на основе оригинальных данных человека и отбраковывает неудачные попытки, например, те, где чашка падает.

Take-away формула: человеческий сэмпл с использованием Vision Pro -> RoboCasa создает N визуальных вариаций -> MimicGen умножает это количество до NxM.

NVIDIA придумала способ конвертировать вычислительные ресурсы в дорогостоящие данные, собранные человеком, благодаря качественной симуляции. Данные от первого лица больше не являются ограничением из-за 24 часов/день/робот в физическом мире. Теперь ограничения только цифровые, и это очень sci-fi футуристично.

Набор для создания своей синтетической реальности (понадобится робот и много GPU):
• RoboCasa: открытый код RoboCasa
• MimicGen: открытый код для роботизированных рук, и скоро обещают версию для гуманоидов и пяти-палых рук MimicGen
• Apple Vision Pro -> гуманоидный робот "Аватар": в открытом доступе Xiaolong Wang libraries
• вдохновляющая презентация: Jensen's keynote

И бонус: лаборатория GEAR набирает лучших робототехников мира для сопоставимого по масштабам с "лунным" проекта по достижению физического AGI. Как апликнуться к ним - в посте Jim Fan (LinkedIn): GEAR lab hiring

Показано 20 последних публикаций.