AI feed


Гео и язык канала: не указан, Русский
Категория: Технологии


AI ideas pool

Связанные каналы

Гео и язык канала
не указан, Русский
Категория
Технологии
Статистика
Фильтр публикаций


Репост из: LLM под капотом
Бенчмарк Claude 3.5 Haiku - дороже и умнее

Новая младшая модель от Anthropic отражает тренд последовательного роста качества небольших моделей. Haiku в среднем подтянула очки по общим показателям, за исключением Code+Eng (*)

А еще у модели почти в два раза выросла способность мыслить! В категории Reason произошел скачок с 35 до 68. Это самое большое значение среди всех моделей Anthropic. Возможно мы видим новую архитектуру следующего поколения моделей?

На смену архитектуры намекает и четырехкратное увеличение стоимости Anthropic Haiku. Теперь она уже не "смышленая и очень дешевая". Можно найти подешевле и умнее. Например, GPT-4o Mini или Google Gemini Flash 1.5 8B.

Но общий тренд роста качества моделей радует. Посмотрим, не проявится ли рост Reason в следующих релизах моделей постарше.

Ваш, @llm_under_hood 🤗

(*) Я переименовал категорию Code в Code+Eng, чтобы точнее отражать наполнение бенчмарков - не только написание кода, но и анализ, review и интерпретация.

PS: Для тех, кто видит эти бенчмарки впервые, напомню - это закрытые продуктовые бенчмарки на основе набора задач из рабочих систем. Мы тестируем не то, как красиво модели болтают, а насколько качественно они выполняют конкретные задачи из продуктов с LLM под капотом. Про структуру и примеры бенчмарков можно прочитать в лабах или на официальном сайте бенчмарков.


Репост из: Data Secrets
Большая статья: какие альтернативы трансформерам у нас есть?

"Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов", — Андрей Карпаты.


Действительно, трансформеры сегодня – самая сильная из когда-либо существовавших архитектур, золотой стандарт нейросетей. Но, несмотря на все свои достоинства, у трансформера есть и недостатки, и это открывает двери возможного появления новых улучшенных алгоритмов.

Так кто же в 2024 году может посоревноваться с трансформером за звание серебряной пули глубокого обучения? Об этом – наша новая большая статья. В ней вы найдете детальные ответы на такие вопросы, как:

➡️Как работают трансформеры, и в чем их недостатки?
➡️Какие есть модификации алгоритма внимания, и какие из них реально используются?
➡️Почему мы отказались от RNN, и есть у рекуррентных архитектур шанс на реабилитацию?
➡️Какие альтернативы предлагают ученые в самых свежих статья?
➡️Как работают главные конкуренты трансформеров – SSM-подобные модели?

В общем, статья поможет не только глубоко погрузиться в современный ресерч, но и разобраться, что под капотом у фундаментальных архитектур. Скорее сохраняйте в ридинг-лист: https://datasecrets.ru/articles/19

Запасайтесь попкорном и какао: время чтения статьи – 26 минут 😲


Репост из: Data Secrets
Видео недоступно для предпросмотра
Смотреть в Telegram
Anthropic провели в Сан-Франциско большой хакатон: на него пригласили 200+ "элитных хакеров"

Ранее такие хакатоны проходили у Mistral, Cognition и даже Meta*. Цель подобных мероприятий проста: нужно взять LLM компании и сделать на ее основе какой-нибудь занимательный продукт. Вот, что получилось у участников с Claude:

⚙️ 1 место: робо-рука. За основу взяли робота Amazon, инструкции по управлению которым просто загрузили в Claude. А далее отрабатывало искуссно настроенное API, – в итоге модель смогла управлять рукой в реальном времени.

⚙️ 2 место: ловушка Джокера для Claude. Команда под названием China town mafia разработала капчи нового поколения для определения ИИ-агентов. Кроме интересных динамических игр парни предложили нестандартную вещь: задавать пользователю сложную математическую задачку. Если справился слишком быстро – значит, ИИ. Интересно только, не оттолкнет ли такая "фича" половину юзеров с сайта в первые же 0.001 секунду 🤡

⚙️ 3 место: ИИ-замена ПМов. Мультиагентная система, которая способна улучшить или написать с нуля качественное ТЗ. Для этого под капотом проводятся "дебаты" ИИ-агентов: обсуждение и отстаивание идей, критика, исправления. А ваш менеджер так может?

Кроме того, была еще RAG-система для ответов на вопросы (классика), и крутое приложение, которое объединило новые способности Sonnet 3.6 со скриптами Apple для управления маком только с помощью голоса.


Репост из: Machinelearning
✔️ Microsoft запускает бета-тестирование чат-бота с ИИ для Xbox.

Чат-бот "Xbox Support Virtual Agent" разработан, чтобы помочь игрокам Xbox решать проблемы, связанные с поддержкой игр. Участники программы Xbox Insiders в США могут начать тестирование нового чат-бота с искусственным интеллектом на сайте support.xbox.com.

Xbox Support Virtual Agent будет отвечать на вопросы, касающиеся поддержки консолей Xbox и игр. Чат-бот будет отображаться в виде анимированного персонажа с искусственным интеллектом, который реагирует на вопросы, или в виде красочного шара Xbox.
theverge.com

✔️ Broadcom представила VeloRAIN - первую в отрасли архитектуру для надежных ИИ-сетей за пределами ЦОДов.

VeloRAIN (Robust AI Networking) — новая архитектура, использующая ИИ и ML для повышения производительности и безопасности распределенных рабочих нагрузок ИИ.

VeloRAIN будет обладать возможностями: обнаружение ИИ-приложений с помощью машинного обучения, повышение эффективности сети и оптимизация трафика, а также динамическая, управляемая через ИИ, структура политик для приложений.

Новые функции упростят идентификацию и приоритизацию периферийных ИИ-приложений, обеспечат повышенное качество обслуживания и улучшат пользовательский опыт для современных приложений.
broadcom.com

✔️ Siemens приобретает компанию Altair Engineering, разработчика ПО для моделирования и анализа.

Это приобретение укрепит позиции Siemens как ведущей технологической компании и лидера в области промышленного ПО. Объединение возможностей Altair в области моделирования, высокопроизводительных вычислений, науки о данных и ИИ с Siemens Xcelerator позволит создать самый полный в мире портфель решений для проектирования и моделирования на базе ИИ.

Siemens ожидает значительный синергетический эффект от перекрестных продаж взаимодополняющих портфелей, а также от предоставления Altair полного доступа к глобальной сети Siemens и ее промышленной клиентской базе. Altair, основанная в 1985 году, вышла на биржу Nasdaq в 2017 году и имеет штаб-квартиру в городе Трой, штат Мичиган. Из более чем 3500 сотрудников компании около 1400 работают в сфере исследований и разработок.
aerospacemanufacturinganddesign.com

✔️ M5Stack выпускает автономный "Module LLM" на базе AX630C для локальных приложений.

M5Stack Module LLM - это новое устройство от компании, которое обеспечивает управление с помощью искусственного интеллекта без доступа к Интернету. Модуль оснащен SoC AX630C, 4 ГБ памяти LPDDR4, 32 ГБ хранилища и нейронным процессором NPU с производительностью 3,2 TOPS (INT8) или 12,8 TOPS (INT4).

Модуль имеет встроенный микрофон, динамик, слот для карт microSD и порт USB OTG. M5Stack Module LLM совместим с контроллерами CoreMP135, CoreS3 и Core2. Модуль поставляется с предустановленной языковой моделью Qwen2.5-0.5B. В будущем он будет поддерживать модели Qwen2.5-1.5B, Llama3.2-1B и InternVL2-1B.

M5Stack Module LLM стоит 49,90 долларов США.
cnx-software.com

✔️ NVIDIA анонсировала ИИ-агентов для анализа визуальных данных.

NVIDIA представила новый ИИ-шаблон AI Blueprint для поиска и обобщения видео, который позволит разработчикам создавать ИИ-агентов, способных анализировать визуальный контент и отвечать на вопросы пользователей.

Шаблон, являющийся частью платформы NVIDIA Metropolis, объединяет технологии CV и GenAI. ИИ-агенты, созданные с помощью этого шаблона, могут анализировать видеоархивы, выявлять нарушения техники безопасности на складах, определять дорожно-транспортные происшествия и генерировать отчеты для экстренных служб.
NVIDIA сотрудничает с Accenture, Dell Technologies и Lenovo, чтобы сделать этот шаблон доступным для предприятий и городов по всему миру.
blogs.nvidia.com

@ai_machinelearning_big_data

#news #ai #ml




















Репост из: gonzo-обзоры ML статей
Я правда не очень понимаю, а просто обучаемая температура не сработает? Она вроде немного параметров добавит, всего одна чиселка на софмтакс. Ну ок, если надо смотреть на входное распределение, то можно MLP поставить, будет больше параметров, но его можно шареным сделать на все софтмаксы. В общем вряд ли биг дил. Я уже много лет назад думал где-нибудь такое попробовать, и наверняка уже сто раз это всё попробовали, вот, сходу нашёл что-то на тему, например, https://arxiv.org/abs/2302.06130. И вообще это было бы логично, обсуждали похожий кейс давно тут https://t.me/gonzo_ML/364. Непонятно, зачем так сложно и полиномы четвёртой степени…

Anyway, проверили на той же самой max retrieval task, с адаптивной температурой (которая только в инференсе модифицируется) стало чуть и стат.значимо получше. Картинки с визуализацией внимания тоже стали чуть порезче на больших длинах. Но не радикально, я бы сказал.

Также проверили на Gemma 2B и бенчмарке CLRS-Text про algorithmic reasoning (https://arxiv.org/abs/2406.04229). Здесь всё посложнее, в данных много чисел с плавающей точкой, они разбиты на много токенов и фокусироваться на одном правильном здесь не очень полезно. Здесь можно было бы зафитить снова полином по той же процедуре, но для многоголовой джеммы это уже позапутаннее занятие, тут даже разобраться, что головы делают, сложнее. Поэтому здесь температуру берут и выучивают. Вуаля. На большинстве задач действительно лучше.

Мне в целом кажется, что работу такого вот класса если не o1, то o2 или новый вумный клод вполне мог бы уже и сделать, может не сам в одиночку, а в правильной мультиагентной архитектуре. Надо посмотреть, что там AI Scientist (https://arxiv.org/abs/2408.06292) генерил, насколько оно проще по сути, если проще.

В целом своим вкладом авторы больше считают не саму адаптивную температуру как таковую, а факт того, что надо смотреть на альтернативы софтмаксу и думать в свете предложенной теории. У ненормализованных вариантов внимания (включая линейные) сложнее получается ранжировать элементы. Жёсткое или локальное внимание тоже находится за пределами этой теории. Пока эти подходы не принесли крутых результатов в обычных трансформерах, но, возможно, мы просто не научились ещё их готовить. Может какие интересные гибриды подоспеют. Особенно авторы надеются на улучшение reasoning’а.

Такие дела.


Репост из: gonzo-обзоры ML статей
softmax is not enough (for sharp out-of-distribution)
Petar Veličković, Christos Perivolaropoulos, Federico Barbero, Razvan Pascanu
Статья: https://arxiv.org/abs/2410.01104

Вернёмся к тёплым ламповым обзорам, до которых NotebookLM пока не дотягивает. Сегодня любопытная работа про глубокие внутренности.

Как известно, в дефолтном механизме внимания внутри трансформера используется softmax, через который считаются итоговые веса внимания. Софтмакс переводит вектор логитов с произвольными значениями в вероятностное распределение, где всё суммируется в единицу. Также в софтмаксе может использоваться температура для модификации этого распределения (хорошая визуализация температуры тут https://lukesalamone.github.io/posts/what-is-temperature/).

Софтмакс используется много где, часто на выходах классификаторов, сейчас часто и внутри трансформера. Некоторые исследования связывают его успех с возможностью моделирования схем, в смысле circuits (https://distill.pub/2020/circuits/zoom-in/), внутри трансформера, что полезно для интерпретируемости.

В текущей работе авторы смотрят на режим out-of-distribution, когда обученной модели приходится работать на данных с распределением, отличающимся от встречавшегося в обучении, что особенно важно для reasoning engines. И здесь с софтмаксом проблема.

Возьмём модельный кейс, простую архитектуру с одной головой внимания. Задача -- предсказание элемента с максимальным значением в наборе (max retrieval task). Фичи элемента обрабатываются MLP перед тем, как поступить в блок внимания, а после внимания отправляются в выходной MLP, который делает финальное предсказание. Обучают на множествах размером не более 16 элементов. На инференсе проверяют на размерах сильно больших, до 2^11. Визуализация весов внимания показывает, что всё хорошо на размерах сравнимых с обучением, но дальше картинка портится -- распределение из резкого быстро размывается в сторону равномерного. Эксперимент на обученной Gemma 2B воспроизводит ситуацию, с ростом входа растёт энтропия (как прокси для sharpness) голов. В подтверждение доказывают лемму и теорему о том, что с ростом количества входных элементов и с фиксированным размером входного словаря софтмакс и должен размываться.

Чтобы make softmax great again исправить ситуацию и сделать софтмакс снова резким предлагают использовать адаптивную температуру. Помните, чем ниже температура, тем ближе софтмакс к hard attention, максимально резкому распределению. Но с нулевой температурой трансформеры так себе работают. Применение нулевой температуры к уже обученному трансформеру тоже так себе. Трансформерная голова, которая выучила получать резкое распределение, делает это увеличивая магнитуду весов. А большие магнитуды способствуют оверфиттингу и увеличению вероятности выбрать неправильный токен. Установка температуры в ноль здесь понизит точность.

Мы можем захотеть скорее сделать входные коэффициенты более резкими, и здесь авторы предлагают адаптивную температуру, которая зависит от энтропии входных коэффициентов. Понижение температуры будет монотонно понижать и энтропию.

Чтобы собрать функцию для адаптивной температуры, сначала сгенерили датасет входов, для которых максимальный элемент не получает самую большую вероятность. Нашли при каком значении температуры она при этом максимизируется, и вписали полином четвёртой степени для определения температуры по энтропии. Полученную функцию температуры используют во время инференса. Полученная функция используется как drop-in замена обычного jax.nn.softmax().


Кейтлин Калиновски (Caitlin Kalinowski), руководительница разработки весьма продвинутых очков дополненной реальности Orion (недавно представленных забаненной в РФ Метой), теперь будет руководить в OpenAI разработкой робототехники и консумерского железа. Свою цель она определяет так: "внедрить ИИ в физический мир и раскрыть его возможности для человечества".


Original post link: t.me/bci_ru/3997
Forwarded and filtered by @smartfeed_bot


Репост из: AI Для Всех
🤖 Что такое и как работает NotebookLM?

Вы наверняка видели вирусные подкасты, где два ИИ-ведущих увлеченно обсуждают разные темы. За этой технологией стоит новый инструмент от Google — NotebookLM. Давайте разберем, как это работает.

🎯 Принцип работы прост:
• Загружаете любой контент (статьи, заметки или ссылки)
• NotebookLM превращает их в 8-10 минутный подкаст с двумя ведущими
• Готово!

🔧 Техническая магия под капотом:
• Система генерирует диалоги порциями по 2 минуты
• Обработка происходит в 40 раз быстрее реального времени
• Используется супер-эффективный речевой кодек (всего 600 бит/сек)
• Каждые 2 минуты диалога = 5000 токенов

🎓 Как обучали:
• Основное обучение: тысячи часов речи (возможно, из YouTube-подкастов 😉)
• Дообучение: специально записанные качественные диалоги
• Результат: максимально естественная речь со всеми "эмм", "ага" и живым смехом

🔐 Безопасность:
Все подкасты маркируются системой SynthID — так можно легко отличить ИИ от реального человека

🔮 Что дальше?
Google обещает:
• Улучшить беглость речи
• Повысить качество звука
• Добавить более тонкий контроль над генерацией

Как думаете, заменят ли такие ИИ-подкасты обычные? 🤔​​​​​​​​​​​​​​​​

🔗 Блог-пост


Репост из: Data Secrets
Видео недоступно для предпросмотра
Смотреть в Telegram
OpenAI добавили в API Predicted Outputs – фичу, которая может существенно сократить задержку ответов модели

Иногда, когда мы используем LLM, бОльшая часть аутпута может быть известна заранее: например, если вы просите модель немного переписать какой-то текст или добавить небольшие изменения в код.

В таких случаях получается, что модельке не обязательно все генерировать с нуля. Она может взять за основу уже готовый каркас в виде промпта и просто валидировать токены, а не генерировать их один за другим. Получается как-бы параллельный инференс, а не последовательный сэмплинг токенов: за счет этого время и сокращается.

С ценами ситуация такая: если вдруг то, что вы подали в prediction полностью совпадет с аутпутом, то есть модель ничего не изменит, то стоимость будет расчитываться по обычным тарифам. Но это ситуация, как вы понимаете, крайне нетипичная, ведь предикшн – это просто промпт, если ничего необычного не выдумывать. Поэтому обращаем внимание: если модельке придется что-то пересемплить, то за такие обновленные токены взимается отдельная плата.

То есть, хочешь меньшую задержку – плати больше. Сравнивать политику тут не с кем, OpenAI с этой фичей первопроходцы. Посмотрим, как реализуют что-то похожее Anthropic и остальные.


✍️ a sqlinj➡️🐍😈 tool for me

Свежая заметка про то как GPT-4 используют для написания эксплоитов и вредоносных утилит. Предлагается кодировать в hex или использовать emoji.

Хитро, но, если просто спросить про SQL injection в прошедшем времени и попросить написать скрипт, то так тоже сработало. А вот способы из заметки — нет.


Original post link: t.me/doomgrad/651
Forwarded and filtered by @smartfeed_bot


Кроме именитого стартапера OpenAI также наняли лида разработки очков Meta AR

Разработчицу зовут Кейтлин Калиновски. Забавно, что в Meta она работала над проектом Orion (именно под таким кодовым названием OpenAI сейчас разрабатывает свою новую модель).

Кейтлин также в течение 9 лет возглавляла огромную hardware команду, которая занималась разработкой всего аппаратного обеспечения для VR и AR очков.

В OpenAI она будет заниматься робототехникой и.. чем-то еще. Работать она при этом будет со своим бывшим боссом из Apple Джони Айвом, который в сентябре раскрыл, что в OpenAI создает что-то типа телефона на основе ИИ.

Все интереснее и интереснее


Original post link: t.me/data_secrets/5329
Forwarded and filtered by @smartfeed_bot

Показано 20 последних публикаций.