AI++


Channel's geo and language: not specified, Russian
Category: Technologies


Interesting in my opinion AI's and all that goes with it

Related channels

Channel's geo and language
not specified, Russian
Statistics
Posts filter


Forward from: Нейродвиж
Парень попытался обыграть ChatGPT на его же поле боя. Результат предсказуемый 😁


Forward from: Метаверсище и ИИще
Что-то это уже слишком хорошо для липсинка.

У Тиктока 4 месяца назад вышел X-Portrait
https://github.com/bytedance/X-Portrait

Но сейчас они бахнули X-Portrait 2 и это уже запредельно выразительно.
Я прям очень жду код, потому что они похоже могут уделать Runway Act One - и все это будет локально, без подписок и кредитов.

Поглядите вот тут, это стоит того:
https://byteaigc.github.io/X-Portrait2/

@cgevent


Forward from: Denis Sexy IT 🤖
Video is unavailable for watching
Show in Telegram
Suno тизерит свою новую версию модели для генерации музыки V4 – наконец-то пропали эти металлические артефакты на фоне

Ждем


Forward from: Сиолошная
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).

Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных техник/тем. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах (то есть нет концентрации вокруг каких-то техник, освоим которые можно решить добрую часть проблем).

Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.

Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.


Forward from: Not Boring Tech
🧬 Ученые научились лечить агрессивные виды рака. Исследование 15 тысяч пациентов в Великобритании показало, что 16% опухолей содержат ecDNA — вредные ДНК, которые стимулируют рост раковых опухолей.

Они чаще всего встречаются при агрессивных формах рака молочной железы, мозга и лёгких. Новый препарат точечно уничтожает (!) фрагменты ecDNA и сводит развитие рака на нет. Метод лечения уже вступил в раннюю фазу клинических испытаний.

Шанс победы над раком в ближайшие 10 лет продолжает расти.

@notboring_tech


Forward from: градиент обреченный
🔺 Grok API и $25

API от x.ai запустили в публичную бету.

🔸 Пока есть только одна модель grok-beta. Это та самая новая модель, которая должна уже доучиться в этом году. На следующей неделе обещают выкатить мультимодальную (с пониманием картинок).

🔸 Бесплатно дают $25 в месяц, плюс добавляют еще столько бесплатных, сколько пользователь купит. Но это все действует пока идет бета-тестирование — до конца года.

🔸 Работает без VPN и подтверждения телефона, так что можно легко попробовать и поподключать к своим пет-проектам до конца года.

🔸 Цена будет подороже чем у GPT-4o — $5.00 и $15.00 за 1M input/output токенов. У gpt-4o $2.5 и $10 соответственно.

🔸 Так как API совместимо с OpenAI и Anthropic, то можете просто поменять в их клиентах название модели на grok-beta и base_url на https://api.x.ai/v1.

👉 Рабочий пример. Потыкайте насколько Grok адекватный. По-русски вроде неплохо отвечает.

from openai import OpenAI

XAI_API_KEY = "xai-0IsopkrHdCf9T3RtXNdA8WlETOzXwsr7l1a8jRZmzi6mrLEStmOJW294nB8gQLR8CFdPLlAEo8BEZ1WF"
client = OpenAI(
api_key=XAI_API_KEY,
base_url="https://api.x.ai/v1",
)

completion = client.chat.completions.create(
model="grok-beta",
messages=[
{"role": "system", "content": "You are Grok, a chatbot inspired by the Hitchhikers Guide to the Galaxy. Answer in Russian."},
{"role": "user", "content": "What is the meaning of life, the universe, and everything?"},
],
)

print(completion.choices[0].message.content)

#Согласно "Автостопом по галактике" Дугласа Адамса, ответ на вопрос о смысле жизни...

👉 console.x.ai


Forward from: Метаверсище и ИИще
Для тех, кто запутался в разрешениях.

Ну не генерит Flux 1.1 pro ultra ничего в 4к.

У них на сайте прямо сказано - 4MP.
Это, грубо говоря, 2к. А точнее, если перемножить х и у, то должно получаться около 4 миллионов пикселей.

4к - это, опять же, грубо говоря, 8 мегапикселей. Около 8.3МP.


Обычно 4к используется больше для разрешений камер, а не картинок:
3840 x 2160 (8,294,400 pixels) или 4096×2160 (8,847,360 pixels).

Короче, 4МP - это примерно 2к. И это щас умеет Flux 1.1 pro ultra. А не 4к.

https://www.cctv-outlet.com/news/1080p-vs-4mp-vs-2k-vs-4k-whats-their-differences/

@cgevent


Forward from: эйай ньюз
🔥FLUX1.1 [pro] Ultra and Raw Modes

Новый релиз от Black Forest Labs! 4k изображения и более реалистичный режим!

1. FLUX1.1 [pro] Ultra - теперь можно генерить картинки в 4k разрешении! Причем довольно быстро - за 10 сек.

$0.06 за картинку

2. FLUX1.1 [pro] Raw - режим, который передает подлинное ощущение спонтанной фотографии. Генерит изображения с менее синтетической, более естественной эстетикой. Он значительно увеличивает разнообразие человеческих образов и улучшает реализм

@ai_newz


Forward from: Сиолошная
Вчера увидел, что мой твит с комментарием по уходу из OpenAI Bob McGrew, VP of Research, лайкнул сам Bob. А потом случайно на ютубе наткнулся на его интервью годовой давности, и решил послушать между делом.

В целом не так много интересного, если активно следите за AI, но решил пересказать одну часть с историей про появление ChatGPT (вот таймкод):

— к середине осени 2022-го уже была натренирована GPT-4 (по официальным данным, тренировка закончилась в августе); в компании знали, что если они смогут придумать, как использовать модель на полную, то это будет невероятно. Вся компания пыталась придумать, что же с ней делать.
— John Shulman, глава команды, занимавшейся Reinforcement Learning (ныне ушёл в Anthropic), предложил сделать модель «разговорчивой», чтобы она могла вести диалог; для тех, кто не застал 2020-2022 годы в LLM: тогда модели просто дописывали текст по шаблону. В 2022м году их уже можно было промптить, давая какую-то задачу, примеры, но и всё.
— ещё до этого было ясно, что в будущем роль AI можно будет описать как «ассистент», но казалось, что модели ещё не достигли нужного уровня, чтобы помогать реальным людям в реальных задачах; поэтому даже не думали о подобном. К тому моменту GPT-3.5 уже около полугода была доступна в публичном API, и никто не сделал прото-ChatGPT.
— John сказал: «да, модели неидеальны, и мы знаем, что GPT-4 будет лучше, но давайте попробуем просто взять, обучить и выложить диалоговую модель в интернет. Может мы наберём хотя бы 10000 пользователей, и они помогут нам понять, где LLM плоха, и мы сможем начать итерироваться и улучшать её»
— Команда немного подумала, так как казалось, что это требует большого количества работы, но в итоге решили сделать и уложиться в НЕДЕЛЮ (ранее об этом писали, кажется, в WSJ, но ссылку за декабрь 22-го не буду искать). По сути, это был сайд-проект компании, они называли его «low key research preview», не было никакого медиа-освещения, не было рекламы. Были минимальные ожидания.
— Но по итогу всё полетело, и через 2 месяца ChatGPT оказался самым быстрорастущим продуктом из всех, достигнув планки в 100 миллионов пользователей. В это время многие сотрудники вообще другим занимались, но пришлось активно впрягаться и поддерживать проект; особенно активными были следующие 6 месяцев.

Вот такой вот урок по истории получился 🤓
🥸

===

Сделать ChatGPT с нуля: неделя
Добавить поиск по чатам: 2 года 😦


Forward from: Нейродвиж
Video is unavailable for watching
Show in Telegram
Господа дизайнеры, контролируйте свои оргазмы — редактор Rive выпустил новую функцию Layout 😱

Наверное, лучшее описание — это буквально как та самая штука в Фотошопе, которую показали, но так и не выпустили: она позволяет менять соотношение сторон, автоматически подстраивая элементы дизайна.

Если искали альтернативу Figma «с фишками на базе ИИ», то он ждёт.


Forward from: Сергей Марков: машинное обучение, искусство и шитпостинг
Video is unavailable for watching
Show in Telegram
Новые модели мира подвезли


Forward from: Метаверсище и ИИще
Video is unavailable for watching
Show in Telegram
Для тех, кто в Блендоре и для тех, кто до сих пор делает аватаров в 3Д.

Выглядит нарядно, согласитесь?

https://www.polyhammer.com/

@cgevent


Forward from: Метаверсище и ИИще
Video is unavailable for watching
Show in Telegram
В HeyGen новая фича - Photo Avatar

И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.

Почитайте полный пайплайн тут:

Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz

Ну, за дикторов и блоггеров..

@cgevent


Forward from: Сиолошная
From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code

В июне я писал про Naptime, проект по применению LLM в кибербезопасности от Google. С тех пор проект эволюционировал в Big Sleep (😄), коллаборацию с Google DeepMind для более масштабной работы. Проект всё ещё находится на исследовательской стадии, и авторы использовали в основном маленькие программы с известными уязвимостями для оценки прогресса. А потом решили позапускаться на реальных программах, которые каждый день используют миллионы программистов.

В рамках анализа одного из недавних изменений исходного кода SQLite автоматический LLM-агент (если не поняли что это — надо почитать предыдущий пост) на основе Gemini-1.5-Pro обнаружил эксплуатируемое переполнение буфера в стеке. Причём ошибка была лишь отдалённо связана с конкретно этими изменениями (большая часть причины, как я понял, оставалась за рамками изменений, но была невозможно без их внесения) — что не редкость при обычном ручном анализе вариантов. Исследователи даже подметили, что «в этом случае логи рассуждения немного напоминают работу человека — начиная с одной идеи, обдумывая несколько других в ходе исследования, и в конце создавая тестовый пример, который вызывает немного другую, но всё же ошибку»

В технические детали вдаваться не буду, те, кому интересно разобраться в уязвимостях в коде и почитать вырезки из рассуждений модели, которые привели её к прозрению и пониманию проблемы, могут найти это в основном посте.

Интересно, что ошибку нашли ещё до попадания в официальный публичный релиз, так что никаких пользователей это не затронуло. «Мы считаем, что эта работа имеет огромный оборонительный потенциал. Нахождение уязвимостей в программном обеспечении до его выпуска означает, что у злоумышленников нет возможности даже попробовать: уязвимости устраняются еще до того, как хакеры успевают ими воспользоваться».

Если я правильно понял, что имели в виду в блогпосте, то Gemini не отпускали просто на все 4 стороны: ей подавали на вход разные ошибки, которые уже удавалось отловить (в этом же репозитории или хоть где? не ясно), и говорили «Такая вот ошибка уже была; возможно, где-то есть еще одна похожая». Это позволяет сузить задачу от общей («найди любой код с уязвимостями») и задать направление вместо полного перебора всех возможных идей.

Баг был не самый простой для автоматического отлавливания традиционными методами. Обычно используют fuzzing, это когда в функцию или программу подают огромное количество случайных значений в некотором интервале и смотрят, не сломалось ли чего при тех или иных условиях. По идее, если дать достаточно времени, то подобная ошибка с определённой комбинацией условий могла бы найтись; однако используя официальный гайд по тестированию от самих SQLite за 150 CPU-часов и миллионы перебранных комбинаций уязвимость не выскочила, и скорее всего оставалась бы незамеченной долгое время.

А LLM не устают. Они могут читать и рассуждать гораааааздо быстрее и дольше кожаных аналогов. Ждём следующего большого поста, где Google'овцы заявят, что нашли 10-100 других багов пачкой, без ручного вмешательства.


Forward from: Denis Sexy IT 🤖
Anthropic показал новую модель Haiku 3.5, которая стала быстрее и умнее, но почему-то в x16 раз дороже, чем Gemini-1.5 Flash или GPT4o-mini, при этом новая Haiku не намного лучше этих моделей 🤡

Сделал вам описательный мем про атмосферу в сообществах где любят продукты Anthropic


Forward from: Сиолошная
В API OpenAI завезли новую фичу — Predicted Outputs. Удивительно, что они сделали это первыми — а то вот кэширование дольше всех добавляли 🥺

Predicted Outputs позволяют существенно ускорить написание ответа в ситуациях, где большая часть генерируемого текста уже известна. Два самых популярных сценария использования — это редактирование кода (где нужно всего пару строк подправить посередине) и переписывание текста.

Работает это с помощью speculative decoding, на пальцах выглядит так:
0. Вспомним, что LLM обладают следующим свойством: они могут «прочитать» много текста за один проход, при этом сделав предсказания для каждого из слов (какое должно идти за ним); но генерация происходит по одному слову за раз (после чего берётся предсказание от последнего слова и приклеивается к исходному тексту)
1. В некоторых задачах мы наперёд знаем большую часть текста ответа. Берём и приклеиваем её ко входу, как будто бы это уже часть ответа (делается под капотом на серверах OpenAI, но текст ответа присылаете вы, см. документацию)
2. Модель делает все предсказания для текста ответа за раз. Это делается быстро, так как не нужно ждать генерации второго слова для получения третьего.
3. Начинается сравнение «что предсказала модель» и «что было написано в ответе». Первое слово и там, и там совпадает, второе тоже.. а вот, скажем, двадцатое — нет. В случае переписывания текста это может быть началом нового абзаца, или изменением имени персонажа в истории
4. Тогда первые 19 слов ответа подклеиваются к настоящему (а не подложенному) ответу. LLM как бы провалидировала, что эти токены и вправду должны использоваться, но сделала это кратно быстрее, чем если бы генерировала сама с нуля.
5. Затем LLM продолжает предсказывать сама, уже по одному слову за раз.
6. В какой-то момент предсказания снова могут начать сходиться с подложенным текстом — и процедура повторится. Сотрудник OpenAI написал, что это происходит, если последние 32 токена совпадают с подложенным ответом. Тогда возвращаемся на пункт 2, приклеиваем оставшуюся часть ответа, сравниваем, итд.

Ускорение происходит за счёт того, что мы можем сразу подхватывать большие токенов, не генерируя их, а лишь «проверяя», что LLM бы выдала их сама — всё за счёт свойства из пункта 0.

Компания Factory провела своё тестирование перед релизом на задачах, связанных с внесением изменений в код. Они брали файлы от 100 до более чем 3000 строк кода (Python, JS, Go, C++), давали текстовое описание, что нужно изменить, и замеряли скорость ответа.

GPT-4o в таком режиме работает даже быстрее, чем Claude 3 Haiku, маленькая и шустрая модель. Модель OpenAI — единственная, кто стабильно укладывается в 30 секунд на ответ, хотя вот, например, свежий Sonnet в среднем тратит более 73 секунд.

По идее, уже сегодня, край завтра в каких-нибудь Cursor и его аналогах вы должны заметить ускорение... или нет, если там под капотом уже добавили промпты, которые заставляют генерировать только отдельные куски, которые уже потом вклеиваются в код.


Forward from: эйай ньюз
Anthropic наконец-то релизнули API Claude 3.5 Haiku

Результаты SWE Bench выше чем у июльского Sonnet 3.5. Cutoff данных тренировки - июль 2024.

Этого мало чтобы перекрыть минусы - цена выросла в 4 раза по сравнению с 3.0, а изображения в качестве инпута модель на старте просто не поддерживает. Кажется Anthropic, которые изначально и начали гонку дешёвых моделей, решили просто заняться рекламой GPT 4o-mini и Gemini Flash.

Я совсем не понимаю зачем использовать эту модель, а что думаете вы?

@ai_newz


Forward from: Denis Sexy IT 🤖
И еще про маленькие LLM-модельки

Тут решили проверить, что будет если последние Qwen 7b, Gemma 2b и Llama 8b попросить сгенерировать 100 раз случайного человека и описать его день, в итоге получилось такое:

🔄 Все модели чаще всего выбирали для истории женщин, от 25 до 35 лет; Llama3 вообще один раз про мужчину написала;

🔄 Gemma чаще всего называла персонажей… «Anya Petrova» (интересно, из какой части интернета брали датасет), Llama3 «Emilia Garcia» и Qwen «Li Wei»

🔄 Gemma чаще все придумывала как место действий – Россию (☕️), llama – Японию, а Qwen – Шанхай

🔄 Gemma и llama чаще выбирали профессией персонажей – Фриланс дизайн, а Qwen аж 72 раза – разработку софта

По ссылке выше больше деталей, включая сравнение распорядков дня персонажей



19 last posts shown.