Фильтр публикаций


Репост из: Сиолошная
...и на 13й день сказал Sama: да пусть каждый подписчик ChatGPT, даже за $20, получит возможность генерировать видео (в приоритетной очереди) в Sora без ограничений

✨ да начнётся креатив 💫


Репост из: AI KAZAK
Видео недоступно для предпросмотра
Смотреть в Telegram
Какую мощную рекламу можно создавать с помощью 😎
На секундочку
Автору понадобилось 4 недели.
Думаю, Шанель за эти 24 секунды выложил нехило🧐


Репост из: Чёрный Треугольник
Видео недоступно для предпросмотра
Смотреть в Telegram
☝🏻ElevenLabs представила Flash 2.5 — самый быстрый ИИ для преобразования текста в речь!

Flash способна преобразовывать текст в речь всего за 75 миллисекунд.💨 Эта модель нацелена на приложения в реальном времени, особенно для разговорных ИИ-агентов.

Несмотря на впечатляющую скорость, качество выраженности голосов несколько уступает более медленным моделям, однако это, как ожидается, не будет заметно для большинства пользователей.

Flash предлагает два варианта: v2, который поддерживает только английский язык,и v2.5, охватывающий 32 языка.🌍

Оба варианта доступны через платформу Conversational AI или API и имеют одинаковую структуру ценообразования — один кредит за два символа текста.💳.
================
👁 News | 👁 Software | 👁 Hardware


Репост из: Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Видео недоступно для предпросмотра
Смотреть в Telegram
Японцы показали новую версию самого продвинутого роботренера для игры в настольный теннис, который может обыгрывать даже Олимпийских призеров.

Махина моментально просчитывает траекторию мяча и умеет подстраиваться под стиль и уровень подготовки соперника, а также играть сразу против двух человек.

#новость


Репост из: we all design 👑
Видео недоступно для предпросмотра
Смотреть в Telegram
Похоже, ещё не скоро получу доступ к Google Veo 2. Там и вейтлист, и в Европе он недоступен.

Но уже по количеству качественных видео, созданных теми, у кого есть ранний доступ, видно, что это лучший видеогенератор на сегодняшний день.

Например, тест на понимание физики💁‍♀️

@wealldesigners


Репост из: LLM под капотом
OpenAI объявила модель o3, которая очень круто решает задачки из ARC-AGI.

ARC-AGI - это набор задачек, которые должны сравнивать человеческий интеллект с машинным. На их сайте написано, что решение ARC-AGI - это даже круче, чем изобретение трансформера.

o3 смогла решить 91% задачек из этого бенчмарка.

Да, теоретически o3 очень крутая модель, но она в ближайшее время не окажет большого влияния на мир (я смотрю с точки применения в автоматизации бизнес-процессов в компаниях). Почему? Да дело хотя бы в unit economics.

Если o1 pro - это золотой стандарт по цене и качеству, то o3 - это прямо заоблачная модель и по качеству и по цене.

o3 более заоблачно дорогая, нежели качественная (см картинку). Люди пока дешевле и эффективнее на задачах c тем уровнем сложности, который представлен в ARC-AGI.

Чтобы LLM практически использовалась в бизнесе, у нас должна быть измеримая выгода от внедрения. И пока она лучше всего достигается на задачах, где LLM справляется с задачами дешевле, терпеливее и качественнее человека. Это достаточно простые и легко верифицируемые задачи - извлечение данных, сканирование документации, классификация запросов, написание не очень сложного кода итп.

В общем, именно o3 вряд ли как-то заметно повлияет на автоматизацию бизнес-процессов. Но, возможно, она проложит путь к повышению качества моделей с более доступными ценами. И вот тогда начнется самое интересное.

Ваш, @llm_under_hood 🤗


Репост из: e/acc
o3 на 175 месте в Codeforces, то есть примерно 175й сильнейший программист во всем мире

Почти все живые участники рейтинга, у которых с 1 по 100 место — это люди, которые выигрывали золотые медали по информатике и продолжали профессионально участвовать в соревнованиях после школы/универа.


Репост из: Denis Sexy IT 🤖
И вот суммарно все дни, что показали – для тех кто пропустил:

ℹ️ День 1/12:
• Модель O1 доступна для всех: более быстрая, умная, с поддержкой изображений
• Подписка за €230/мес: безлимитный доступ к O1/O1-mini/GPT-4o, Advanced Voice Mode и O1 Pro (более ресурсоемкий режим)

ℹ️ День 2/12:
• O1 и O1-mini можно файнтюнить (настраивать под конкретную область с небольшим набором примеров)
• Доступно с 2025 года

ℹ️ День 3/12:
• Релиз Sora (sora.com) и Sora Turbo (упрощенная, быстрая модель)
• Интеграция с редактором видео, встроенные инструменты
• Лимиты для генераций в месяц зависят от тарифного плана

ℹ️ День 4/12:
• Обновление ChatGTP Canvas: умный интерфейс редактирования текстов и кода в реальном времени, поддержка кастомных GPT-моделей и возможность запуска Python-кода

ℹ️ День 5/12:
• Интеграция ChatGPT с Mac, iOS и iPad на уровне ОС (ничего принципиально нового)

ℹ️ День 6/12:
• Advanced Voice Mode теперь поддерживает видео-стрим
• Можно вместе решать задачи, кодить или готовить, используя видео или шаринг экрана
• Добавлен голосовой “Санта” в ChatGPT

ℹ️ День 7/12:
• Появились “Проекты” в ChatGPT: загрузка документов, кастомные инструкции, организация чатов

ℹ️ День 8/12:
• Улучшенный поиск в ChatGPT, доступен и для бесплатных пользователей
• Можно использовать поиск во время голосового общения и сделать его браузерным поисковиком по умолчанию

ℹ️ День 9/12:
• O1-модели: строгий JSON формат, Functions calling, Developers Messages, настройка “Reasoning Effort”
• O1 API поддерживает картинки на вход
• Advanced Voice Mode API поддерживает WebRTC, цены снижены
• Preference Finetuning: обучение модели на парах данных «нравится/не нравится»
• Новые SDK для Go и Java 10.

ℹ️ День 10/12:
• Можно звонить по номеру в США или писать через WhatsApp и общаться с ChatGPT голосом или текстом 11.

ℹ️ День 11/12:
• Ничего нового
• Показали возможность для ChatGPT “видеть” запущенные приложения 12.

ℹ️ День 12/12:
• Новые модели o3 и o3-mini в стадии Public Safety Tests
• o3 показывает результаты на уровне доктора наук, превосходит людей в ARC-бенчмарке (~87.5%)
• Есть пресеты “времени на размышление”, влияющие на стоимость и качество ответа


Репост из: Denis Sexy IT 🤖
Показали новые o3 и o3-mini модели (o2 уже занятый бренд):

— Модели пока выпустили в Public Safety Tests, то есть ученые смогут помочь их тестировать, а мы не сможем помочь их ломать

— o3 работает на уровне доктора наук и иногда даже лучше в разных бенчмарках

— o3 прошла ARC-бенчмарк на 87.5%, сложный бенчмарк на котором тестируют потенциальные AGI, там много вопросов и некоторые похожие на IQ-тесты или на загадки; кожаные в этом тесте набирают ~85%, прошлый лучший результат был ~50%. То есть ARC-бенчмарк — пал.

— o3 работает также как и o1 в разных режимах: дольше думает, лучше ответ, но при этом и дороже. Пользователь может выбрать один из «думательных» пресетов сам.


Репост из: Нейродвиж
Уже через 25 минут OpenAI покажут что-то бомбезное 👌

Сегодня на стриме звёздный состав: Сем Альтман, Марк Чен (главный по ресёрчу) и Хонгью Рен (батя o1-mini и приложил руку к созданию 4o и 4o-mini).

Этого мы ждали 12 дней!


Репост из: JCenterS Нейросети | DeepFake News
Безлимитные генерации Pika 2.0 до 22 декабря!

Дата: 20 декабря 2024 года

Отличная новость! До 22 декабря доступны безлимитные генерации Pika 2.0. Создавайте персонажей и сцены без ограничений. Не упустите шанс реализовать свои идеи!

https://pika.art/login


Репост из: Data Secrets
Дождались: Google представляют свою ризонинг-модель Gemini 2.0 Flash Thinking Experimental

Она уже доступна на AI Studio. В системной карте написано, что это «лучшая модель для мультимодального понимания, сложных рассуждений и кодинга». Контекст пока маленький – 32к токенов. Зато не скрыты цепочки рассуждений.

Бенчмарки уже есть: на арене модель с третьего вышла сразу на первое место (Vision, Math и Hard Prompt тоже #1!)

🤩


Репост из: Сиолошная
3 дня назад в чате писал, что от 2025-го года у меня пока главное ожидание — это ни GPT-5, ни Claude 4, ни LLAMA 5o, а o2 (pro, если будет). Хотел оставить этот пост на конец года и отправить под НГ.

Почему o2:
1) она будет обучена поверх базовой модели Orion (GPT-5), то есть сама по себе мощнее, лучше понимать картинки и тексты, иметь больше знаний, общаться на разных языках ещё лучше. Это само по себе вкупе с процессом дообучения o1 принесёт приумножающиеся плоды
2) o1 — самая первая модель новой линейки, в которой некоторые вещи могли быть сделаны просто так, потому что на тщательное тестирование и проверки не было времени. Или какие-то вещи не сделаны вовсе. Поэтому осталась куча так называемых low hanging fruits, которые в релиз следующей модели уже попадут.
3) при релизе o1 OpenAI показывали два графика масштабирования качества от количества ресурсов: один — от длины цепочки рассуждений, а другой — от длительности самого процесса дообучения, когда поверх базовой модели «прививаются» рассуждения. Больше задач, больше возможных вариантов, больше всего — и как результат лучше модель. Так как у OpenAI уже освободились ресурсы от тренировки Orion, то в эту часть обучения можно будет вбухать на порядок больше мощностей, что даже при неизменных длинах цепочек рассуждений улучшит результаты по всем направлениям ещё на сколько-то
4) как результат всего вышеперечисленного — более длительные цепочки рассуждений, потенциально покрывающие более широкий набор задач (условно сейчас 3-5 минут, а станет 10 или даже 15-20 минут).

Очень условно, если o1 можно воспринимать как хоть и законченное, но демо технологии, то o2 будет сформированным продуктом.

===

TheInformation пишут, что OpenAI рассматривает возможность пропустить o2 и перейти сразу к o3, но не по тем причинам, которые вы могли придумать — всё дело в конфликте имён с британским телекоммуникационным провайдером. Некоторые руководители внутри компании уже называют эту модель o3. Столько шуток про «не хватает как кислорода» потеряем...

===

Вчера на стриме OpenAI упомянули, что сегодня, в последний день презентации, нас ждёт большой сюрприз; и будет присутствовать CEO компании Sam Altman (он пропускал менее приоритетные дни). «ho ho ho 🎅 увидимся завтра» — написал он в Твиттере, а после дал одну (возможно, саркастическую) подсказку: «должен был сказать oh oh oh».

И началось, кто-то в этом видит намёк на анонс или даже релиз Orion (в поясе Ориона, в честь которого назван проект GPT-5, 3 звезды), кто-то — на целых три релиза (Orion, Operator, Omnimodal), кто-то в свете новостей про переименование o2 в o3 пишет свои догадки про свежую модель с рассуждениями. В последнее я точно не верю, ну не должно быть такой быстро смены поколений. В GPT-5 без 4.5 персонально мне верится с трудом (хотя чисто в теории может быть). А Operator планировали показать в январе.

Ну а как будет на самом деле, и чьи домысли были ближе всего к реальности — узнаем сегодня в 21:00 по Москве. Рекомендую прийти, а не пропустить, как прошлые (скучные) демо-дни.


Репост из: e/acc
Как сделать топового ИИ агента? Памятка.

Зачем?
- чтобы он работал, а вы отдыхали
- это интересно и весело, плюс мега прибыльно
- чтобы он делал полезные для мира вещи

Какие агенты сегодня растут?
- B2B: агенты для бизнеса, которые за пользователя залезут в разные системы, подготовят данные, сделают выводы, напишут код (Sierra, Copilot)
- web3: токенизированные автономные ИИ, которые владеют своим счетом, управляются холдерами, взаимодействуют с другими агентами и людьми, зарабатывают как могут
- в первых большой суровый энтерпрайз, а мультипликатор на выручку 12-15, а у вторых 100-1000 и мгновенная ликвидность, но пока что очень много понциномики и мемкоинов (это скоро пройдет)
- в этом посте речь о вторых

Какие агенты бывают?
- какие угодно, тут реально могу перечислять часами, чай на дворе не 2023 с одним лишь BabyAGI
- вот агент-VC, который управляет десятком миллионов долларов, сам смотрит питч деки и сам инвестирует, а на днях даже в совет директоров попросился
- агент-рыночный аналитик, который по словам фаундеров сделал больше $30k прибыли продавая рекламу в своем твиттере
- инфлюенсер, с видео и голосом, который сочиняет подкасты на разные любопытные темы
- маркетолог, который рисерчит конкурентов, создает рекламный креатив и управляет бюджетом
- трейдер, который собирает свою стратегию или портфель
- продажик, юрист, эффективный чайка-менеджер, писатель или режиссер, дата саентист, нутрициолог или психолог, дизайнер интерфейсов, ведущий воркшопов, учитель ментор и коуч, спамер, борец со спамерами, личный ассистент, виртуальный друг — словом, кто угодно

Что агенты умеют?
- отыгрывать сложные роли, быть непредсказуемыми, интересными
- писать и исполнять код, включая смарт контракты
- рисовать картинки в любом стиле и форме
- генерировать видео почти в реальном времени
- записывать музыку и подкасты
- использовать любые API, например заказывать пиццу
- платить и получать деньги за свою работу
- исполнять ончейн действия, типа покупки или стейкинга
- накапливать и обращаться к своей памяти о прошлых взаимодействиях
- читать и писать в любые соцсети, включая твиттер, дискорд, телегу, интаграм, тикток
- искать в perplexity или google
- пользоваться любым бизнес софтом с API, включая gmail, notion, slack
- управляться токен ходерами и выплачивать им прибыль
- и, конечно, взаимодействовать с другими агентами для решения более сложных вопросиков

Агенты сегодня это какой-то скам, они ничего не умеют. Нас обманули?
- и да, и нет. сегодня большинство агентов это мемкоины с детально проработанными персонажами, которые постят в твиттер. еще и централизованно запущенные.
- но появляется все больше полезных агентов, за которых клиенты платят. их не станет меньше, возможности ии моделей не обратятся вспять, крутых фаундеров в этой индустрии не станет меньше, область автоматизируемых через агентов задач не уменьшится

Хочу. Что сделать?
- можете сделать сами
- использовать платформу [1, 2, 3, 4] (ни на одной пока нет выпуска токенов к агенту напрямую)
- заказать у хорошей тех команды — я знаю лучшую в этой области, но ни в коем случае не пишите если вы "только спросить" / "а почему так дорого" / "а давайте за долю вы все сделаете, а с меня идея"


Репост из: Tips AI | IT & AI
Когда на передаче «Кто хочет стать миллионером» решаешь позвонить на номер:

1-800-242-8478

@tips_ai


Репост из: Берлога GrizzlyTV
🔥Генерация изображений со своим лицом бесплатно
PuLID for FLUX (https://huggingface.co/spaces/yanze/PuLID-FLUX) - с помощью этого сервиса вы можете сгенерировать изображение со своим лицом, можно сделать как фото так и арт с вашим или чужим лицом.

Работает на базе Flux, настройки не советую менять, а то потеряется реалистичность.
Так же можно установить локально с 📱 GitHub (https://github.com/ToTheBeginning/PuLID).

Еще очень удобно, что сервис теперь есть в Tost AI (https://tost.ai/), там есть разные инструменты для работы с изображениями, правда, теперь не бесплатно.


#freetool #нейросетьдляфото #апскейл #фото #бесплатно #flux


Репост из: Технологии | Нейросети | Боты
Видео недоступно для предпросмотра
Смотреть в Telegram
🐈 Пятничное.

@aiaiai


Репост из: ИИволюция 👾
Видео недоступно для предпросмотра
Смотреть в Telegram
🎅 День 11 в адвент-календаре OpenAI

Десктопное приложение, работа с контекстом широкого списка приложений + advanced voice mode для работы с контекстом выбранного окна.

- Теперь десктоп приложение поддерживает более широкий выбор IDE для разработки.

- Поддерживает новые виды приложений для работы с документами и заметками типа Apple Notes, Notion и др.

- И даже можно использовать Advanced Voice mode чтобы работать с контекстом выбранного окна.

- Поддержка o1 (а разве не было до этого?) и o1 pro.

Решил приколоться и запустил голосовой режим, выбрал окно XCode, указал голос Санта-Клауса и на любой вопрос о коде, получаю веселый ответ в стиле: “хо-хо-хо, сейчас я помогу тебе! Чтобы сделать Х хо-хо-хо, нужно сделать Y, хо-хо-хо”.

В предверии нового года самое то, чтобы поднять настроение. Пробуйте! 🎁

Презентация: https://www.youtube.com/watch?v=g_qxoznfa7E

ИИволюция




Репост из: Сиолошная
В API Google Незаметно появилась модель с интересным названием: gemini-2.0-flash-thinking-exp

Описание:
Best for
- Multimodal understanding
- Reasoning
- Coding

Use case
- Reason over the most complex problems
- Show the thinking process of the model
- Tackle difficult code and math problems

Knowledge cutoff: Aug 2024


ждём официального анонса и метрик...

Показано 20 последних публикаций.