AI++


Гео и язык канала: Весь мир, Русский
Категория: Технологии


Interesting in my opinion AI's and all that goes with it

Связанные каналы

Гео и язык канала
Весь мир, Русский
Категория
Технологии
Статистика
Фильтр публикаций


Репост из: Малоизвестное интересное
Мир кардинально изменился… Но мы это еще не осознаем.
Новый “Стэнфордский симулякровый эксперимент” оказался еще круче Уханьского: создана тысяча сумулякров индивидуального сознания «типовых» американцев.
Только 2 недели назад в посте об “Уханьском эксперименте” создания симулякров коллективного бессознательного социумов я обращал внимание читателей на немыслимую ранее скорость техно-изменений после вступления прогресса в область сингулярности.

И вот новый тому поразительный пример.
Спустя всего 2 недели вышло исследование о конструировании симулякров уже не коллективного бессознательного социумов, а индивидуального сознания людей.
А дабы эти симулякры лучше “продавались” (кавычки здесь, скорее всего, лишние, и сделаны из политкорректности) на рынках социального, политического, экономического и психологического мухляжа, было сделано 1000 симулякров «типовых» людей. Т.е. реальных американцев (их личные данные, естественно, засекречены), отобранных для представления населения США по возрасту, полу, образованию и политическим взглядам.

Основной инструмент совместного исследования Стэнфордского университета и Google DeepMind, как и в случае “Уханьского эксперимента”, - генеративный ИИ больших языковых моделей (ChatGPT-4o).

Схема “Стэнфордского симулякрового эксперимента” (теперь он войдет в историю, как и “Стэнфордский тюремный эксперимент”) проста и понятна.
1. Отобраны по заданным критериям 1000 «типовых» американцев.
2. С каждым проведено углубленное 2-х часовое интервью (примерно 6,5 тыс слов)
3. Расшифровка каждого из интервью была загружена в память отдельного ИИ-агента на основе ChatGPT-4o, превращая его тем самым в симулякра личности (индивидуального сознания) конкретного «типового» американца или американки.
4. Потом прогнали каждого из 1000 человек через несколько канонических социолого-психологический тестов: Общий социальный опрос (GSS), личностный опросник "Большая пятерка", пять хорошо известных поведенческих экономических игр (напр, игра в диктатора, игра в общественные блага) и пять социологических экспериментов с контролем.
5. И параллельно прогнали через эти же тесты, игры и т.д. всех симулякров личности «типовых» американцев, полученных в п. 2.
6. Статистически корректно сравнили ответы и поведение реальных людей и симулякров их личностей.

Результаты
• Симулякры предсказали ответы своих реальных прототипов – людей по тесту GSS с точностью 85% (что значительно лучше, чем ИИ-агенты, которые использовали только базовую демографическую информацию).
• Из пяти экспериментов с участием как людей, так и их симулякров, в четырех симулякры дали результаты, почти неотличимые от реакций их прототипов - людей (коэффициент корреляции 0,98).
• Симулякры делали более точные прогнозы по различным политическим идеологиям и этническим группам. Они также показали более сбалансированную производительность при анализе ответов между различными демографическими категориями.

Резюме (имхо).
А) “Стэнфордский симулякровый эксперимент” дал практическое подтверждение 2х важных эвристических гипотез, сформулированных мною 2 недели назад в упомянутом выше посте.
Это значит, что мир уже (!) кардинально изменился. И теперь роль людей и алгоритмов в науке, культуре, повседневной жизни индивидов и социальной жизни «алгоритмически насыщенных обществ» уже никогда не будет прежней.
Б) Поразительно, как проста и незатейлива оказалась человеческая натура, что для создания её ИИ-симулякра оказалось достаточно всего 2х часов интервью плюс внечеловеческий интеллект ChatGPT-4o.


PS Полученные симулякры индивидуального сознания – узконаправленные и не моделируют всех черт и аспектов личности. Но ведь это всего лишь 1я такая работа. И не за горами ее куда более продвинутые варианты (контекстные окна уже вмещают не 6,5 тыс слов интервью, а на порядки больше).

#Социология #АлгокогнитивнаяКультура #LLM #Социохакинг


Мне кажется, я усложняю. Возможно, ответ действительно в том, что человек и коза садятся в лодку вместе и переплывают реку за один раз.

Но давайте рассмотрим, есть ли что-то еще. Может быть, требуется несколько поездок, но задача не указывает на какие-либо риски оставления кого-то одного или другие ограничения.

Альтернативно, возможно, лодку могут грести только двое вместе, что требует присутствия и человека, и козы для управления ею. Но это кажется маловероятным.

Подождите, может быть, лодка предназначена для двух гребцов, и ни человек, ни коза не могут грести в одиночку. Если это так, то им нужно переправляться вместе.

Но опять же, задача не указывает на такие требования.

Учитывая предоставленную информацию, самым простым решением кажется то, что человек и коза садятся в лодку вместе и переплывают реку за один раз.

Думаю, это ответ: они оба садятся в лодку одновременно и переправляются на другую сторону.

**Окончательный ответ**

\boxed{\text{Человек и коза переправляются через реку вместе за один раз.}}

qwq:32b-preview-q4_K_M

@ai_plus_plus


Вот перевод рассуждений от модели которая всего лишь 20гб RAM и бежит у меня локально, ОХРЕНЕТЬ вообще!
Напоминаю, эту задачу GPT-4o решает через раз, gemini вообще нет и только новый sonnet-3.6 решает более менее стабильно

# Задача:
Человек и коза находятся на одном берегу реки. У них есть лодка, в которой могут поместиться двое. Как им переправиться на другой берег реки?
---
Итак, вот такая задача: на одном берегу реки стоят человек и коза, и у них есть лодка, в которой могут поместиться две сущности — предположительно человек и коза. Нужно понять, как им обоим попасть на другой берег реки. Хм, на первый взгляд кажется простым, но может быть здесь есть какой-то подвох.

Сначала мне нужно понять ограничения. В лодку помещаются двое, что, вероятно, означает либо человека и козу вместе, либо кого-то одного за раз. Но в задаче сказано "двое", так что, возможно, подразумевается, что в некоторых случаях лодка должна перевозить именно двоих. Постойте, может быть тут что-то еще.

Давайте я перечитаю задачу снова: "Человек и коза находятся на одном берегу реки. У них есть лодка, в которой могут поместиться двое. Как им переправиться на другой берег реки?"

Ладно, тут только человек и коза, и лодка на двоих. В отличие от классических задач про переправу, где есть несколько предметов с определенными правилами о том, что нельзя оставлять вместе, эта кажется проще.

В типичных задачах про переправу через реку обычно есть ограничения на то, что можно оставлять вместе. Например, в задаче с лисой, курицей и зерном нельзя оставлять лису наедине с курицей или курицу наедине с зерном. Но здесь только человек и коза. Есть ли какие-то неявные правила о том, что можно оставлять вместе?

Может быть, проблема в том, что коза не может управлять лодкой сама, или есть ограничения на использование лодки. Но в задаче не указаны такие ограничения.

Давайте рассмотрим самый простой подход: человек и коза садятся в лодку вместе и переплывают реку за один раз. Поскольку лодка вмещает двоих, а есть только две сущности, это кажется очевидным.

Но может быть это задача с подвохом, и я что-то упускаю. Возможно, есть другой элемент, который не указан, например, другие существа или ограничения на вместимость лодки.

Подождите минутку, в задаче говорится "у них есть лодка, в которой могут поместиться двое." Относится ли "двое" к двум людям, двум животным или двум сущностям в целом? В данном случае это человек и коза, так что, возможно, "двое" означает одного человека и одну козу.

Но даже если лодка может вместить и человека, и козу вместе, переправа за один раз кажется приемлемой. Есть ли причина, по которой они не могли бы это сделать?

Разве что... разве что есть что-то в реке, что делает опасным их совместное нахождение в лодке. Но задача не предполагает такой опасности.

Альтернативно, может быть, лодку нужно грести, и только человек может грести, а коза нет. Если это так, то если человек гребет в лодке с козой, они могут переплыть вместе.

Подождите, но в задаче не указано, кто может грести на лодке. Может быть, коза не может грести, но возможно, человек может грести один или с козой.

Это становится немного запутанным. Давайте подумаем иначе.

Предположим, лодка может вместить двоих, но только если один из них может грести. Если грести может только человек, то он должен быть в лодке, чтобы управлять ею.

В таком случае, если он берет козу с собой, они оба переправляются вместе. Это кажется возможным.

Альтернативно, он мог бы поехать один, оставить лодку на другом берегу, а затем вернуться за козой. Но это кажется ненужным, если лодка может вместить обоих.

Постойте, но, возможно, есть течение или какая-то другая опасность в реке, из-за которой лодку нельзя оставлять без присмотра.

Но в задаче не указаны такие сложности.

Еще одна мысль: может быть, лодка может вместить двоих только с точки зрения веса или пространства, и, возможно, человек и коза вместе превышают этот лимит. Но в задаче говорится, что лодка может вместить двоих, и есть только две сущности, так что, вероятно, они могут поместиться.


Видео недоступно для предпросмотра
Смотреть в Telegram
очень крутая модель!


Репост из: Сиолошная
Китай наносить удар! дракон!

Вторая китайская команда, на этот раз Qwen-часть AliBaba, разродилась o1-подобной «размышляющей» моделью. Тоже превью (все видимо ждут полную о1, чтобы начать релизить?), тоже без технических деталей и статьи, зато сразу с доступными весами:

https://huggingface.co/Qwen/QwQ-32B-Preview

Тем, кому хочется сразу помучить модель вопросами, без возни с GPU, можно поиграться тут: https://huggingface.co/spaces/Qwen/QwQ-32B-preview (пока очередь маленькая)

Блогпост

К посту прикреплена картинка с метриками. Для 32B модели (да даже если бы было 405b) результаты очень-очень нетривиальные — Qwen-2.5 и до этого считался очень сильной моделью (с которой даже иногда избегали сравнение другие авторы моделей, ахахха, чтобы не выглядеть на их фоне вторично), а тут в два раза меньшая моделька такие скачки совершает


Репост из: Denis Sexy IT 🤖
Интересный ресеч вышел, который проверяет, насколько эффективно, что языковые модели общаются между собой человеческим языком (например, в агентских системах где ответ из LLM попадает снова в LLM)

Ожидаемо оказалось, что роботам использовать наш язык – не эффективно. Вместо текста языковым моделям проще обмениваться набором «координат» — данных, которые описывают смысл фраз и слов, их называют эмбеддингами. Например, вместо фразы «Привет, ну как там с деньгами?» одна модель передаёт другой что-то вроде [0.82, -0.45, 1.22,…]. Это ускоряет процесс почти в три раза (!), причём без потерь в качестве

Подход позволяет моделям быстрее решать задачи и взаимодействовать друг с другом, например, в сложных сценариях вроде совместного написания кода или генерации текста

Тут технические детали, а тут статья в NewScientist

Короче, скоро не почитать будет без спец тулзов, что там модели друг другу пишут в процессе общения


Репост из: AI Для Всех
Видео недоступно для предпросмотра
Смотреть в Telegram
Смартфоны изучают ионосферу Земли🛰️📱🌍

Google Research нашли способ использовать миллионы Android-устройств для изучения ионосферы – верхнего слоя атмосферы, который влияет на радиосигналы и GPS-навигацию.

🔍 Что такое ионосфера?

Ионосфера – это слой, насыщенный заряженными частицами (плазмой), который может вызывать помехи для спутниковой связи, радио и GPS. Изучение её поведения особенно важно во время солнечных бурь, которые могут повредить спутники и энергосети.

🔹 Как это работает:

- Устройства Android с GPS собирают данные о сигналах спутников.
- Эти данные используются для отслеживания колебаний в плазме ионосферы, создавая карту её состояния.
- На основе этой информации ученые выявляют нарушения, которые могут повлиять на связь и навигацию.

🔹 Почему это важно?

- Улучшение точности GPS, особенно в условиях помех.
- Помощь в прогнозировании солнечных бурь и их воздействия на инфраструктуру 🌞⚡.
- Уникальная возможность изучать поведение Земли и её атмосферы на глобальном уровне 🌍.

🔹Преимущества нового метода:

- Двукратное расширение покрытия по сравнению с существующими станциями
- Особенно эффективен в регионах с редкой мониторинговой инфраструктурой (Индия, Юго-Восточная Азия, Африка)
- Полная анонимность пользовательских данных

🔹 Результаты:

- Использовано от 200 000 до 2 млн смартфонов ежечасно
- Охвачено около 40 млн измерений ежедневно
- Создана карта с разрешением порядка 70 км

🔹Практическое применение:

1. Повышение точности GPS до нескольких метров
2. Улучшение работы служб экстренного реагирования
3. Потенциал для прогнозирования последствий солнечных бурь

Интересный факт: Исследователи зафиксировали уникальные плазменные явления, такие как "плазменные пузыри" над Индией и Бразилией, которые ранее не были так детально зарегистрированы.

Метод открывает новые горизонты в изучении ионосферы и демонстрирует, как массовые пользовательские устройства могут служить научным инструментом.

Исследование опубликовано в журнале Nature.

🌌 Блог

📜 Статья

📽️ Видео

🗺 Демо карт


Репост из: Боря программирует
О каком AGI вы все говорите, если современные модели все еще не могут 3+2 правильно посчитать?


Видео недоступно для предпросмотра
Смотреть в Telegram


https://www.anthropic.com/news/model-context-protocol

📢 Anthropic just announced the Model Context Protocol (MCP) - a new open-source standard that lets AI assistants connect directly with data sources like Google Drive, Slack, and GitHub! This solves a major pain point by replacing fragmented integrations with a universal protocol.

Pretty exciting to see them tackling the "data isolation" problem. Instead of AI assistants being cut off from our tools and data, MCP creates a standardized way to give them secure access to the info they need. They're releasing SDKs, local server support in Claude Desktop, and pre-built connectors for common enterprise tools.


Репост из: Derp Learning
Видео недоступно для предпросмотра
Смотреть в Telegram
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

Китайцы снова шатают опенсорс.
Обещают редактирование видео с сохранением изменений во времени, что обычно проблема для guided подходов, так как в опорных картинках (depth map например) форма объекта отличается от отредаченной.

Мне, конечно, интереснее всего style transfer, но с ним пока не очень понятно. Примеры есть - но такой уровень и animatediff 2023 выдаст.

По классике, код и веса выложили чуть ли не раньше пейпера.

подробнее
код
веса (правда там бардак)

@derplearning


Репост из: AI Для Всех
Победа ChatGPT над врачами

Недавнее исследование показало, что ChatGPT-4 превзошел врачей в диагностике сложных медицинских случаев. Искусственный интеллект поставил верный диагноз в 90% случаев ✅, тогда как врачи с доступом к ChatGPT справились лишь на 76%, а без него — на 74%.

👨‍⚕️Основная проблема — врачи часто игнорировали предложения ChatGPT, предпочитая собственные гипотезы, даже если ИИ предлагал более точное объяснение. Кроме того, многие врачи использовали GPT как поисковую систему 🔍, а не как мощный инструмент анализа.

📋В исследовании участвовали 50 врачей, которые диагностировали 6 сложных медицинских случаев. Оценивалась способность ставить и аргументировать диагноз.

Результаты оценивали врачи-эксперты, которые видели только ответы участников, не зная, были ли они от врача с ChatGPT, врача без него или от самого ChatGPT.

Истории болезней, использованные в исследовании, были основаны на реальных пациентах. Случаи намеренно никогда не публиковались, чтобы студенты-медики и другие могли пройти тестирование на них без какого-либо предварительного знания. Это также означало, что ChatGPT не мог быть обучен на них.

ИИ показал способность обрабатывать вводные медицинские данные и контекст, предлагать обоснованные диагнозы и объяснять свои выводы. Несмотря на это, врачи часто отказывались принимать его аргументы из-за уверенности в собственной правоте 🧠

🤖По мнению авторов, системы ИИ могут стать незаменимым помощником в медицинской диагностике, но для этого нужно научить врачей полностью раскрывать их возможности и использовать их в качестве "второго мнения".

💊 Статья


Репост из: Сиолошная
Ну и загадки с моими вопросами в этот воскресный день!

Картинка 1:
— сколько котов слушают сольный концерт?
— где второй капитанский штурвал от корабля?
— где живой енот?

Картинка 2:
— где целующаяся пара?
— где обглоданная рыба?
— где магический шар?

(пожалуйста, прячьте ответы, в том числе картинки со стрелчоками, под спойлер)


Репост из: эйай ньюз
На чатбот арене последние дни очень жарко 💃

Неделю назад Gemini-1114 заняла первое место на арене, обогнав все модели OpenAI. В среду OpenAI ответили более новой версией 4o, Artificial Analysis протестировали её, и выводы печальные - хоть рейтинг на арене и растёт, бенчи MATH и GPQA просели ниже результатов июльской 4o-mini. При этом, с просадкой по бенчам, более чем в два раза выросла скорость - с 80 до 180 токенов в секунду. Похоже, нам суют модель сильно поменьше за те же деньги.

Вот вам ещё одно напоминание, что теперь и арене верить решительно нельзя - несколько компаний уже несколько месяцев активно занимаются тюном под арену только чтобы повысить ELO. Живая демонстрация закона Гудхарта в действии: «Когда мера становится целью, она перестает быть хорошей мерой». Кстати, жёсткий тюн под арену не сильно помог OpenAI - новая 4o продержалась в топе всего лишь чуть больше суток. В четверг вечером первое место заняла уже Gemini-Exp-1121.

Под постом про набор интернов у меня спрашивали, чем лучше сейчас заняться в AI. Так вот, надеюсь, посмотрев на весь этот бардак с ареной, кто-то из подписчиков вдохновится темой оценки качества моделей и сможет предложить бенчи получше.

Вообще объективная автоматическая оценка качества генеративных моделей будь-то текстовых или картиночных и видео - задача важная, но все еще не решенная.

@ai_newz




Репост из: Data Secrets
OpenAI, по слухам, начинает разработку своего браузера, и уже нанимает для этого специалистов

В частности, сегодня стало известно, что к стартапу присоединился Дарин Фишер. Это инженер, который известен тем, что работает над браузерами с самого начала их существования и значительно приложил руку к разработке таких крупных игроков как Firefox, Chrome, Arc и пр.

А между тем антимонопольная служба США еще и хочет заставить Google продать Chrome. Альтман как всегда вовремя.


Репост из: Data Secrets
Следом за DeepSeek и Пекинским университетом еще одна группа китайских исследователей релизнула конкурента o1

И на этот раз перед нами модель не от стартапа, и не от университетской лаборатории, а от гиганта Alibaba. Ризонинг в Marco-o1 работает на основе поиска по дереву методом Монте-Карло: модель как бы "строит" дерево решений и итерируется по нему, применяя при этом CoT. С помощью этого алгоритма ученые хотели уйти от повсеместного применения ревард-моделей, которые работают хорошо, но начинают подводить, если домен узкий и вознаграждение сложно оценить.

Звучит, конечно, интересно, но бечмарки – мимо. Нет сравнения вообще ни с одной моделью, кроме Qwen2 7B. Видимо работа была скорее экспериментальной. Если сравнивать вслепую, то на MGSM модель выбивает около 90%. Примерно столько же было у первых июльских версий gpt-4o. Также выложили веса и код.

Разборы предыдущих моделей здесь и здесь


Репост из: Метаверсище и ИИще
Видео недоступно для предпросмотра
Смотреть в Telegram
Значит так, у нас ЕЩЕ ОДИН ВИДЕОГЕНЕРАТОР, опенсорсный притом.
LTXV is ONLY a 2-billion-parameter DiT-based video generation model capable of generating high-quality videos in real-time. It produces 24 FPS videos at a 768x512 resolution faster than they can be watched.

Cходу нативная поддержка Comfy, text2videi, image2video и вроде как video2video.

Может притормозим?

Весь фарш тут:
https://blog.comfy.org/ltxv-day-1-comfyui/

@cgevent


Репост из: Метаверсище и ИИще
Видео недоступно для предпросмотра
Смотреть в Telegram
Самурай! Это просто плазма.

Пока все молятся на SAM2 от Метачки, опенсорсныe ребята взяли код и запили SAMURAI.

Для тех, кто в теме - поглядите видео и прикиньте количество времени на ротоскоп.
Причем он держит перекрытия другими людьми, дым, резкие движения.

Мне в субботу лень переводить непереводимые термины, просто скину все фичи сюда, а вы поглядите в репозиторий на гитхабе.

SAMURAI vs. MetaAI's SAM 2!

Traditional visual object tracking struggles in crowded, fast-moving, or self-occluded scenes, as does SAM2.

Meet SAMURAI: a completely open-source adaptation of the Segment Anything Model for zero-shot visual tracking!

Here's why it's a game-changer:

🚫 No need for retraining or finetuning
🎯 Boosts success rate and precision
🤖 Motion-aware memory selection
💪 Zero-shot performance on diverse datasets

But that's not all:

🔬 Refines mask selection
🔮 Predicts object motion effectively
📈 Gains: 7.1% AUC on LaSOT, 3.5% AO on GOT-10k
🏆 Competes with fully supervised methods without extra training

https://github.com/yangchris11/samurai

@cgevent


Репост из: Not Boring Tech
🧨 Runway несколько минут назад выпустил Expand Video — новая фича расширяет видео в любом формате! Качество генерации лучшее на рынке, ничего реалистичнее я не видел.

Из статичных кадров получаются кинематографичные движения камеры, зумы и визуальные эффекты. Самое классное — апдейт уже начали раскатывать и скоро он станет доступен для всех.

Снимаем фильмы с ИИ тут.

@notboring_tech

Показано 20 последних публикаций.