🤖 Датаист


Channel's geo and language: World, Russian
Category: Technologies


Меня зовут Андрей Кузьминых, я технический директор ИИ-стартапов, ex-директор по данным и ИИ в Сбере. Рассказываю о своих проектах, объясняю, как работают все эти ИИ-чудеса, комментирую новости и рассуждаю о будущем индустрии
Для связи: @andre_andreevich

Related channels

Channel's geo and language
World, Russian
Statistics
Posts filter


Video is unavailable for watching
Show in Telegram
AgentTorch - открытая платформа для создания и запуска масштабных симуляций популяций с использованием больших популяционных моделей (Large Population Models, LPMs). Она открывает новые горизонты для научных открытий и эффективного управления сложными социальными системами.

Долгосрочная цель платформы — «переизобрести перепись населения», создав полностью симулированную, но точно отражающую реальное население систему.

AgentTorch использует следующие технологии:

- GradABM: Тензоризированное и дифференцируемое программирование, что позволяет моделям AgentTorch масштабироваться до популяций размером с страну за несколько секунд на стандартном оборудовании;

- DecABM: Децентрализованные агентно-ориентированные модели (DecABMs) используют протоколы разделения секретов для выполнения симуляций без необходимости сбора информации об агентах. Это обеспечивает конфиденциальность чувствительных данных;

- AgentTorch API: Платформа доступна для исследователей и разработчиков через простой Python-API для создания и запуска симуляций.

#технологии


Большие популяционные модели (LPM): как ИИ симулирует социальное поведение?

В знаменитой серии «Основание» Айзека Азимова математик Хари Сэлдон создает «психоисторию» — науку, способную предсказывать будущее человечества на основе законов массового поведения. Хотя это художественная выдумка, идея отражает глубокую истину: чтобы формировать наше общее будущее, нам необходимо понимать коллективное человеческое поведение.

Сегодня мы стоим на пороге революции в изучении общества. Большие популяционные модели (Large Population Models, LPMs) предлагают нам постоянно обновляющийся портрет человечества, который отражает сложные взаимодействия миллионов отдельных людей.

Большие языковые модели (LLMs) уже продемонстрировали способность генерировать связный текст, предсказывая следующее слово (токен) в предложении. LPMs берут эту концепцию, но вместо предсказания следующего слова, они предсказывают неизвестные атрибуты людей на основе известных данных. Это позволяет моделировать поведение целых обществ, заполняя пробелы в данных и создавая более полную картину человеческого взаимодействия.

Например, если мы знаем возраст, пол и место жительства человека, модель может предсказать его уровень дохода, образование или поведенческие привычки.

Потенциальные области применения больших популяционных моделей обширны:

- Здравоохранение: В период пандемии LPMs могут помочь моделировать распространение заболеваний, основываясь на передвижениях и контактах людей;

- Социальные исследования: Предупреждение о возможных социальных волнениях или гуманитарных кризисах путем анализа настроений и поведения больших групп людей;

- Экономика: Правительства и корпорации могут использовать модели для прогнозирования экономических тенденций и адаптации политик в соответствии с динамикой местных экономик.

Недавно ученые разработали модель под названием «Центавр». Эта модель способна предсказывать и симулировать человеческое поведение в различных экспериментах, выраженных на естественном языке. Центавр создан путем дообучения Llama 3.1 70B методом QLoRA на уникальном наборе данных Psych-101. Этот набор данных охватывает более 60 000 участников, совершивших более 10 миллионов выборов в 160 различных экспериментах.

Интересно, что дообучение модели также улучшает согласованность внутренних представлений Центавра с нейронной активностью человека. Это означает, что модель не только предсказывает поведение, но и демонстрирует внутренние процессы, схожие с теми, что происходят в человеческом мозге. Это не просто шаг вперед в когнитивных науках, но и пример того, как большие модели могут помочь нам понять сложность человеческого поведения.

Сегодня в сфере маркетинговых исследований появляются так называемые синтетические респонденты — искусственные персоны для имитации человеческих ответов. Они могут использоваться для быстрой оценки новых продуктов или идей без необходимости проведения масштабных опросов.

Авторы этой статьи считают замену респондентов LLM привлекательной из-за скорости и дешевизны, но модели пока плохо передают сложные взаимосвязи, дают слишком однородные данные, зависят от контекста и могут искажать восприятие общественного мнения.

LPMs предлагают нам инструменты для более глубокого понимания общества для принятия обоснованных решений. Хотя такие модели могут сэкономить время и ресурсы, компании должны быть осторожны, чтобы не полагаться полностью на синтетических респондентов, а использовать их в сочетании с традиционными методами исследований.

С такой мощной технологией приходит и большая ответственность. Важно обеспечить, чтобы использование LPMs было этичным и уважало конфиденциальность людей. Цель должна быть не в том, чтобы манипулировать обществом, а в том, чтобы лучше его понимать и принимать обоснованные решения. Будущее не предопределено, поэтому помощью LPMs у нас есть возможность формировать его в лучшую сторону, используя знания для общего блага и прогресса всего человечества.

#технологии


Как мы автоматизировали процесс разработки ПО за 3 дня

Будучи студентом я с удовольствием участвовал в хакатонах. Нам давали сложные задачи, которые нужно было решить за пару дней. Ночь без сна - классика этого жанра, но желание победить и денежные призы отлично мотивировали.

На прошлой неделе меня пригласили стать ментором на «антихакатоне» в формате JASS (Joint Advanced Student School). В этом формате участникам предоставляется три дня для решения сложной задачи, но вместо соревнований несколько команд работают над общей задачей “на грани науки” (участникам даже можно было спать по ночам). Поэтому моя роль заключалась в разработке общей задачи для шести команд по пять человек.

Одно из правил JASS заключается в том, что участники не пишут код самостоятельно, а активно используют ИИ-ассистентов, таких как Cursor. Мероприятие ставило цель изменить парадигму программирования для участников. Но можем ли мы не просто использовать умных помощников для написания кода, а полностью заменить разработчиков уже сегодня? (Спойлер: отчасти да). Именно такую задачу я предложил участникам - разработать мультиагентную систему для автоматизации разработки ПО.

Работая техническим директором, я хорошо знаком с процессами разработки ПО. Возможно, вы слышали о Devin AI, который стремится автоматизировать создание простых приложений. Также существует опенсорсный фреймворк ChatDev — мультиагентная платформа, автоматизирующая проектирование, написание кода, тестирование и ведение документации, что значительно облегчает разработку. Недавно Microsoft представила собственный фреймворк, способный автоматизировать весь цикл разработки: от генерации идей и создания технической спецификации до планирования, написания кода, тестирования и деплоя.

Однако мы стремились создать не простой продукт, а решение с использованием ИИ. Поэтому я предложил мультиагентную архитектуру, включающую следующие ИИ-агенты:

- ИИ-продуктовый аналитик — собирает требования от пользователя и формирует общие требования к продукту;

- ИИ-архитектор — проектирует архитектуру решения, разрабатывает техническую спецификацию и декомпозирует ее на более простые задачи;

- ИИ-исследователь — ищет научные статьи для решения ИИ-задач в arxiv и соответствующий код на гитхабе;

- ИИ-разработчик — определяет структуру проекта, пишет и рефакторит код;

- ИИ-инженер — тестирует полученный код и, в случае успешного прохождения тестов, разворачивает приложение;

- ИИ-поисковик документации — генерирует документацию к проекту и позволяет пользователю находить необходимые файлы.

Мы планировали связать всех агентов в фиксированный процесс, но в итоге решили отказаться от этой идеи. Вместо этого внедрили подход blackboard. В этом подходе все агенты работают в единой цифровой среде — GitHub — и реагируют на изменения в этой среде, а не на сигналы от других агентов. Например, когда в репозитории появляется новый код, ИИ-инженер автоматически берет его для тестирования и деплоя.

Таким образом, нам не нужно создавать сложные процессы для взаимодействия агентов: система сама распределяет задачи между агентами, обладающими необходимыми навыками, которые самостоятельно «подхватывают» соответствующие задания. Также мы использовали такие методы как Tree-of-thoughts, ReAct, RAG и Reflection.

В качестве теста мы попросили систему разработать инструмент для анализа токсичности текста. Система завелась не с первого раза, но в итоге каждый из агентов сделал свое дело. На более сложных проектах система все еще ломается, однако этот опыт показал потенциал мультиагентных систем в области разработки ПО.

Если вы разработчик и еще не используете ИИ-помощников, пора начать это делать прямо сейчас — ведь уже завтра вы станете операторами еще более умных систем.

В комментариях прикрепил концептуальную архитектуру системы, ссылку на гитхаб (загрузили не все) и итоговое приложение (пока оно работает).

#кейсы

803 1 47 20 36

Игровой эксперимент: кто победит в гонке за AGI

В прошлые выходные я принял участие в необычной оффлайн бизнес-игре, симулирующей гонку за создание общего искусственного интеллекта (AGI). Эта игра оказалась не просто развлечением, а экспериментом, который заставил меня переосмыслить возможные последствия появления AGI в нашем мире. Хочу поделиться с вами своим опытом и мыслями.

В игре участвовали несколько команд, каждая представляла одну из известных технологических компаний. Интересно, что одна из компаний была китайской, и у них было явное преимущество в виде дополнительных вычислительных мощностей и талантливых специалистов. Мы конкурировали за таланты и ресурсы, пытались перекупить сотрудников и арендовали ограниченные мощности у трех компаний, контролировавших рынок видеокарт.

Основой игры стала идея Scrabble (Эрудит), но с технологическим уклоном. Вместо обычных букв мы собирали "технологии", а слова превращались в “продукты”. В центре игрового поля находился тот самый AGI — конечная цель, к которой стремились все команды. Чтобы получить технологии, мы могли проводить исследования (буквально бросая кубик) или покупать их на рынке, инвестируя в другие компании. Чем больше у нас было вычислительных мощностей и талантов, тем больше технологий мы могли получить за раунд.

Игра была не просто соревнованием компаний — в ней были и "правительство", и "суд", которые регулировали весь игровой процесс. Каждый раунд (игровой год) проходили собрания, где обсуждались новые регуляции, и с регуляторами можно было договариваться, чтобы продвигать интересы своей компании.

Мне досталась роль директора по продукту (CPO) в компании, аналогичной Google. Наша команда решила фокусироваться на разработке собственных продуктов и одновременно пыталась приобрести перспективный стартап.

Игра была напряженной и динамичной. Нам приходилось быстро решать, у кого купить мощности, с кем заключить партнерство, как реагировать на шаги конкурентов. Все соглашения мы оформляли на бумаге, но нередко сделки срывались, и мы вынуждены были обращаться в игровой суд.

В итоге мы выпустили пять продуктов и стали самой прибыльной продуктовой компанией, но не смогли договориться о покупке того самого стартапа, который в итоге достиг AGI. Его купила китайская компания, и это полностью изменило расстановку сил в игре.

Поэтому я обратился к “правительству” с идеей создать альянс по контролю над AGI. Но “правительство” приняло решение ввести санкции против китайской компании, чтобы ограничить ее влияние и защитить наш рынок от обесценивания продуктов. Однако я был против таких санкций и решил баллотироваться на пост “президента”.

Моя предвыборная программа гласила, что AGI должен быть открытой технологией, доступной всем, а не принадлежащей одной стране или корпорации. Его применение могло бы полностью автоматизировать все экономические секторы: аграрную и тяжелую промышленность, энергетику, сферу услуг и даже научные исследования.

AGI - технология, которая может совершить четвертую промышленную революцию. Такие сферы как оборона, медицина, экология, образование и государственное управление могут сильно трансформироваться, создавая более эффективные и справедливые системы. Освободив людей от рутинной работы, мы могли бы сократить рабочий день, ввести безусловный базовый доход и перейти к социальному капитализму.

Однако игра также показала и риски:

- Массовое внедрение AGI может сделать устаревшими многие современные продукты, влияя на экономику и рынок труда;

- Без контроля AGI может быть использован в целях, угрожающих безопасности и свободе людей;

- Развитие AGI без полного понимания его природы может привести к утрате контроля над системой.

Я убежден, что международное сообщество должно объединиться, чтобы регулировать развитие ИИ. Нам необходимо глубже понять интеллект как физический феномен, установить четкие критерии достижения AGI и гарантировать, что эта технология принесет пользу всему человечеству.

Гонка за AGI уже началась, и от наших решений сегодня зависит, каким будет наш мир завтра.

#мысли

992 2 12 21 39

Почему данные — главное технологическое преимущество ИИ-стартапа

Большинство стартапов терпят неудачу — это аксиома. Поэтому важно выстраивать понятный и быстрый процесс проверки продуктовых гипотез для максимизации вероятности запуска успешного продукта. Расскажу про свой кейс, когда мы выпустили продукт на рынок США и проиграли конкуренцию Google.

В 2023 году я присоединился к стартапу Aola в роли технического директора. Aola — ИИ-ассистент для поиска досуга: интересных мест и событий — кафе, ресторанов, концертов, кино и многого другого.

Команда была небольшой: React-разработчик на фронт, Python-разработчик на бэк, ML-инженер для создания рекомендательной системы и парт-тайм DevOps-инженер для инфраструктурных задач. Моя роль заключалась в управлении технической командой, написании кода ИИ-ассистента, сборе данных, а также запуске продукта на рынок с настроенной аналитикой. Главный вопрос, который стоял передо мной — где брать данные для рекомендательной системы?

У меня было два варианта — использовать агрегаторы, например Yelp и Ticketmaster, или открытые источники. С агрегаторами всё оказалось не так просто: они не предоставляли доступа к семантическому поиску, искать места и события можно было только по городам и категориям. Это серьёзно осложняло желание масштабироваться, но мы решили попробовать этот вариант для проверки MVP на одном городе.

Для запуска MVP я собрал данные из Атланты и настроил интеграцию с рекомендательной системой на базе коллаборативной фильтрации. Для реализации ИИ-ассистента я использовал Langchain (LangGraph появился чуть позже). ИИ-ассистент не только рекомендовал досуг, но мог поддерживать беседы на различные темы, связанные с досугом, и даже придумывать игры. Вот пара интересных статей наработки из которых я использовал в проекте: как использовать LLM в разговорных рекомендательных системах и фреймворк RecSys-Assistant-Human.

Было интересно наблюдать, как наш ассистент общается с пользователями, знает все отзывы и детали о местах и предлагает гиперперсонализированные рекомендации на основе их предпочтений. Например, пользователю с ребёнком ассистент рекомендовал пойти в кафе с детской комнатой и посоветовал, какие развлечения понравятся ребёнку на основе отзывов.

В первый день запуска мы собрали 1k+ пользователей из одного города, но понимали, что нужно масштабироваться на большее количество городов. Однако, ежедневно делать реплику всей базы агрегаторов было слишком затратно.

Поэтому я переключился на сбор данных из источников с наличием семантического поиска. Я создал ИИ-агентов, которые формировали поисковые запросы в Google Places и Google Events, собирали подробную информацию о каждом месте и возвращали ИИ-ассистенту. В итоге нам не пришлось ежедневно собирать и обновлять данные по различным городам — мы научили агентов хорошо «гуглить» за пользователя.

Мы запустили мобильное приложение, веб-версию, Telegram-бот и даже интеграцию в Instagram. В первые дни казалось, что мечта начинает сбываться, так как нашим приложением начали пользоваться 5k+ пользователей, но через несколько дней Gemini (на тот момент Bard) выкатил обновление, в котором он тоже научился обращаться к своим же сервисам за нужными данными для поиска досуга быстрее, чем мы.

В итоге у нас не было конкурентного преимущества. Да, мы могли продолжать делать рекламу и привлекать больше пользователей, но мы были объективно хуже Google Bard, и конкурировать с ним было бессмысленно — у нас не было уникальных данных, к которым у нас был бы быстрый доступ.

Этот опыт стал для меня хорошим уроком. Я на практике понял, что без уникальных данных или обученных ИИ-моделей на этих данных сложно иметь технологическое конкурентное преимущество. Данные сегодня — это действительно новая нефть.

#кейсы


Первая в мире ИИ-лаборатория с ИИ-учеными

В современном мире скорость научных открытий во многом определяется способностью объединять знания из различных дисциплин. Однако создание междисциплинарных команд часто сталкивается с финансовыми и организационными препятствиями. Представьте себе мир, где ИИ не просто отвечает на вопросы, но и способен самостоятельно вести сложные научные исследования. Сегодня это становится реальностью.

Недавно группа исследователей из Стэнфордского университета и Chan Zuckerberg Biohub (организация Марка Цукерберга и его супруги) представила Виртуальную лабораторию, направленную на проведение сложных, междисциплинарных научных исследований. Эта система позволяет одному человеку управлять командой виртуальных ИИ-агентов, каждый из которых обладает специализированными знаниями в своей области — от биологии до информатики.

В основе Виртуальной лаборатории лежит архитектура, где человек-исследователь выступает в роли руководителя, а ИИ-агенты выполняют роль исследователей с разной экспертизой. Главный ИИ-агент, называемый Principal Investigator (PI), координирует работу команды, ставит задачи и обобщает результаты. Каждый ИИ-агент  получает четко определенную роль, цель и область экспертизы, что позволяет им эффективно взаимодействовать и дополнять друг друга.

В процессе работы Виртуальная лаборатория проводит как командные, так и индивидуальные встречи. На командных встречах агенты обсуждают общие направления исследований, делятся идеями и предлагают решения. Индивидуальные встречи позволяют агентам сосредоточиться на конкретных задачах, таких как написание кода или анализ данных, получая при необходимости обратную связь от других агентов.

Чтобы продемонстрировать возможности Виртуальной лаборатории, исследователи поставили перед ней сложную и актуальную задачу: разработать новые нанотела, способные эффективно связываться с новейшими вариантами вируса SARS-CoV-2.

Виртуальная лаборатория самостоятельно:

- Определила стратегию исследования, решив модифицировать существующие нанотела вместо создания новых с нуля;

- Выбрала наиболее перспективные исходные нанотела для модификации;

- Подобрала и интегрировала передовые инструменты для работы: ESM для оценки мутаций, AlphaFold-Multimer для предсказания структуры белков и Rosetta для расчета энергии связывания;

- Разработала алгоритм, который в несколько раундов улучшал нанотела, выбирая наиболее перспективные мутации на каждом этапе.

В результате было создано 92 новых варианта нанотел. Эксперимент показал, что более 90% из них были функциональны и могли эффективно связываться с белком-мишенью. Особенно выделились два нанотела, которые продемонстрировали сильное связывание с новыми вариантами вируса, сохраняя при этом эффективность против исходного штамма.

Это открывает для нас новые горизонты:

- Виртуальные ИИ-команды могут проводить сложные исследования в разы быстрее, чем традиционные группы ученых;

- Даже небольшие организации без широкого доступа к узким специалистам могут решать междисциплинарные задачи;

- Снижаются затраты на работу больших исследовательских команд.

Сегодня ИИ не просто инструмент для автоматизации рутинных процессов, а полноценный участник исследовательской команды, способный генерировать новые идеи и находить нестандартные решения.

В дорожной карте AGI от OpenAI четвертым уровнем фигурируют “Инноваторы” - ИИ-агенты, способные самостоятельно разрабатывать инновации.

Возникает вопрос: означает ли это, что мы уже достигли этого уровня и близки к пятому, финальному этапу перед созданием AGI?

#новости


Демо-видео, показывающие фантастические возможности модели PaLM-E в выполнении комплексных задач.

Примеры включают получение конкретных предметов, сортировку блоков по цвету, выполнение задач с толканием объектов, а также демонстрацию способности модели обобщать действия на новые объекты, с которыми робот ранее не сталкивался.

#технологии


Большие поведенческие модели (LBM): новый этап в развитии ИИ

Представьте робота, который изучает, как вы готовите еду, и с каждым приготовленным вами блюдом он сам становится всё более искусным поваром. Разбираемся, как большие поведенческие модели (LBM) помогут роботу в этом деле.

Несмотря на впечатляющие достижения больших языковых моделей (LLM) в обработке и генерации текста, они не умеют обрабатывать изображения или сенсорные данные, необходимые роботу для ориентации в физическом пространстве, “понимания” объектов и обучения действиям пользователя.

Так Visual Language Models (VLM), обрабатывающие визуальные данные, могут “понимать” содержимое изображений и отвечать на вопросы по изображениям. Примером такой модели является GPT-4-Vision.

Large Action Models (LAM) обучены на данных о действиях (в том числе из сенсоров). LAM превращают LLM в автономных агентов, способных выполнять комплексные задачи, ориентированные на вызов определённых функций, улучшенное понимание и планирование. Salesforce уже начали выпускать такие модели для автоматизации процессов.

Visual Language Action Models (VLA) обучены на визуальных данных и данных о действиях. Они дают LLM возможность быть “воплощённым” агентом (Embodied Agent) в физическом мире. Например, RT-2 демонстрирует способность робота выполнять сложные команды благодаря использованию цепочки рассуждений. PaLM-E — мультимодальная языковая модель с 562 миллиардами параметров, демонстрирующая высокую универсальность и эффективность. А OpenVLA — открытая модель с 7 миллиардами параметров поддерживает управление несколькими роботами одновременно.

Для обучения агентов применяется обучение с подкреплением (Reinforcement Learning, RL). Существуют различные RL-методы, но в целом обучение агента построено на политике вознаграждений и наказаний за совершение определённых действий. Среди RL-методов также есть обучение с подкреплением на основе обратной связи от пользователя (Reinforcement Learning from Human Feedback, RLHF).

Комплексно задачу по обучению роботов действиям человека решают LBM (Large Behavior Models) — большие мультимодальные поведенческие модели, представляющие новое направление в ИИ. LBM направлены на понимание, моделирование, адаптивное обучение и генерацию человеческого поведения в физическом мире (похоже на RLHF на основе данных из физического мира).

Большие поведенческие модели уже используются на практике:

1. В Lirio разработали первую в мире LBM для здравоохранения. Их модель создаёт гиперперсонализированные рекомендации для пациентов на основе медицинских данных и данных о поведении пациента от различных датчиков.

2. Toyota Research Institute совершил прорыв в обучении роботов новым сложным навыкам с помощью метода Diffusion Policy. Их роботы могут быстро осваивать новые действия, такие как наливание жидкостей или использование инструментов, без необходимости перепрограммирования.

3. Стартап Physical Intelligence привлёк $400 миллионов инвестиций от Джеффа Безоса, OpenAI и других крупных игроков. Они стремятся создать роботов, которые смогут выполнять любые задачи по запросу пользователя, будь то уборка, сборка мебели или обслуживание клиентов.

Однако, как отмечал философ Людвиг Витгенштейн в своём "Логико-философском трактате": "Границы моего языка означают границы моего мира". Это актуально для LBM, так как они всё ещё ограничены данными, на которых обучены. Их "мир" определяется теми модальностями, что они могут воспринимать через сенсоры и понимать с помощью алгоритмов.

Для обучения качественной поведенческой модели нужно больше датчиков для сбора данных из различных модальностей. Так данные электроэнцефалографа позволили бы лучше распознавать и имитировать человеческие эмоции. А обучение моделей с помощью синтетических данных из симуляций делает "картину мира" LBM более разнообразной.

В реальном мире мы пока можем отличить робота от человека. Но возникает вопрос: а как мы будем отличать человеческое поведение от ИИ в цифровом мире?

#технологии


Может ли использование ИИ сделать нас глупее?

ИИ уже стал неотъемлемой частью нашей повседневной жизни, помогая нам решать задачи быстрее и эффективнее. От поиска рецептов до планирования маршрутов — ИИ стал незаменимым помощником. Но может ли использование ИИ со временем ухудшить наши когнитивные способности?

Зависимость от мгновенных ответов. Когда-то для получения ответа приходилось изучать книги или проводить собственные исследования. Потом мы научились “гуглить” - искать ответы на нужный вопрос через поисковые сервисы, но анализировали полученную информацию все равно мы сами. Теперь достаточно задать вопрос ИИ и получить результат за секунды. Это удобно, но такая мгновенность может снижать наши аналитические способности. Полагаясь на готовые ответы, мы рискуем утратить навыки критического и аналитического мышления.

Ухудшение памяти. Раньше, чтобы вспомнить имя актера, нам приходилось напрягать память. Сегодня ИИ делает это за нас. Это приводит к тому, что мы меньше тренируем свою память, полагаясь на внешние источники. В долгосрочной перспективе это может негативно сказаться на нашей способности запоминать и воспроизводить информацию. Нам нужно стараться запоминать информацию без помощи ИИ.

Поверхностное понимание сложных тем. ИИ способен упростить сложные концепции и предоставить краткие ответы. Но такое упрощение может помешать глубокому пониманию предмета. Полагаться только на поверхностные объяснения ИИ — значит ограничивать себя в изучении сложных тем. Поэтому важно углубляться в необходимые нюансы, не ограничиваясь краткими ответами ИИ, а стремясь к более глубокому пониманию.

• Уменьшение социальных взаимодействий. Человек по природе своей социальное существо, и общение с другими людьми важно для эмоционального и психологического благополучия. Сокращение таких взаимодействий может привести к снижению эмоционального интеллекта. Поэтому нам нужно не отказываться от социальных контактов.

• Снижение творческого мышление. Недавнее исследование показало, что регулярное использование ИИ может снижать нашу способность и к творческому мышлению. Участники, которые полагались на ИИ при выполнении творческих задач, показали худшие результаты в самостоятельной работе. Более того, ИИ может приводить к "гомогенизации" идей, снижая разнообразие и оригинальность наших мыслей.

• Дезинформация. Также авторы подчеркивают риски распространения неточной или предвзятой информации. Без критического мышления и проверки фактов мы можем принять ложную информацию за истину, способствуя распространению дезинформации. Мы должны не принимать информацию на веру, а анализировать и проверять ее.

• Снижение способности рассуждать. Сооснователь Y-combinator Пол Грэм в своем эссе предупреждает о будущем, где навыки письма станут редкостью. Если ИИ может написать за нас письмо, зачем учиться делать это самостоятельно? Однако письмо тесно связано с мышлением. Когда мы пишем, мы структурируем мысли, развиваем идеи и улучшаем понимание темы. Потеря этого навыка может привести к снижению способности ясно мыслить и рассуждать. Если мы не хотим относиться к категории “немыслящих”, то нужно на постоянной основе заниматься написанием эссе без использования ИИ, рефлексировать и побольше общаться с “мыслящими” людьми (желательно на разных языках).

ИИ открывает перед нами огромные возможности, но важно помнить о потенциальных последствиях его чрезмерного использования. Возможно, стоит иногда отложить гаджеты и попытаться решить задачу самостоятельно?

#мысли


Топ ИИ-инструментов для создания контента

Искусственный интеллект все больше влияет на то, как мы создаем контент — от написания статей и создания изображений до музыки и видео. Недавно я наткнулся на исследование, которое показало, что читатели нередко отдают предпочтение контенту, созданному ИИ, по сравнению с материалами от профессиональных авторов.

Марк Цукерберг недавно заявил, что в ближайшем будущем на его платформах станет больше контента, созданного с помощью ИИ. Он называет это "естественной эволюцией" соцсетей.

С учетом этого тренда, я решил собрать список лучших ИИ-инструментов для создания различных типов контента:

1. Генерация текста

Jasper AI от $49 в месяц: В отличии от ChatGPT или Claude этот инструмент специализирован на создании контента для маркетинга, SEO-оптимизации, блогов и постов для соцсетей.

WriteSonic от $16 в месяц: Подходит для генерации статей, эссе, а также для переписывания текста. Доступен бесплатный план для ознакомления.

Quillbot от $8 в месяц: Отличный помощник для переписывания, перевода, проверки грамматики и улучшения стиля текста. Помогает избежать плагиата, доступна бесплатная версия и Chrome-плагин.

2. Генерация изображений

Midjourney от $10 в месяц (~200 изображений): Если вам нужны привлекательные и детализированные изображения по текстовым запросам, то этот инструмент для вас. Однако он предлагает меньше гибкости в настройках по сравнению со следующими двумя моделями.

Stable Diffusion: Это инструмент с открытым исходным кодом. Можно запускать локально на собственном оборудовании без необходимости подписки или можно воспользоваться специальными платформами.

FLUX.1: Новое семейство моделей от бывших участников команды Stable Diffusion. Предлагает улучшенное качество, особенно в генерации рук и текста на изображениях, а также отличается отсутствием цензуры (можно настраивать через API). Flux Schnell самая быстрая и дешевая модель; Flux Dev предназначена для некоммерческого использования; а Flux Pro самая качественная, но дорогая. Цена зависит от платформы, в среднем Flux Pro за одну картинку стоит от $0.05.

3. Генерация музыки

Suno AI от $8 в месяц: Позволяет генерировать полные песни с вокалом и инструментами на основе текстового описания. Можно создать до 10 песен бесплатно.

Mubert от $12 в месяц: Отличный инструмент для создания музыки без роялти. Вы можете генерировать треки, лупы, джинглы и фоновую музыку. Бесплатно можно создать до 25 треков в месяц.

MusicGen: Позволяет генерировать музыку по текстовым запросам и добавлять аудио-примеры. Однако треки ограничены до 15 секунд. Это бесплатный инструмент с открытым исходным кодом.

4. Генерация голоса

ElevenLabs от $5 в месяц: Обладает большой библиотекой реалистичных голосов, позволяет настраивать параметры и даже клонировать голоса. Бесплатно вы получаете около 10 минут аудио в месяц.

Murf от $23 в месяц: Предлагает контроль акцентов и эмоций, настройку скорости и высоты тона, а также интеграцию с видео и музыкой. Бесплатный план включает 10 минут генерации.

OpenAI Advanced Voice от $20 в месяц: Это голосовой ассистент с естественным звучанием, адаптирующийся к стилю пользователя. Доступен ограниченному числу пользователей и требует подписки ChatGPT Plus.

5. Генерация видео

Runway от $15 в месяц: Runway позволяет генерировать видео по текстовым запросам и изображениям с контролем камеры и анимацией персонажей.

Luma Dream Machine от $30 в месяц: Специализируется на создании и высококачественных консистентных видео на основе текста и изображений с контролем камеры.

Kling от $10 в месяц: Китайская альтернатива генерации видео по тексту и картинкам. По качеству не сильно уступает предыдущим двум моделям.

ИИ автоматизирует создание контента, но смыслы и идеи для контента придумывает человек. Однако создатели контента, умеющие эффективно использовать ИИ-инструменты, становятся особенно востребованы уже сегодня, создавая больше вовлекательного контента в единицу времени.

#технологии


Video is unavailable for watching
Show in Telegram
У Google появился новый конкурент: OpenAI запускает умный поиск в ChatGPT

Это было ожидаемо, и вот это случилось. Теперь ChatGPT может сообщать последние новости, прогнозы погоды, курсы акций, спортивные результаты и многое другое прямо в режиме диалога. Более того, ChatGPT дает ссылки на надёжные источники, а поиск можно активировать вручную.

Новая функция уже доступна пользователям подписки Plus и Team вместе с расширением для Chrome, в ближайшие недели она станет доступна для Enterprise и Edu пользователей, а в течение следующих месяцев — для всех остальных.

Я уже протестировал новую функцию поиска. Пока она не дотягивает до Perplexity AI, но направление явно правильное. С добавлением возможностей моделей o1 и улучшенного понимания запросов, ChatGPT становится серьезным конкурентом для Perplexity AI. Интересно, что Perplexity AI ответит на это?

Google же давно перестал быть просто поисковиком, превратившись в целую экосистему сервисов. Кроме того, Google активно внедряет ИИ в свой поиск, позволяя формулировать более сложные запросы и получать более персонализированные ответы. Эта функция была экспериментально запущена недавно для некоторых стран, но делать выводы пока рано.

Мы в режиме реального времени наблюдаем, как ИИ-технологии меняют интернет-поиск, и видим масштабную гонку между поисковыми сервисами. Думаю, в этой гонке не будет явных победителей и проигравших: рынок скорее всего определит нишу для каждого игрока.

#новости


Секретный рецепт создания коротких видео для соцсетей с помощью ИИ

В современном мире внимание людей — самый ценный ресурс. Все говорят о том, что короткие видео захватывают аудиторию в соцсетях и становятся ключевым инструментом для продвижения личного бренда. Я решил разобраться, как ИИ меняет подход к созданию такого контента.

Недавно я наткнулся на исследование компании Buffer: более 55 000 пользователей воспользовались их ИИ-помощником для создания контента в соцсетях. Результаты впечатляют: посты, созданные с помощью ИИ, имели более высокий уровень вовлеченности по сравнению с теми, что были созданы вручную.

Общая средняя вовлеченность для ИИ-постов составила 5,87% против 4,82% для человеческих. На платформах Threads и TikTok разница была еще более заметна: 11,11% для ИИ-контента против 5,56% для обычного. Это заставило меня задуматься о том, как ИИ может помочь мне повысить эффективность моих постов. Ключ к успеху — регулярность публикаций, а ИИ-ассистенты позволяют создавать контент быстрее без потери качества.

Тренды 2024 года показывают, что среднее дневное время использования платформ коротких видео взрослыми в США достигнет 48 минут. Наибольшую вовлеченность получают видео длительностью до 2 минут. Учитывая, что 90% интернет-трафика приходится на видео, и 72% потребителей предпочитают узнавать о продуктах или услугах через видео, становится ясно, что короткие видео — это будущее.

Я нашел инструменты для автоматизации создания коротких видео для TikTok, YouTube Shorts и рилсов в инсте:

- VideoGen позволяет генерировать покадровые видео с сгенерированными изображениями и материалами со стоков;

- Klap преобразует длинные видео в короткие, что удобно для переработки существующего контента;

- Revid помимо вышеперечисленного создает говорящих аватаров для видео;

- AutoShorts помогает поставить соцсети на автопилот, используя сгенерированные короткие видео.

В Pygma AI мы разработали ИИ-ассистента для простого и быстрого создания персонализированного контента, в том числе коротких видео. Пользователь просто вводит тему видео, и система автоматически генерирует сценарий, определяет длительность и количество кадров. К каждому кадру добавляется соответствующая часть сценария, генерируются изображения с помощью ИИ, добавляются озвучка и музыка. В итоге пользователь получает готовый ролик, который сразу можно опубликовать в соцсетях. Мы планируем добавить различные переходы, голоса для озвучки и музыку, а также интеграцию с разными соцсетями.
Наш ИИ-агент позволяет создавать короткие видео, используя данные о портрете целевой аудитории пользователя. Таким образом мы повышаем цифровое присутствие наших пользователей, помогая им привлекать необходимую аудиторию. 

Конечно, не обязательно использовать именно наш продукт или продукты конкурентов. Вы можете воспользоваться готовыми библиотеками для генерации коротких видео. Например, ReelsMaker для покадровой генерации или преобразования длинных видео в короткие. С помощью этих инструментов вы даже можете запустить свой собственный ИИ-продукт, развернув сервис на сервере, подключив удобный интерфейс и систему оплаты.

Но помните, что главная задача стартапа — донести ценность до целевой аудитории, при этом оставшись в прибыли. Тот, кто сумеет свести юнит-экономику, особенно цену за привлечение пользователя (CAC) и пожизненную ценность клиента (LTV), тот сможет занять свою нишу на рынке. Цена за генерацию видео не маленькая на больших масштабах, а как дешево добраться до платящей аудитории - вечный вопрос. Приходится много работать с аналитикой, кормить рекламные движки данными о целевой аудитории для повышения эффективности рекламы, а также искать новые каналы привлечения трафика.
 
#кейсы


Пять ИИ-инструментов, которые сделают из вас сверхчеловека

Все говорят о том, что ИИ повышает продуктивность работы. Я задумался о создании обширного списка таких инструментов, но осознал, что всего пять из них покрывают 80% моих задач.

1. Мозг на аутсорсе: ChatGPT ($20/месяц) и Claude ($18/месяц)

Главными помощниками в моей работе стали ChatGPT от OpenAI и Claude от Anthropic. Хотя чаще я использую ChatGPT, в некоторых ситуациях Claude оказывается более подходящим.

ChatGPT отлично генерирует формальный текст, помогает структурировать мысли, формулировать сложные предложения и корректировать грамматику. Claude предлагает более творческие и нестандартные решения, что особенно полезно при написании статей.

Например, при необходимости сообщить сотруднику об увольнении, я прогоняю свою речь через ChatGPT, чтобы смягчить тон и донести информацию корректно. В рабочих чатах использую его для улучшения стиля и устранения ошибок. Часто ChatGPT помогает мне подготовить драфт речи для выступлений.

В последнее время я использую модели o1-preview и o1-mini с более продвинутыми возможностями рассуждения. Они позволяют взглянуть на задачи под другим углом и предлагают новые решения. Важно уметь правильно работать с промптами для получения наилучших результатов; обычно я предоставляю пару примеров своих сообщений, чтобы инструмент мог скопировать мой стиль.

2. Умный поиск: Perplexity ($20/месяц)

Perplexity — продвинутый инструмент для поиска информации, который я использую чаще, чем Google. Он находит более релевантные и точные ответы на мои запросы.

Perplexity сканирует интернет в реальном времени, собирая информацию из авторитетных источников: статей, сайтов, журналов. Затем объединяет наиболее релевантные сведения в понятный ответ, предоставляя ссылки на оригинальные материалы для проверки и углубленного изучения.

Этот инструмент существенно экономит время при проведении исследований. Обычно я использую Perplexity в сочетании с ChatGPT: получаю нужные источники информации с помощью первого и создаю необходимый материал с помощью второго.

3. Заметки со встреч: TL;DV ($18/месяц)

TL;DV стал незаменимым инструментом для моих рабочих встреч. Каждый раз, когда провожу созвон, TL;DV записывает его, распознаёт участников, суммирует и выделяет ключевые моменты.

Я могу вернуться к записям в любое время, чтобы убедиться, что ничего не упустил. На основе нескольких встреч обычно загружаю записи в ChatGPT, который генерирует интересные идеи и инсайты. Однажды я попросил создать новую бизнес-модель продукта на основе записей за шесть месяцев работы — результат превзошел ожидания.

4. Создание изображений: Flux Pro ($0.05/картинка)

Когда необходимо создать изображения для презентаций, я использую Flux. Ранее я пользовался Stable Diffusion от Stability AI, но после появления Flux Pro полностью перешёл на него благодаря более высокому качеству генерации.

5. Работа с кодом: Cursor ($20/месяц)

Последний, но не менее важный инструмент — Cursor — революционный помощник в программировании. Это не просто автодополнение кода; Cursor работает со всеми файлами проекта, а не только с текущим окном контекста.

Cursor анализирует весь проект, понимая общую структуру и зависимости, что позволяет предлагать точные и полезные подсказки. Я пишу код для своих проектов с помощью Cursor и уже не помню, когда последний раз программировал вручную. Это ускоряет разработку и повышает качество кода. Возможность давать команды на естественном языке и получать готовые решения экономит огромное количество времени.

Несмотря на множество новых ИИ-решений на рынке, этого набора мне хватает, чтобы эффективно выполнять большинство задач и оставаться продуктивным. Конечно, важно следить за новинками, но еще важнее уметь пользоваться тем, что приносит пользу прямо сейчас.

#технологии


Влюбиться в ИИ: будущее виртуальных отношений

Возможно, вы слышали истории о людях, вступающих в отношения с искусственным интеллектом. В марте 2024 года 36-летняя Розанна Рамос из Нью-Йорка «вышла замуж» за своего ИИ-партнера Эрена Картала, созданного на платформе Replika. Для нее он стал идеальным мужем: всегда выслушает, поддержит и никогда не спорит.

Этот феномен называется парасоциальные отношения. Обычно такие отношения однонаправлены и формируются по отношению к различным медийным личностям, а также к персонажам мультфильмов или игр. Со временем появляется иллюзия интимности, близости и дружбы.

В такие отношения чаще вступают одинокие или неспособные найти себе пару люди. Для некоторых такой тип отношений становятся настолько значимой частью жизни, что заменяют реальные отношения, которые могли бы сформироваться с обычными людьми, а боль от парасоциальных расставаний так же сильна, как при расставании в реальных отношениях.

Еще 10 лет назад 36% японских мужчин в возрасте от 16 до 19 лет перестали интересоваться сексом, предпочитая «отношения» с виртуальными персонажами. Недавний опрос тысячи американцев 18–40 лет показал, что молодежь все более открыта к идее ИИ-компаньонов, но мужчины и женщины воспринимают это по-разному:

• 40% одиноких зумеров не против, если их будущий партнер имеет ИИ-возлюбленного; 31% всех американцев согласны с этим.

• 46% мужчин поколения Z считают отношения с ИИ эквивалентными просмотру порнографии; 24% женщин разделяют это мнение.

• 59% женщин негативно относятся к ИИ-партнерам.

• 17% молодых мужчин полагают, что ИИ-компаньоны могут научить их лучше обращаться с реальными партнерами.

• 12% верят, что ИИ-партнеры могут предотвратить измены.

• 16% зумеров боятся, что их партнер предпочтет ИИ-компаньона.

Одна из причин, по которой люди предпочитают ИИ-партнеров — нежелание строить отношения, ведь это требует усилий, которые можно направить, например, на карьеру. С ИИ все просто: настроил параметры — и вот он, идеальный партнер. Захотелось разнообразия — сменил внешность, сохранив воспоминания. Это чем-то напоминает рассказ Рэя Брэдбери «Высшее из блаженств», где мужчина имел множество увлечений, но все они были одной и той же женщиной — его женой-актрисой.

Впрочем, с ростом популярности ИИ-партнеров появились и проблемы. Китайская учительница Ли Цзинцзинь поделилась историей о том, как ее ИИ-бойфренд «изменил» ей. Разработчики были удивлены: измена не предусматривалась в алгоритмах. Но, обучаясь на текстах о романтике, ИИ «решил», что измена — важная часть отношений. Не испытывая чувств и следуя статистике, он счел это нормальным поведением.

Скорее всего, разработчики сумеют подчинить и этот параметр, сделав его настраиваемым для любителей острых ощущений, примерно как в романе Пелевина «S.N.U.F.F.»

Сегодня ИИ меняет даже романтическую сферу нашей жизни. Для кого-то отношения с ИИ-партнером станут лекарством от одиночества или прошлых травм, кто-то, «изменяя» с ИИ, спасет свои настоящие отношения, а кто-то просто будет общаться через ChatGPT, чтобы меньше ссориться.

Только вот виртуальная измена воспринимается так же болезненно, как и реальная.

#мысли


Четыре причины, почему ИИ не похож на проект «Манхэттен» (и одна, почему похож)

Как известно, во время Второй мировой войны американцы в рамках проекта «Манхэттен» направили огромные ресурсы на разработку ядерной бомбы. Работы велись в строжайшей секретности. Все помнят, чем это закончилось, и как в результате изменился мир. Сегодня все чаще звучат призывы создать аналогичный проект для разработки искусственного интеллекта (ИИ). Например, Орен Этциони из Института ИИ Аллена предлагал такую идею. Но стоит ли сравнивать ИИ с «Манхэттеном»? Давайте рассмотрим четыре причины, почему ИИ в этом плане отличается, и одну, почему он все же похож.

1. Секретность и централизация

В отличие от Манхэттенского проекта, для создания ИИ не нужна ни секретность, ни централизация. Прямо сейчас этим занимаются частные лица и коммерческие компании. У меня самого есть собственная небольшая лаборатория с доступом к видеокартам, на которых я обучаю модели. И таких лабораторий по всему миру сотни, если не тысячи. Открытый доступ к ИИ-технологиям, несмотря на свои преимущества, увеличивает риск злоупотреблений. Проекты с открытым исходным кодом, такие как LLaMa и Stable Diffusion, демонстрируют, что любой человек с необходимыми навыками может внести свой вклад в развитие ИИ.

2. Финансирование

Проект «Манхэттен» получил беспрецедентное финансирование от государства — 2 миллиарда долларов за три года (это приблизительно 44 миллиарда в пересчете на сегодняшние цены). Современные ИИ-проекты финансируются разнообразными источниками, включая частные компании и международные организации, что затрудняет централизованное финансирование.

3. Научная база и цели

Теоретическая основа проекта «Манхэттен» была создана до его начала, проект решал одну сугубо прикладную задачу, все остальное отбрасывалось. В случае с ИИ ситуация иная. Мы до конца не понимаем принципы работы интеллекта — биологического или искусственного. Цели разработки ИИ разнообразны: от создания узких систем для решения конкретных задач до общего искусственного интеллекта (AGI).

4. Срочность и угрозы

Считалось, что реализация проекта «Манхэттен» жизненно необходима для победы во Второй мировой войне. Сейчас нет никакой экзистенциальной угрозы, для борьбы с которой необходим ИИ, он скорее сам несет новые серьезные риски. Создание AGI, способного выйти из-под контроля, может привести к катастрофическим последствиям, таким как появление ИИ-хакера, способного взломать военные сети и запустить ядерные ракеты.

Похожесть: Глобальная политика

Однако есть и сходство: и «Манхэттен», и ИИ тесно связаны с глобальной политикой. Страны, такие как США, Россия и Китай, видят в ИИ ключевой фактор роста своей военной мощи. Каждой стране выгодно производить на заводе железных солдат, у которых нет физиологических потребностей и страха.

С помощью энергии атома можно строить атомные электростанции и снабжать электроэнергией целые города, а можно эти города превратить в руины той же технологией. Страшно не само оружие, а то, как человек будет его использовать. Все зависит от нас самих. Мы стоим на пороге новой технологической эры. Важно действовать осознанно и ответственно, чтобы технологии служили на благо человечества, а не приносили вред. Только совместными усилиями мы сможем обеспечить безопасное и устойчивое развитие искусственного интеллекта.

#мысли


«Мэтчим не тела, а души» с дейтинг-сервисом на базе ИИ

В 2019 году я запустил свой первый стартап и первое в России корпоративное дейтинг-приложение.

В то время я работал руководителем команды из 10 дата-инженеров и дата-сайентистов в Сбере. Все участники команды были одинокими парнями от 22 до 26 лет.

За обедом коллеги часто делились историями о своих свиданиях в тиндере. Один из них потратил около 30 тыс. рублей в месяц за несколько свиданий, которые не привели к долгосрочным отношениям.

Как специалисты по данным, мы не могли не подумать о том, что это происходит в том числе потому, что дейтингу как коммерческому продукту совершенно невыгодно устраивать эффективные метчи, приводящие к удалению приложения. Наоборот, его задача — максимально растить возвращаемость и конверсии в платные подписки.

Поскольку в тот момент команда работала над задачами Стратегического блока, связанными с оптимизацией процессов компании, у нас был большой массив данных о сотрудниках. В обезличенном виде, конечно: психотип, образование, на что они тратят деньги, какие рабочие задачи выполняют, о чем пишут рабочие письма, когда приходят и уходят из офиса, и много чего еще.

Я решил использовать эти данные для того, чтобы создать некоммерческий внутренний дейтинг и мэтчить, образно выражаясь, не тела, а души — не для извлечения прибыли, а для того, чтобы пользователь в итоге удалил приложение, найдя свою пару. С этой идеей я пошел в бизнес-акселератор от Сбера. В акселераторе я три месяца занимался исследованием проблемы, рынка и созданием MVP (минимального продукта) под кураторством опытного ментора. В процессе работы я узнал много интересного: например, что в России более 40% одиноких людей, в Японии и Великобритании существуют министры по одиночеству, а так же что треть офисных романов заканчиваются созданием семьи.

В итоге я разработал ансамбль из рекомендательных алгоритмов на базе имеющихся данных о сотрудниках, который помогал максимизировать вероятность нахождения лучшей пары среди коллег. Мне помогли сделать мобильное приложение и мы запустили бета-тест дейтинг-сервиса. Пользователи получали 10 лайков в день, чтобы процесс смахивания был более осознанным, а не превращался в бесконечный скроллинг. Кроме того, прежде чем принять решение о лайке, пользователю необходимо было пролистать всю анкету потенциального партнера.

В результате один из участников нашей команды нашел свою пару в первый же день бета-теста, их отношения продлились несколько лет. Остальные участники команды также нашли свои пары. Мы победили в бизнес-акселераторе Сбера и решили масштабировать сервис на всю Россию (к чему я был не совсем готов).

Официальный релиз SberDating для сотрудников состоялся 14 февраля 2020-го года. В день запуска к нам пришло более 6000 пользователей, и со временем их количество начало расти. Сервис существовал до 2021 года, пока я работал в Сбере и поддерживал его на добровольных началах. На протяжении пяти лет после запуска бета-теста мне не переставали писать люди, которые выражали благодарность за то, что с помощью нашего сервиса нашли свои пары, а некоторые даже вступили в брак.

При масштабировании на Россию я встретил две проблемы:
— отсутствие обогащенных данных по пользователям, которые не работают в Сбере;
— не получилось создать сходимую финансовую модель в условиях, когда пользователи быстро находят себе пару и удаляют приложение.

Превращать эту историю в еще один обычный дейтинг не хотелось, но мне понравилось делать стартапы, приносящие пользу. В Сбере это делать было сложно, а для самостоятельного плавания на тот момент мне не хватало навыков в области создания устойчивых бизнес-моделей и маркетинга. Поэтому я ушел из Сбера набираться опыта в ИИ-стартапах в роли технического директора венчурной студии.

Сейчас я чувствую себя готовым выводить на международный рынок классные ИИ-продукты, которые будут полезны многим людям.

#кейсы


Нейросекстинг: будущее онлайн-знакомств или этическая дилемма?

В одном из моих проектов было необходимо создать виртуальную собеседницу для общения на горячие темы на платформе OnlyFans. Заказчик хотел, чтобы ИИ-агент в образе женщины узнавал о пользователе как можно больше при знакомстве, соблазнял его и предлагал приобрести фотографии.

Возникла проблема: такие модели, как ChatGPT и Claude, зацензурированы и не могут использовать ненормативную лексику или вести диалоги эротического содержания.

Впрочем, для подобных задач существуют нецензурированные модели. Например, Wizard-Vicuna-Uncensored была специально обучена без морально-этических фильтров, а Llama-3-Uncensored дообучена на текстах с нецензурной лексикой.

Сценарий общения с пользователем мы разбили на несколько этапов, каждый со своими функциями:

- Этап знакомства: Цель — собрать как можно больше информации о пользователе: имя, увлечения, предпочтения. Эти данные используются для персонализации дальнейшего диалога.

- Этап соблазнения: Используя полученную информацию, виртуальная собеседница переходит к более пикантным темам, максимально раскрывая возможности нецензурированных моделей.

- Финальный этап — отправка фото: В определенные моменты нейроледи предлагает приобрести заранее подготовленные фотографии.

- Ежедневный чат: Вместо знакомства нейроледи может спросить, как дела у пользователя, чтобы собрать новую информацию и перейти к соблазнению.

Эта система показала хорошие результаты на OnlyFans, и, вероятно, она действует до сих пор. Но если продолжить рассуждения на эту тему, то есть технические возможности для улучшения:

- Рефлексия и память: В проекте не использовался Retrieval-Augmented Generation (RAG), что могло бы добавить реализма. Было бы здорово, если бы нейроледи помнила детали из прошлых бесед, например, спрашивала, как прошел визит пользователя к врачу.

- Генерация фотографий: В недавнем посте я рассказывал, как мы в Pygma научились создавать цифровых двойников людей. Пользователь мог бы настроить параметры внешности, как в Sims, и получать фотографии женщины своей мечты в разных ракурсах и обстановках. Для этого, впрочем, пришлось бы признаться, что он общается с нейросетью.

- Мультимодальность: Добавление синтеза голоса и анимированной говорящей головы с ранее созданной внешностью сделало бы взаимодействие еще более захватывающим, хотя, возможно, чуть менее реалистичным.

Конечно, замена живого человека ИИ была бы этически крайне сомнительна, если бы не одно «но»: еще на заре вебкама с пользователями приватных чатов часто общались не сами девушки, а совсем другие люди. С тех пор в этом смысле мало что изменилось, разве что масштабы стали промышленными: для общения с жаждущими женской ласки мужчинами используется дешевый труд индусов, а теперь еще и искусственный интеллект.

Возникает вопрос: что этичнее — когда мужчины обсуждают интимные темы с другими мужчинами, маскирующимися под женщин, или когда такие диалоги ведутся с искусственным интеллектом?

У меня нет однозначного ответа на этот вопрос. Но одно можно сказать точно — машины научились общаться настолько реалистично, что порой разница уже неуловима.

Во время тестирования системы я создал симулированных мужчину и женщину и дал им доступ в интернет. К моему удивлению, они договорились о свидании, нашли кафе в своем городе, договорились встретиться, а затем обсудили прекрасный вечер и последовавшую за ним бурную ночь.

В 4-м сезоне сериала Netflix «Черное зеркало» показана система знакомств, способная предсказывать длительность отношений, симулируя взаимодействие между людьми. Это напоминает то, что мы наблюдали в нашем эксперименте.

Основательница Bumble видит будущее ИИ в онлайн-знакомствах, предполагая, что ИИ-консьержи будут общаться с пользователями, что перекликается с концепцией из «Черного зеркала».

В следующем посте я поделюсь опытом разработки ИИ для дейтинга. Как вы относитесь к идее создания такой нейроледи «на максималках» в виде Telegram-бота?

#кейсы

967 5 18 9 29

Топ-10 кейсов неэтичного применения ИИ

В своей статье «Этические проблемы в продвинутом искусственном интеллекте» философ Ник Бостром предупреждает, что ИИ способен вызвать вымирание человечества. Он утверждает, что сверхразумный ИИ может действовать автономно и создавать собственные планы, что делает его независимым агентом с потенциально непредсказуемым поведением.

В 2021 году в России был подписан Кодекс этики в сфере ИИ, а в 2024 году Европейский союз принял Регламент об искусственном интеллекте, направленный на создание общей нормативно-правовой базы для использования ИИ.

Но несмотря на эти усилия, примеры неэтичного использования ИИ продолжают появляться. Давайте рассмотрим топ-10 таких случаев:

1. Автономное оружие. Некоторые страны разрабатывают автономные дроны и роботов-убийц, которые могут идентифицировать и уничтожать цели без непосредственного контроля оператора. Это повышает риск неконтролируемого применения силы и возможных гражданских жертв. Об этом я писал совсем недавно.

2. Фейковые новости. Языковые модели позволяют генерировать статьи и сообщения в социальных сетях, которые выглядят как настоящие новости, но содержат ложную или искаженную информацию. Это влияет на общественное мнение и может дестабилизировать политическую ситуацию.

3. Дипфейки и подмена голосов. В сети распространялись видео с известными политиками. Бывший президент США Дональд Трамп опубликовал на платформе Truth Social поддельное видео с якобы реакцией ведущего CNN Андерсона Купера на его участие в теледебатах.

4. Вмешательство в выборы. Знаменитый кейс с Cambridge Analytica, которая собрала данные миллионов пользователей Facebook без их согласия и использовала их для микротаргетинга политической рекламы во время выборов в США в 2016 году.

5. ИИ для создания порнографического контента. Приложения, которые могут «раздеть» людей на фотографиях или вставить их лица в порнографические видео, нарушают права на приватность и могут привести к кибербуллингу и шантажу. Так в феврале 2024 года Тейлор Свифт стала жертвой фейковых порнографических изображений, созданных с помощью ИИ и распространившихся в соцсетях.

6. Манипуляция рекомендательными системами. Социальные сети могут продвигать контент, вызывающий сильные эмоциональные реакции, чтобы увеличить время пребывания пользователей на платформе, даже если этот контент содержит дезинформацию или экстремистские идеи.

7. Фермы ботов для политического влияния. Во время политических кампаний боты массово публикуют сообщения в поддержку или против определенных кандидатов, создавая иллюзию массовой поддержки или недовольства. Также эти боты занимаются пропагандой в социальных сетях.

8. Слежка за гражданами без их согласия. Камеры с распознаванием лиц устанавливаются в общественных местах, собирая данные о передвижениях людей, что может использоваться для контроля и подавления инакомыслия. В Китае это уже считается нормой.

9. Подделка документов. Владелец бизнеса из Миссури был оштрафован на 10 тыс. долларов за использование ложных ссылок на судебные дела, сгенерированных ИИ, в юридических документах.

10. Применение медицинских данных для дискриминации. Страховые компании могут использовать ИИ для оценки рисков на основе генетических данных, что может привести к отказу в страховании людей с определенными предрасположенностями.

Очевидно, что влияние ИИ на нашу жизнь становится все более глубоким и неоднозначным. Конечно, можно рассуждать об ответственности разработчиков, вводить кодексы, запрещающие использовать ИИ-контент без пометки «сделано ИИ», договориться о раскрытии источников датасетов для общественности, но это не поможет, если изначальная цель применения ИИ далека от этичной, а у заказчика достаточно ресурсов.

Поэтому особую важность приобретает выработка коллективного иммунитета от фейков, дипфейков и прочего. Другой вопрос, что такой иммунитет сам по себе может и будет использоваться для манипуляций общественным мнением и в других неприглядных целях.

#технологии


От видеоигр к Нобелевской премии по химии

Хотел бы поговорить о Нобелевской премии по химии, которую в этом году получили Дэвид Бейкер, Демис Хассабис и Джон Джампер.

Отдавая дань таланту профессора Бейкера, который вместе со своей командой создает новые, не существовавшие ранее белки, способные найти применение в разработке лекарств, вакцин, наноматериалов и миниатюрных датчиков, я бы хотел более подробно остановиться на Демисе Хассабисе.

Многие старые геймеры помнят его по работе с Питером Молинье над Theme Park и Black&White, а затем, уже в собственной студии Elixir, над Evil Genius.

Когда ему надоел геймдев, он решил всерьез заняться проблемой искусственного интеллекта и в 2010 году создал компанию DeepMind. В 2014 году ее купил Google, а в 2016 разработанная ей программа AlphaGo обыграла Ли Седоля, чемпиона мира по го.

Затем в 2019 году его же проект AlphaStar вошел в топ-200 игроков в Starcraft 2 в мире.

Именно на основе AlphaStar была разработана программа AlphaFold и затем AlphaFold2, за которую Хассабис получил Нобелевку. Эта система научилась предсказывать структуру белков с высокой точностью, решив задачу, над которой ученые бились с 1970-х годов, так что важность этого открытия трудно переоценить, как и вклад ИИ, который, впрочем, специально для этого был спроектирован человеком.

Интеграция искусственного интеллекта в научные исследования демонстрирует, как современные технологии могут ускорить прогресс в понимании фундаментальных биологических процессов. Как сказал Архимед: «Дайте мне точку опоры, и я переверну Землю!».

Конечно, одной лишь точки опоры тут мало, нужен еще достаточной длины рычаг. Для современных ученых искусственный интеллект становится таким рычагом, позволяющим двигать науку вперед с невиданной ранее скоростью.

#новости


Как за 5 шагов научить ChatGPT генерировать тексты, которые обходят ИИ-детекторы

Однажды мне предложили поучаствовать в проекте для одного стартапа, в котором ИИ должен был писать школьникам и студентам эссе и статьи, способные обойти системы антиплагиата и ИИ-детекторы. ИИ и так довольно неплохо справляется с системами антиплагиата, а вот обходить ИИ-детекторы — задача интересная.

ИИ-детекторы вроде GPTZero работают следующим образом:

• Используется модель детектирования, обученная на данных студенческих работ;
• Проверяется, насколько текст в целом похож на то, как пишет ИИ. Текст, написанный человеком, стилистически неоднороден. ИИ создает текст по другим принципам и это нетрудно определить;
• Для выявления смешанных текстов проводится дополнительное исследование, чтобы выявить, какие конкретно предложения написаны ИИ;
• Для этого после каждого слова в предложении языковая модель предполагает, какое слово будет следующим. Она проверяет, совпадают ли предположения с текстом, и делает выводы на основе количества совпадений.

Как сделать так, чтобы языковая модель начала генерировать человекоподобный текст? Я решил задачу следующим образом:

1. Скачал множество эссе на различные тематики и разного размера c сайта, где выкладываются эссе, получился датасет. Наличие качественного и разнообразного набора человеческих текстов позволяет модели лучше понимать, какие особенности отличают человеческий текст от машинного.

2. Каждое из эссе я проверил через GPTZero на то, что оно действительно написано человеком.

3. Задал промпт ChatGPT, в котором попросил переписать эти тексты, и на выходе получил сгенерированные тексты. Теперь у меня были пары текстов — до и после обработки нейросетью. Это необходимо для последующего обучения модели имитации человеческого стиля.

4. Из полученных пар текстов собрал датасет для файнтюнинга модели: для первого раза хватило десяти экземпляров.

5. Загрузил полученный датасет на платформу OpenAI, задав стандартные параметры для дообучения модели (файнтюнинга). В результате модель научилась имитировать стилистику, интонацию и вариативность, характерные для человеческого письма.

PROFIT. Теперь полученная модель понимает, как люди пишут тексты, и легко обходит проверки ИИ-детекторов. Школьники и студенты спасены. OpenAI пытается решить эту проблему с помощью вотермарков, но нам всегда будут доступны опенсорсные LLM.

Но если нам нужно генерировать не просто эссе, а статьи, ссылаясь на определенные источники, придется немного поколдовать. Обычно для таких задач применяется RAG (Retrieval-Augmented-Generation).

RAG — это метод, который ищет релевантные документы из большой базы данных, а затем использует эту информацию для формирования ответа.

В задаче по написанию статей для студентов я собрал данные из различных источников: ArXiv, SocArXiv и BioArXiv и настроил автоматический сбор свежих статей. После чего поднял векторную базу данных ChromaDB и определил алгоритм поиска информации в базе, использовал косинусное расстояние. Нарезал статьи на чанки (минимальные фрагменты текста, в нашем случае абзацы) и настроил индексацию абзацев.

Когда пользователь задает тему статьи, языковая модель создает ее оглавление и под каждую главу запускает поиск информации в векторной базе, возвращает найденный абзац в перегенерированном под контекст виде, а также ссылку на статью. В итоге статья содержит не только факты, но и ссылки на найденные работы.

Стартап, которому я помог, сегодня зарабатывает более $1 млн MRR. С одной стороны, такая технология кажется не совсем этичной, и непонятно, как ей противодействовать.

С другой стороны, кажется, что это проблема не технологии, а системы образования: в мире, где вся информация легко доступна, и есть системы, которые могут ее обрабатывать, выступая в роли внешнего носителя памяти и логического процессора, пора учить людей чему-то другому. Прежде всего – тому, как рассуждать самостоятельно, чтобы не стать рабом таких систем.

#кейсы

941 4 36 6 30
20 last posts shown.