Adjacent Possible


Гео и язык канала: не указан, не указан
Категория: не указана


Интересное об умном и умное об интересном.
Инсайты из мира AI и хайтека, системное мышление, управленческие лайфхаки, заметки по книгам и мысли о разном.
По всем вопросам @sverd

Связанные каналы

Гео и язык канала
не указан, не указан
Категория
не указана
Статистика
Фильтр публикаций


Ethan Mollick (один из немногих нетехнических экспертов по ИИ, которых я читаю) хорошо пишет в твиттере про общение с LLM:

Мы еще не привыкли к изобилию “интеллекта”, поэтому упускаем огромную ценность ИИ.
Не просите одну идею, просите сразу 30. Не просите совет, просите множество стратегий. Выбирайте. Меняйте. Сочетайте. Отклоняйте. Вдохновляйтесь ИИ. И знайте, когда лучше обойтись без него.
Качественное взаимодействие с ИИ требует активной вовлеченности. И, в отличие от человека - редактора или соавтора, терпение ИИ безгранично.


Сам постоянно практикую такой AI-brainstorming и вам тоже советую. Если уж теперь у каждого есть доступ ко всему интеллекту человечества (точнее, к совокупности всех мыслимых текстов - тут скорее уместна аналогия с Вавилонской библиотекой Борхеса), то нужно использовать его по максимуму. И не просто получать из ноосферы готовые решения проблем, а прокачивать собственное мышление, приучаясь мыслить в новые парадигмах и моделях.

Да, а попутно вы вкачиваете агентность и умение принимать решения. ИИ предложит вам 100500 идей, но какую из них реализовать - выбираете только вы.

На этом неделя философских постов объявляется завершенной, дальше пойдет хардкор.


Ян ЛеКун отжег в недавней лекции:

Некоторые люди называют интеллект человеческого уровня AGI (artificial general intelligence), но мне не нравится этот термин. Не то, чтобы машины не могли достичь человеческого уровня интеллекта — просто человеческий интеллект не является общим. Мы вообще довольно специализированные животные. Просто нам трудно осознать свою специализацию, так как мы можем вообразить себе только подмножество из всех возможных интеллектуальных задач.

Существуют задачи, которые мы не способны представить себе даже в самых смелых мечтах. Поэтому нам кажется, что мы обладаем общим интеллектом, хотя это не так.


Читаю "The Operating Manual for Spaceship Earth" Бакминстера Фуллера. Пока продирался через его пространные рассуждения о синергетическом (читай "системном") взгляде на Вселенную, по-новому взглянул на стремление некоторых ИИ-гуру (Хассабис, Альтман, Шмидт...) и венчурных капиталистов активнее применять методы ИИ для решения научных и инженерных задач из материального мира.

Wealth (актив? благосостояние?) по Фуллеру состоит из материальной и нематериальной компоненты. Под первым он понимает энергию (и, видимо, содержащие её ресурсы), под вторым — ноу-хау (знание, как эти ресурсы эффективно использовать для достижения цели).

Научиться использовать машины (LLM, ИИ-агенты, квантовые компьютеры, whatever) для решения knowledge-intensive задач в реальном мире — значит, создать инструмент для более быстрой и эффективной генерации знаний по манипулированию физической реальностью, чем сейчас. И, соответственно, увеличить благосостояние - как глобальное, так и конкретного предпринимателя/VC (через повышение стоимости IP и владеющей ею компании).

Кроме того, в лице “ИИ-ученого” человечество получит инструмент для эффективного перераспределению и использования доступных ресурсов для решения глобально значимых задач. Будь то освоение космоса, будь то борьба с болезнями — всё, о чём пишет Альтман в "The Intelligence Age", и прочие визионеры типа Диамандиса. А как только AI-generated ноу-хау станут активно использоваться в цепочках создания ценности (а они будут! проблемы-то глобальные и волнуют всех), вырастет глобальный wealth — и доля конкретных VCs заодно.


Пока пишется обзор методов advanced RAG, поделюсь внезапной заметкой по мотивам лекции Joscha Bach "We Are All Software".

Бах там приводит совершенно неожиданное для меня сравнение - этапы сотворения мира в Библии совпадают с этапами появления сознания у человека, как их видит современная cognitive science.

Сначала есть бесструктурный субстрат (Земля же была смятение и пустынность), постепенно формируется представление о контрасте (свет и тьма), о границах, формах, пространстве итд - вплоть до осознания самого себя (и сотворил Бог человека по образу и подобию своему).

Вывод раз: древние точно что-то знали🤔
Вывод два: мы все живём в сознании Бога. Или в симуляции, если хотите😎

Самое прикольное, что сегодня я нашел похожий тезис у Любавичского ребе:
Все его [мира] существование – результат речения Бога, который воссоздает его каждое мгновение. Получается, что речение Творца – это истинная реальность.


А лекцию посмотрите, кстати - она забористая (как все у Joscha Bach), но стоит того😁 Чтобы сильно не спойлерить - он рассуждает о софтверных агентах в живой природе и переосмысливает анимизм.


Сегодня один из основных use cases для больших языковых моделей - поиск информации и questions answering по базе знаний. Для решения этой задачи используется технология Retrieval-Augmented Generation (или просто RAG), которая объединяет LLM и векторный поиск. RAG позволяет добавлять к промпту LLM фрагменты документации, содержащие ответ на вопросы пользователя - так LLM не галлюцинирует ответ, а опирается на внешние источники информации. В таком подходе уже не нужно переобучать LLM, чтобы синтезировать ответ с опорой на актуальные данные (напомню, GPT-4 обучена на данных, собранных до декабря 2023).

Хотя подход RAG впервые был предложен в 2020 году, по-настоящему популярным он стал только с распространением LLM. Сегодня 4 из 5 проектов по Generative AI включают в себя разработку и настройку RAG-поисковика. Приложения типа Chat to Your PDF, боты клиентской поддержки, внутренние чат-боты для сотрудников компании, ИИ-тьюторы и ассистенты - все эти продукты основаны на RAG в том или ином виде. Появление мультимодальных LLM сделало возможным сценарии типа “Chat with Videos/Audios/Images…”, AI-ассистенты для программистов тоже основаны на технологии RAG.

Использование RAG не только снижает уровень галлюцинаций языковых моделей, но и повышает объяснимость ответов и управляемость генерации - ответ синтезируется строго на основе контента из базы знаний, и все шаги процесса можно проследить.

В общем случае, RAG-система работает так:

1. База знаний нарезается на фрагменты (chunks), для каждого чанка рассчитывается отдельной нейронкой векторное представление (aka эмбеддинг), эмбеддинги индексируются и складываются в векторную базу данных.
2. Когда пользователь задает вопрос в чате, для него рассчитывается эмбеддинг и сопоставляется с эмбеддингами чанков в базе. Благодаря магии deep learning, ближайшие в пространстве эмбеддингов чанки и содержат ответ на заданный вопрос.
3. Наиболее релевантные чанки подаются на вход LLM, которая и генерирует ответ на вопрос.

Для RAG пайплайнов можно использовать как проприетарные, так и опен-сорсные LLM. И хотя наилучшее качество ответов обеспечат GPT-4 или Claude, многие задачи требуют использования локальных opensource моделей (Llama, Mistral, Qwen etc) - к примеру, если компания работает с чувствительными финансовыми или медицинскими данными. Для разработки RAG приложений обычно используются опенсорсные python фреймворки LlangChain или LlamaIndex - хотя у каждого из них хватает особенностей, и часто приходится перевозить проекты на самописные фреймворки.

Хотя в теории процесс RAG кажется относительно простым, на практике редко удается добиться нужного качества ответов с первого раза. В процессе есть куча подводных камней, поэтому в пайплайн часто приходится добавлять дополнительные этапы - от хитрых стратегий нарезки документов на чанки или переформулирования вопроса до ИИ-агентов, которые декомпозируют запрос пользователя и планируют генерацию ответа по нескольким индексам. Обзор основных техник Advanced RAG я сделаю в следующих постах.

Ссылки:
Обзор сабжа на Хабре
Обзор сабжа на arXiv
RAG vs finetuning
Vanilla vs advanced RAG (картинку взял тут)

#rag #llm #generativeai


Есть такое интересное психологическое явление - состояние потока aka flow state.

Когда человек находится “в потоке”, то он на 100% концентрируется на текущей деятельности. Пропадает ощущение своего “я”, времени и пространства, нереально повышается продуктивность и уровень кайфа от активности. Состояние потока часто наступает во время занятий спортом или творчеством (рисование, джазовая импровизация и вообще музыка) - но часто ассоциируется и с knowledge work. Программисты, с головой ушедшие в написание кода - это оно самое, ага.

Как попасть в поток? Есть несколько универсальных триггеров - четкое целеполагание, интерес к самой задаче, моментальная обратная связь (всегда понятно, что делать дальше), отсутствие внешних раздражителей итд. Отдельно стоит сказать про соотношение сложности задачи и уровня навыка - в идеале, задача должна быть слееегка челленджовой, чтобы давать возможность выкладываться на 100%.

С т.з. нейрофизиологии, в состоянии потока происходит выброс целой пачки нейромедиаторов (норэпинефрин, дофамин, эндорфины), которые и обеспечивают весь этот набор суперсоспобностей. Попутно меняется активность лобных долей головного мозга - отсюда, например, искаженное восприятие времени.

А еще в потоке можно удерживать целые команды, и создание условий для collective flow state - мегаполезный навык для руководителя. Но это уже отдельный разговор😉

Изучать поток начал психолог Михай Чиксентмихайи еще в 70-е. Для более актуальной информации о сабже советую почитать статьи Flow Research Collective - Steve Cotler сотоварищи давно и серьезно изучает пиковые состояния. Правда, придется сначала продраться через рекламу их тренингов - чуваки слегка перегибают с монетизацией исследований, хехе.

Кстати, поделитесь своим опытом - кто ощущал себя в потоке? Если умеете попадать туда осознанно - что для этого практикуете?

#психология #поток


В последнее время прямо плотным косяком пошли новости про сотрудничество лидеров ИИ индустрии и стартапов в области атомной энергетики.

Несколько месяцев назад прошла новость, что Microsoft заколлабился со стартапом Constellation Energy (из инвестпорфтеля Sama, кто бы сомневался) и планирует перезапускать остановленный ядерный реактор на АЭС Three Mile Island. Той самой, где в 1979 году случилась самая серьезная в истории США радиационная авария ☢️

Другие бигтехи тоже не отстают. Google к 2030 году собирается запитать свой ИИ-датацентр от экспериментального реактора Kairos Technology (а к 2035 ввести в эксплуатацию еще 6 установок), Amazon инвестирует $500M в стартап X-Energy и заключает партнерства еще с пачкой компаний.

Почему это важно? Снизится стоимость обучения и инференса моделей, тк ядерная генерация заметно дешевле традиционной угольной (0.61 cents/kWh vs. 2.46 cents/kWh). Повысится доступность ИИ-сервисов, ускорится R&D в индустрии. Плюс, атомная энергетика оказывает меньшее влияние на окружающую среду - учитывая повернутость западных госструктур на экологии, это может сыграть на руку компаниям и облегчить регуляторную нагрузку.

Хотя если Westinghouse просто башляет по-тихому Сэму Альтману и другим топам, я не удивлюсь 😃


На прошлой неделе вышел мегарепорт State of AI на 200 с лишним страниц - самый comprehensive обзор индустрии ИИ, который выпускают каждый год британские VC.
В отчёте несколько разделов - Research, Industry, Politics, Safety и предсказания на следующий год.
Отдельные разделы разберу в следующих постах, там много интересного - а пока просто приведу саммари прогресса в ИИ за последний год.

1. Отрыв OpenAI от конкурентов сокращается, хотя последняя модель GPT-4-o1 со встроенным алгоритмом reasoning выглядит многообещающе.
2. Исследования LLM фокусируются на планировании и логическом выводе, чтобы открыть путь к ИИ-агентам следующего поколения.
3. Большие нейросети стали применяться в математике, биологии и других науках - везде, где данные можно представить в виде "языка".
4. Санкции США мало повлияли на успехи китайских ИИ лабораторий, хотя инициативы Китая в сфере полупроводников заглохли.
5. Суммарная оценка ИИ компаний достигла $9T, рынок настроен мегаоптимистично.
6. Некоторые ИИ-компании, включая разработчиков foundational models, начали генерить серьезную выручку.
7. Но многие ИИ-стартапы (Character.ai, Adept, Inflection) не смогли найти product-market fit и продались корпам через acquihiring. Среди вернувшихся в Google основателей Character.ai, кстати, был Noam Shazeer - один из авторов легендарной статьи Attention Is All You Need.
8. На обсуждение экзистенциальных рисков ИИ все давно забили :)

Предсказания на 2024-25
1. После $10B+ иностранной инвестиции в топовую ИИ лабу в США поднимется шухер в сфере нацбезопасности
2. Приложение, созданное без участия программистов (только ИИ и промпт-инжиниринг), станет хитом. Например, попадет в топ-100 Apple Store
3. Лидеры ИИ индустрии поменяют свой подход к сбору данных по юридическим соображениям
4. ЕС смягчит политику в области регулирования ИИ
5. Опенсорсная модель превзойдет GPT по качеству на нескольких бенчмарках.
6. NVidia сохранит свое лидерство на рынке полупроводников.
7. Хайп вокруг гуманоидных роботов начнет спадать, как и инвестиции в них.
8. После успеха Apple Intelligence активизируются разработки в области персональных on-device моделей.
9. Научная статья, полностью написанная ИИ, будет принята на топовую ИИ-конференцию .
10. Видеоигра с GenAI-based интерактивными элементами станет хитом.


Вау, ИИ-хайп докатился даже до нобелевского комитета😊

Вчера Нобелевку по физике выдали Хопфилду и Хинтону за фундаментальные исследования нейросетей, а уже сегодня премию по химии получили Демис Хассабис и Джон Джампер из DeepMind за моделирование белков с помощью ИИ-алгоритма AlphaFold.
Кажется, теперь действительно можно сказать - научное сообщество признало ИИ как новый инструмент для фундаментальных исследований.
Демис Хассабис в последние годы был самым главным евангелистом применения ИИ в задачах традиционной науки - круто, что его вклад оценили по достоинству.

Для справки:
Джеффри Хинтон разработал алгоритм backpropagation для обучения нейросетей. Он же был научным руководителем у Ильи Суцкевера и Алекса Крижевского - создателей нейросети AlexNet, с которого началась вся Deep Learning Revolution.


Пара слов о LLM-агентах, о которых кричат из каждого утюга (включая этот).

Агент - это система на базе LLM, которая способна решать сложные задачи, требующие нескольких последовательных действий. Помимо LLM (точнее, интерфейса к ней), агент включает в себя:
-планировщик задач
-память (контекст LLM как кратковременная, векторная база данныхкак долговременная)
-коннекторы к внешним сервисам (поиск в интернете, запросы к базам данных итд)
-компонент для рефлексии над промежуточными ответами и доработки плана.

Когда на вход агенту прилетает запрос от пользователя, происходит следующее:
1. Задача декомпозируется с помощью LLM на отдельные шаги
2. Шаги последовательно исполняются с помощью внешних тулов
3. При необходимости агент "обдумывает" результаты и корректирует план действий
4. Пользователь получает финальный результат.

Существует много подходов к построению агентов, самый популярный из которых - ReAct.
Детальный разбор архитектуры агентов можно почитать тут
https://lilianweng.github.io/posts/2023-06-23-agent/

Надо сказать, что для сложных задач (разработка приложений, реализация какой-нибудь навороченной бизнес-логики) часто используют мультиагентные системы. Например, фреймворки Autogen или Crew.ai позволяют собирать из агентов целые "виртуальные команды" с разными ролями и компетенциями.


А вот и живой пример к вчерашнему посту про agent economy. Финтех-единорог Klarna отказывается от использования Salesforce и Workday, выгоняет толпу линейного персонала и переходит на собственные ИИ-решения. Точнее, на GPT-based агентов - по слухам с реддита, компания недавно подписала партнёрское соглашение с OpenAI.

Кстати, несколько месяцев назад та же Klarna заявила, что ИИ может заменить 700 человек в департаменте customer support - видимо, это были только цветочки.

В общем, для хайтека (и особенно, для SaaS) настают ооочеень интересные времена 🤖

#saas #ai #agents


И снова про тренды. Венчурный фонд Felicis (в портфеле Runway и Weights&Biases, ребята точно секут фишку в AI) пишет, что с развитием платформенных решений в GenAI на нас надвигается Agent Economy - точно так же, как соцсети дали толчок к развитию creator economy, а облачные платформы привели к развитию SaaS.

Основной пойнт авторов - решения на базе AI Agents способны автоматизировать низкомаржинальные работы, которые обычно выполняются людьми - а значит, открывают новые возможности для повышения эффективности процессов. Объем работы, которую раньше выполняла армия сейлов или аналитиков,теперь сможет выполнять AI - в режиме 24/7, без отпусков и больничных.

Ессно дело, полная замена людей на ИИ произойдет не сразу - сначала придут copilots, ИИ-помощники для профессионалов. А они уже плавно трансформируются в autopilots. Хотя, кмк, автоматизация произойдет неравномерно, и будет определяться “стоимостью ошибки” для конкретного use case.

Felicis предлагает 3 категории ИИ сервисов:

1. Horizontal - универсальные решения для бизнес-функций
2. Vertical - заточены под конкретную отрасль
3. Consumer - end-to-end решения для физиков

Там же есть классная табличка с текущими SaaS лидерами в разных сегментах (от CRM до инженерных расчетов) и AI сервисами, которые приходят им на замену. Посмотрите, там много прикольных стартапов.
#ai #венчур #тренды


Прочитал за вас манифест AI-хайпаоптимизма The Intelligence Age от CEO OpenAI Сэма Альтмана.

Tl;dr: наступает Эпоха Интеллекта, которая будет характеризоваться всеобщим благоденствием. Человечество наконец-то придумало универсальный алгоритм решения всех проблем, которые только можно себе представить. Если хорошо вложиться в данные и вычресурсы, то уже через несколько лет человечество наконец-то получит в свое распоряжение Суперинтеллект. И вот тогда-то мы сможем открыть все законы физики, построить космические колонии, справиться с изменением климата и вообще перейти к играм с ненулевой суммой в масштабах всего человечества.

В общем, ни театра, ни кино - одно телевидение AI.

Чтобы приблизить эту прекрасную пору, нужно предоставить доступ к ИИ как можно большему числу людей и снизить стоимость его использования - а для этого нужно вкладываться в инфраструктуру. Sama, кстати, сейчас поднимает триллионы на производство чипов и планирует питать гигантские дата-центры от термоядерных реакторов. Просить деньги у арабских шейхов под такой масштабный vision наверняка удобнее :)

Что могу сказать? Впечатление двоякое.

С одной стороны, понравился общий позитивный настрой по части перспектив ИИ. Действительно, мы живем в эпоху больших (и быстрых!) перемен, и текущий уровень технологий двадцать лет назад казался бы фантастикой. Зашел тезис, что AI will allow us to amplify our abilities like never before, и выхлоп от взаимодействия людей между собой возрастет на порядок. Альтман вообще любит делать глобальные обобщения по части ИИ - в подкасте с Лексом Фридманом он сравнивал доступ к ИИ с доступом к электричеству.

С другой стороны, манифест написан очень уж оптимистично в отношении трендов развития ИИ (хотя AGI в нем не упоминается, и на том спасибо). А еще физический мир сложен как система, и решить все его проблемы с наскока вряд ли получится. Да, про риски попадания ИИ не в те руки или излишнюю концентрацию ресурсов у OpenAI Альтман тоже ничего не говорит.

В общем, прочитать The Intelligence Age я точно рекомендую - но не принимайте все прогнозы на веру.

https://ia.samaltman.com/
https://www.datacenterdynamics.com/en/news/openai-wants-to-buy-vast-quantities-of-nuclear-fusion-energy-from-helion-report/
https://lexfridman.com/sam-altman-2/


Сегодня хочу поделиться еще одним прикольным инструментом, который использую последнее время для всевозможного ресерча. Добрый Google недавно выкатил NotebookLM - бесплатный сервис, который позиционируется как personalized AI collaborator that helps you do your best thinking. Если проще - это ИИ-ассистент, который читает вместе с вами (или за вас😅) документы, помогает систематизировать информацию и доставать ценные инсайты.

Как это работает? Ну представьте, что вам нужно для исследования сделать краткую выжимку из десятка научных статей, сравнить результаты и написать какой-то общий вывод. Закидываете исходные pdfки (или ссылки на них) пачкой в NotebookLM и мучаете нейронку вопросами и сохраняете ответы (со ссылками на конкретные места в документах). Если нужно, по найденным фрагментам можно задать уже более глубокие вопросы. Вангую, кстати, что в референс-менеджерах типа Zotero скоро появится похожая функциональность. Да и узконаправленные research assistants (медицина, юриспруденция, отдельные области науки) тоже не за горами.

Под капотом у NotebookLM гугловская LLM Gemini-1.5 с большим контекстным окном и RAG-движок, для ответов на вопросы с опорой на загруженные документы. В рамках одного блокнота можно загружать до 50 источников объемом до 500 000 слов каждый - согласитесь, внушительно.

А еще в последнем обновлении завезли мегаприкольную фичу - генерацию подкастов по загруженным документам. Теперь вы можете сгенерировать 15-минутное аудио по статье и слушать, как 2 синтетических персонажа обсуждают друг с другом key takeaways статьи. Звучит все это, кстати, вполне реалистично, с интонациями живых подкастеров🎙 Теперь можно слушать статьи с arXiv или питч-деки стартапов на прогулке или во время тренировки, хехе.

Впрочем, научными статьями дело тут точно не ограничивается. Google позиционирует Notebook LM как универсального ассистента для knowledge work, будь то подготовка материалов для новостного канала или обработка транскриптов встреч с клиентами. Заходите и пользуйтесь, пока дают бесплатно.

P.s. в документации заявлена возможность загружать mp3 и видео с ютуба по ссылке. Я пока не проверял, но если Q&A по видео работает так же, как по документам - то это просто🔥

https://notebooklm.google.com/
https://www.generativeaipub.com/p/google-releases-notebooklm-a-new
https://blog.google/technology/ai/notebooklm-audio-overviews/
https://leonfurze.com/2024/09/16/hands-on-with-google-notebooklm/

#AI #Gemini #NotebookLM #AIToolbox

336 0 17 1 12

Главная особенность AI проектов по сравнению с традиционной IT разработкой - высокая степень неопределённости. Модели стохастичны и сложны по своей природе, процессы обучения и инференса зависят от многих факторов - поэтому сложно предсказать с уверенностью, какой идеальный сетап эксперимента приведёт к нужному уровню метрик. Иначе говоря, мы имеем дело с complex system в терминах фреймворка Cynefin - а значит, можем двигаться к цели только короткими итерациями через постановку и проверку гипотез.

Короче, правильный подход к AI-разработке во многом похож на методологии из продакт-менеджмента. Сначала постановка и быстрая валидация гипотез (цикл discovery), затем реализация успешного пайплайна в формате сначала Proof-of-concept, а потом и MVP (цикл delivery). Цель discovery - быстро перебрать идеи и получить прототип пайплайна с нужным качеством, цель delivery - дотащить пайплайн до продакшна и превратить его в работающий сервис для пользователей.

Почти наверняка при переносе прототипа в реальный мир качество упадёт из-за каких-то неучтенных факторов (особенности данных, нюансы поведения модели в проде итд) - и цикл исследования придётся запускать снова.


"Душевный софт" - новая парадигма для ИИ-продуктов

Сегодняшняя новость про голосовой режим в ChatGPT навела на мысль о том, что основная парадигма взаимодействия человека с ИИ в скором времени может сильно измениться. Оказалось, венчурный фонд NFX думает похожим образом и даже предлагает новую категорию ИИ-продуктов - Software with a Soul (SwaS).

Software with a Soul - это продукты, ключевое ценностное предложение которых заключается в "человечности". Речь идет о системах, которые имитируют полноценное взаимодействие с живым человеком - со всей его эмоциональностью и недетерминированностью. Цель SwaS - вызвать у пользователя ощущение, что он действительно общается с человеком, а не с компьютерной программой.

Самый наглядный и красивый пример "софта с душой" - это, конечно, голосовой режим ChatGPT. Наверняка вы помните майские демки, где нейросеть болтала со своими разработчиками, распевала песни и даже пыталась флиртовать. Хотя, разумеется, для полноценной имитации социального взаимодействия одного голоса недостаточно. Можно в буквальном смысле придать SwaS-продукту человеческое лицо - технологии создания и анимации аватаров это позволяют. Общаться с аватарами можно на экране или в VR, а когда-нибудь дело дойдет и до полноценных роботов.

Какие области больше всего выиграют от внедрения таких продуктов? Те, где человечное общение с клиентом представляет собой основную ценность. Образование, помогающие профессии, персонализированный шопинг… Конечно, живого человека ИИ заменит еще нескоро - но масштабировать продукты и предлагать более качественный пользовательский опыт широкой аудитории благодаря Software with a Soul теперь станет гораздо проще.

А еще к категории Software with a Soul можно отнести полноценных цифровых двойников, которые выполняют за своих создателей рутинные задачи и ходят на звонки, освобождая время для чего-то действительно важного (кто сказал "дубли"?).

#ai #avatars #product


Рецензия на "AI 2041: Ten Visions for Our Future"

Всем любителям ИИ и научной фантастики (особенно если вам интересны социальные аспекты развития технологий) рекомендую прочитать "AI 2041: Ten Visions for Our Future" авторства Кай-Фу Ли и Чен Цюфаня. Профессиональный писатель из них, кстати, только Чен; Кай-Фу Ли - это венчурный инвестор, экс-CEO Google China и вообще известный в мире хайтека персонаж. Благодаря такому необычному авторскому тандему книга читается просто на одном дыхании (особенно в сравнении с "Задачей Трех Тел", ха-ха).

Название книги говорит само за себя - авторы попытались спроецировать в недалекое будущее современные тренды в ИИ и оформили свое видение в 10 небольших рассказов. Новеллы - это истории людей из самых разных уголков Земли и слоев общества, которые сталкиваются в своей повседневной жизни с технологиями ИИ и этическими дилеммами, возникающими вокруг них. К каждой новелле прилагается обстоятельный рассказ Кай-Фу Ли о технологии, вокруг которой строится сюжет.

Отдельно хочется поблагодарить авторов за то, что они не стали пускаться в спекуляции на тему AGI - наоборот, ИИ-повседневность 2041 года выглядит предельно реалистичной. Стоит отметить, что книга была написана до бума ChatGPT - поэтому чатботы и LLM фигурируют только в одном рассказе. Возможно, кому-то книга покажется из-за этого морально устаревшей😅 Зато авторы уделяют достаточно внимания и другим технологиям ИИ, будь то автономные дроны или deepfakes.

Сюжеты спойлерить не буду, лучше прочитайте😉

#книги #ai


LM Studio, или как запустить ChatGPT на ноутбуке без доступа к сети.

Сегодня хочу рассказать про LM Studio - очень удобное и полезное десктопное приложение, которое позволяет запускать языковые модели локально на вашем компьютере и общаться с ними без единой строчки кода.

Почему это круто? Представьте, что вам предстоит 6-часовой перелет без доступа в интернет. Открываете LM Studio, скачиваете подходящую LLM, и вуаля - у вас на ноутбуке есть почти полноценный ChatGPT. Причем полностью настраиваемый - вы можете менять системные промпты и параметры генерации. Из других полезных фишек хочу отметить группировку чатов по папкам и возможность добавления заметок.

В последней версии LM Studio появился RAG и поддержка мультимодальных моделей. Теперь вы можете даже загружать в чат документы или изображения и задавать по ним вопросы - согласитесь, удобно. Особенно если это конфиденциальные документы, которые нельзя заливать в облачные чатики.

Если вы продвинутый пользователь или разработчик LLM-приложений - одним кликом вы можете поднять OpenAI-подобный сервер с поддержкой structured output и логированием. Все серьезно.

Никакие GPU вам не потребуются, для работы приложения достаточно 16 Гб RAM - спасибо создателю фреймворка llama.cpp и энтузиастам ML-опенсорса, которые выкладывают на HuggingFace оптимизированные версии нейросетей. К примеру, Llama-3.1-8B при максимальной степени сжатия займет всего лишь 5 Гб RAM (хотя за сжатие моделей приходится платить качеством генерации). Через интерфейс LM Studio вы можете скачать практически любые опенсорсные LLM, включая самые последние - был бы доступен чекпойнт в формате gguf. В мои 32 Гб, например, помещаются 8-битные версии Mistral Nemo или Deepseek-Coder v2 lite.

Впечатляет? Меня - однозначно да. Еще год назад такие возможности сложно было себе представить. Да, есть ограничения по размеру и качеству доступных моделей, но потенциальный профит от запуска LLM на ноутбуке перекрывает эти недостатки.

Официальный сайт, обзор на Youtube


Несколько слов про название канала.

Adjacent Possible - это концепция из эволюционной биологии, которую ввёл Стюарт Кауфман для описания процессов развития систем.

У любой системы (биологической, технической, социальной…) есть два типа возможных будущих состояний. "Remote possible" - это то, куда система потенциально может прийти, но путь из текущего состояния слишком сложен и требует больших ресурсов. А вот "adjacent possible" - это что-то вроде зоны ближайшего развития, набор возможных следующих состояний. Когда реализуется одна из этих возможностей, она открывает доступ к новому набору потенциальных инноваций, расширяя границы "смежного возможного". Так система развивается бесконечно, и remote possible из области фантастики рано или поздно становится реальностью.

Хороший пример adjacent possible из сферы машинного обучения - это эволюция трансформеров. Между оригинальным трансформером из статьи 2017 года "Attention Is All You Need" и современными LLM лежит гигантская пропасть, и преодолеть её удалось только благодаря сочетанию нескольких постепенно развивавшихся технологий. За 5 лет появились новые архитектуры нейросетей, RL-based подходы к обучению, гигантские GPU-кластеры и датасеты из триллионов токенов - и в какой-то момент OpenAI нужно было сделать всего лишь один шаг в область "смежного возможного", чтобы показать миру ChatGPT.

То же самое можно сказать про любую хайповую технологию, будь то нейросети для генерации видео или AI-агенты для написания кода. Инновации не появляются из ниоткуда, они воплощаются в жизнь благодаря последовательному освоению доступных возможностей - каждая из которых становится ступенькой к следующему прорыву. И, порой, довольно неожиданному.

Хотя Кауфман разработал теорию adjacent possible для биологической эволюции, она описывает практически любые процессы развития. Будь то развитие личности (зона ближайшего развития - термин Выготского, вообще-то) или AI-трансформация компании, путь к любому амбициозному результату всегда состоит из последовательных шагов.

Ссылки по теме:
https://youtu.be/nEtATZePGmg
https://youtu.be/DGvPfD1Dd1U
https://medium.com/@SeloSlav/what-is-the-adjacent-possible-17680e4d1198


🎉 Тадамм, у меня большие новости! Я наконец-то собрался с силами и запилил Telegram-канал. А что, все побежали и я побежал… Шучу, шучу. Я уже давно хотел завести свой тг-канал, чтобы структурировать свои мысли и делиться с вами. Спасибо всем, кто подталкивал меня к этому решению (Рома, привет!).

Чтобы получить +1000 к мотивации и писательским навыкам, я присоединился к легендарному челленджу Вадика Михалева Content Hero - поэтому в ближайшие 3 месяца посты будут выходить каждый день, муахахаха.

👨‍🔬 Немного о себе:
- Начинал как химик - закончил химфак МГУ по специальности "физическая химия", несколько лет работал в химической индустрии и учился в аспирантуре РАН.
- С 2017 года перешел в сферу AI и ML и двигался там преимущественно по менеджерскому треку.
- Последнее большое достижение - практически с 0 построил AI лабораторию из 20 человек, запустил на ее базе с десяток проектов и с головой погрузился в Generative AI во всех его проявлениях - от LLM и RAG до ИИ-агентов и 3D аватаров.

Вне профессиональной сферы я учусь играть на барабанах (точнее, восстанавливаю навыки после 12-летнего перерыва), слушаю подкасты, читаю много non-fiction и художки. А еще я прожил последние 2 года в Израиле - занятный опыт, скажу вам 🇮🇱

📚Что будет в канале:

🤖 Тренды в ИИ: Обзоры исследований и технологий, перспективные стартапы, кейсы применения ИИ в бизнесе и личный опыт создания ИИ-продуктов. Новости тоже будут - изредка, и только действительно важные. В основном, я буду писать про Generative AI в его разных ипостасях.

🧪 ИИ и наука. Я большой фанат всего, что связано с применением методов ИИ в традиционных науках - химии, физике, биологии… Бэкграунд обязывает, хех. На мой взгляд, ИИ в целом и генеративный ИИ в частности имеет огромный потенциал применения в этих областях - от моделирования новых лекарств и материалов до глубокого анализа научных публикаций и поиска неочевидных инсайтов.

👥 Организация, руководство и управление в ИИ. В чем специфика управления ИИ проектами по сравнению с традиционной разработкой? Как находить перспективные области для внедрения? Как строить высокоэффективные команды ИИ разработчиков? Как выявлять дата-сайнтистов с высоким потенциалом и растить крутых лидов или ресерчеров? Обо всем этом я поговорю в следующих постах.

🌟 Разное интересное из других областей: космос, нейронаука и механизмы мышления, устройство больших систем, экономика и финансы, полезные ментальные модели, психология и well-being, мысли на тему самореализации и поиска своего пути в жизни, ассоциации из еврейской истории и культуры…

📖 Заметки о прочитанных книгах

P.S. К каналу прикреплен чат для обсуждения постов. Присоединяйтесь!

Показано 20 последних публикаций.