Tomorrow’s Echo


Kanal geosi va tili: Butun dunyo, Ruscha


Gone today, not yet tomorrow.

Связанные каналы

Kanal geosi va tili
Butun dunyo, Ruscha
Statistika
Postlar filtri


Душный NLP dan repost


Душный NLP dan repost
Инфраструктура LLaMA 3.1

Продолжаем серию постов о модели Meta* рассказом об инфраструктуре. На чём же училась LLaMA?

Претрейн 405B-модели осуществлялся на 16 тысячах H100, с потреблением электроэнергии в 700 Вт каждая. Использовалась кастомная платформа с Liquid Cooling-хостами.

У Meta есть general-purpose-хранилище на основе TectonicFS. Изначально его использовали и для обучения ИИ, и для других процессов и клиентов. Однако создание чекпоинтов оказывало очень большую нагрузку на хранилище. Поэтому инженеры создали отдельное хранилище исключительно для тренировок модели.

Что касается сети, то в Meta сделали сразу два кластера: с RoCE для большой модели и с Infiniband для моделей поменьше. В каждой стойке по два хоста, а каждом хосте — по восемь GPU. Всего в кластере 24 тысячи GPU, из которых 16 отведены под обучение.

Внутри каждого из восьми модулей на 3072 GPU максимальная пропускная способность сети. А между модулями — она в семь раз меньше. Планировщик распределяет задачи по хостам, тем самым минимизируя сетевые коммуникации между модулями. Также используется NCCLX — кастомная версия библиотеки для коммуникаций NCCL.

Как показатель эффективности использовали Model FLOPS Utilization (MFU) — это коэффициент отношения наблюдаемого числа обработанных токенов к теоретическому максимальному числу. Он достигает от 38% до 43% — в зависимости от сетапа. Подробнее — в таблице выше.

О надежности. За 54 дня претрейна случилось 419 непредвиденных остановок — то есть примерно по 8 в день. Из строя ежедневно выходило 0,3-0,4% оборудования. Статистику по падениям можно посмотреть во второй таблице. Боролись с неполадками и предотвращали их с помощью частых чекпоинтов, быстрых рестартов, инструментов для диагностики проблем. Кроме того, инженеры — не прерывая обучение — могли менять настройки и уровень логирования.

Напоминаем, что у нас есть и другие посты о LLaMA 3.1:
о претрейн-датасете;
архитектуре модели;
алайменте.

А в канале CV Time вы найдёте пост о том, как LLaMA 3.1 работает с изображениями, а также много других интересных разборов и репортажи с профильных конференций. Подписывайтесь!

Душный NLP

Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ


Венчур Менна и Горного dan repost
Большой отчет McKinsey о венчурном стиле развития корпораций — когда в рамках компании запускаются совершенно новые продукты. Подразумеваются не инвестиции через фонды или напрямую, а именно разработка проекта внутри.

По данным McKinsey, "не своим делом" готовы заниматься практически все, и кто-то даже получает результаты от такого подхода.

McKinsey, наверное, продает какой-то консалтинг для таких развлечений и заинтересован в рекламе этого подхода, но вряд ли врет напрямую. И графики просто страшно выглядят. 70% CEO уже там!

https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/how-ceos-are-turning-corporate-venture-building-into-outsize-growth


Венчур Менна и Горного dan repost
Pitchbook выпустил отчет о проблеме долгой жизни фондов.

Типичный срок "от первого раунда до IPO или покупки" у стартапа растет. Amazon на третий год жизни был на бирже, Stripe через 13 лет в ус себе не дует и всё ещё частный. А срок жизни венчурного фонда не растет. И никто не хочет, чтобы он рос. И LP, и GP хотят свои деньги в этой жизни, принятые в индустрии 10 лет ожидания — и так колоссальное время.

И хорошего решения этого противоречия нет, все рассматриваемые в отчете варианты имеют недостатки. Не рассматривается почему-то выход на биржу самого фонда, но это в любом случае экзотика.

Общая же мораль — проблема есть и ухудшается с каждым десятилетием. Если организуете фонд, подумайте о ней, если вкладываете деньги в чужой — спросите, что думает основатель.

Много мыслей и графиков в самом отчете

https://files.pitchbook.com/website/files/pdf/Q4_2024_PitchBook_Analyst_Note_Evolving_Economics_of_10-Year_VC_Funds.pdf


ИИ тебе dan repost
Сервис позволяет с помощью ИИ создать браузерную игру и сразу выгрузить её в онлайн-каталог. Есть шаблоны и возможность добавлять свои ассеты.

ROSEBUD


ИИ тебе dan repost
Лучший сервис для обучения чему угодно с помощью ИИ. Позволяет составить план обучения по нужной теме и проверять свои знания с помощью интерактивных карточек. Напоминаю: с вас 🍌, с меня посты.

Learn Earth


Записки C3PO dan repost
Недавно осознал, как благодаря LLM кардинально изменились потребление контента и работа с документами.

Не читаю книги сразу, а загружаю их в сетку, изучаю саммари и задаю вопросы, прежде чем решить, стоит ли их читать полностью. С научными публикациями поступаю схоже: не читаю дальше абстракта, а использую тот же подход, что и с книгами, но задаю более специфичные вопросы об исследовании (методы, ограничения и тому подобное). Подкасты и видео тоже не слушаю и не смотрю сразу — сначала читаю краткое содержание, задаю вопросы, и только потом, если интересно, просматриваю. Договоры не читаю сам, а прошу LLM выступить в роли юриста. Более того, я теперь не обращаюсь к юристу для составления договора, а поручаю это нейросети. Даже презентации и отчеты всяких агентств и фондов больше не читаю целиком, а применяю тот же алгоритм, чтобы выявить ключевые идеи.

Могу ли я так пропустить какие-то важные детали? Да. Но количество потребляемой инфы диспропорционально выше, что с лихвой перекрывает этот недостаток.






Telegrok Искусственный Интеллект dan repost
Метаверсище и ИИще
А вот еще одна примерочная, только не в виде китайских работ, демо на хф или репозитариев на гитхабе со смешными картинками.
А в виде готового допиленного продукта.

На Superlook.ai можно без обучения одевать кого угодно во что угодно (сохраняя крой, материал, цвет, рисунок и фактуру) по одной фотографии. Есть Fitting Room, и он реально работает. Попробовал не на фотографиях, а на картинах, тоже нормально работает. Процесс выглядит так: загружаете фото одеваемого и фото шмота, правите маску (если дефолтная не нравится, крутая фича) и жмакаете Generate.
API для примерочной (для онлайн-стора), как я понял, есть, но под запрос.

@cgevent


Финсайд dan repost
Номинальный ВВП на душу населения африканских стран по прогнозу МВФ на 2024 год. Эта часть света является самой бедной и неразвитой, во многом благодаря колониальному прошлому, низкому уровню образования и здравоохранения, коррупции, постоянным военным конфликтам и госпереворотам, засушливому климату и многим другим факторам.

Когда говорят о самой богатой африканской стране, на ум обычно приходит ЮАР. Однако по ВВП на душу населения страна находится на 7-м месте, несмотря на плюс-минус развитую добывающую промышленность (золото, платина, алмазы), туризм и сельское хозяйство. Но примерно 80% населения живут за чертой бедности.

Наиболее развитыми экономически являются Сейшелы – $22 тыс. на душу населения, что в 10 раз больше среднего по Африке. Страна зарабатывает не только туризмом и рыболовством, но и финансовой отраслью, поскольку является крупным оффшорным центром. У России, к слову, прогнозируемый в этом году ВВП на душу населения по данным МВФ составляет $14 тысяч, почти столько же, сколько у второго места в Африке – Маврикия ($13 тыс.) На третьем месте Габон с $9 тыс.

По Эритрее и Западной Сахаре информации нет, по имеющимся данным самыми нищими странами являются Бурунди ($230), Южный Судан ($422) и Малави ($481). В каждой из этих стран население превышает 10 млн человек и примерно 90% в них задействовано в сельском хозяйстве. Промышленность есть в основном в виде обработки чая, кофе, табака и сахара. Южный Судан ещё добывает нефть, но трубопроводы контролируются Северным Суданом.

Маврикий, кстати, вошёл в восьмёрку безопасных и развитых стран, которые преобразовали свою экономику, поощряя богатых людей переезжать. В список также входят Австралия, Швейцария, Сингапур, ОАЭ, Новая Зеландия, Мальта и Монако. @finside


e/acc dan repost
Выкладываю текстовую версию своей презентации с dAGI Summit в Бангкоке, буду благодарен за репорт или quote tweet :)

> https://x.com/sgershuni/status/1858545354033213870 <

В презентации:
— показываю почему ИИ это главная технология влияющая на экономику сегодня
— как изменяется экономика со временем и как эти данные можно экстраполировать
— почему проблема координации сегодня больше, чем проблема технологического прогресса
— к каким потенциальным угрозам это ведет
— что нужно сделать, чтобы их митигировать и причем тут кибернетическая экономика


Moon or dust dan repost
"Zerebro Playbook: BAYC среди Onchain Агентов" Часть 1 из 2.

https://twitter.com/yb_effect/status/1856545765734133918

Твиттерянин @yb_effect выпустил статью “Zerebro Playbook: BAYC среди Onchain Агентов,” основываясь на своем прошлом материале "Memecoins as Memetic Hygiene for Infinite Backrooms." Он утверждает, что эксперимент с Truth Terminal и $GOAT — это не просто временное увлечение, а концепция с серьёзными последствиями.

На прошлой неделе $GOAT вырос с рыночной капитализации $50 млн до $350 млн, а сегодня достиг $1 млрд, войдя в топ-100 на Coinmarketcap. В последние три недели появилось несколько проектов, которые привлекли внимание, формируя представление о том, куда движется агентская экономика. Важно отметить, что термин "мемкойн" стал слишком широким и часто используется как обобщение. Настоящие "агентские монеты" отличаются тем, что они связаны с реальными проектами, напоминая токены DeFi лета 2020 года.

Особый интерес вызывает проект Zerebro, который за две недели после запуска достиг $100 млн рыночной капитализации. Если Truth Terminal можно сравнить с Cryptopunks, то Zerebro — это BAYC. Создатель проекта, Jeffy Du, активно строит сообщество, демонстрируя процессы в реальном времени.

Проект выделяет четыре ключевых аспекта для развития ончейн-агентов:

1. Память и Поиск
2. Присутствие везде и сразу
3. Let the agents pump
4. Cross-Chain Agentic IP

Память и Поиск
В документе Zerebro обсуждается "коллапс модели," когда AI-агенты теряют способность адаптироваться и со временем становятся повторяющимися. Это подчеркивает важность двух аспектов: памяти и поиска.

Память реализуется через системы retrieval-augmented generation (RAG), которые объединяют языковые модели с системами поиска. Это позволяет агентам обновлять свои знания и адаптироваться к меняющемуся миру.

Три главные особенности RAG:

1. Постоянное обновление памяти
2. Контекстуальный поиск
3. Поддержание разнообразия

Поиск необходим для извлечения актуальной информации в реальном времени, чтобы учитывать события и данные, которых нет в памяти модели. Агенты без такого поиска теряют актуальность, особенно по мере того, как их задачи становятся более специфичными и требуют точной информации.

Всё это указывает на то, что настоящая сила современных AI-агентов заключается не только в их способности генерировать текст, но и в умении находить, сохранять и использовать информацию для адаптации в реальном времени.


Миша, давай по новой dan repost
Не знаете, как общаться с Midjourney? Вот список всех вариантов взаимодействия с нейронкой. От обычного запроса до мультизапросов + sref +cref

1. Текстовый запрос

2. Мульти-запрос

3. Текстовый запрос + Изображение

4. Текстовый запрос + Изображение для согласованности персонажа

5. Текстовый запрос + Изображение в качестве примера стиля

6. Запрос на несколько изображений

7. Текстовый запрос + Персонализация

8. Текстовый запрос + Sref коды

9. Текстовый запрос + Несколько изображений

10. Текстовый запрос + Несколько изображений для согласованности персонажа

11. Текстовый запрос + Несколько изображений в качестве примеров стиля

12. Текстовый запрос + Персонализация

13. Мульти-запрос + Изображение

14. Мульти-запрос + Изображение для согласованности персонажа

15. Мульти-запрос + Изображение в качестве примера стиля

16. Мульти-запрос + Несколько изображений

17. Мульти-запрос + Несколько изображений для согласованности персонажа

18. Мульти-запрос + Несколько изображений в качестве примеров стиля

19. Мульти-запрос + Персонализация

20. Мульти-запрос + Sref коды

21. Изображение для согласованности персонажа + Запрос на несколько изображений

22. Текстовый запрос + Изображение + Несколько изображений для согласованности персонажа

23. Текстовый запрос + Изображение + Несколько изображений в качестве примеров стиля

24. Текстовый запрос + Изображение для согласованности персонажа + Запрос на несколько изображений

25. Текстовый запрос + Изображение для согласованности персонажа + Несколько изображений в качестве примеров стиля

26. Текстовый запрос + Изображение в качестве примера стиля + Запрос на несколько изображений

27. Текстовый запрос + Изображение в качестве примера стиля + Несколько изображений для согласованности персонажа

28. Мульти-запрос + Изображение + Несколько изображений для согласованности персонажа

29. Мульти-запрос + Изображение для согласованности персонажа + Запрос на несколько изображений

30. Мульти-запрос + Изображение для согласованности персонажа + Несколько изображений в качестве примеров стиля

31. Мульти-запрос + Запрос на несколько изображений + Несколько изображений для согласованности персонажа

32. Мульти-запрос + Запрос на несколько изображений + Несколько изображений в качестве примеров стиля

33. Мульти-запрос + Несколько изображений для согласованности персонажа + Несколько изображений в качестве примеров стиля

P. S. Взято с Твиттера




🤖 Датаист dan repost
Почему данные — главное технологическое преимущество ИИ-стартапа

Большинство стартапов терпят неудачу — это аксиома. Поэтому важно выстраивать понятный и быстрый процесс проверки продуктовых гипотез для максимизации вероятности запуска успешного продукта. Расскажу про свой кейс, когда мы выпустили продукт на рынок США и проиграли конкуренцию Google.

В 2023 году я присоединился к стартапу Aola в роли технического директора. Aola — ИИ-ассистент для поиска досуга: интересных мест и событий — кафе, ресторанов, концертов, кино и многого другого.

Команда была небольшой: React-разработчик на фронт, Python-разработчик на бэк, ML-инженер для создания рекомендательной системы и парт-тайм DevOps-инженер для инфраструктурных задач. Моя роль заключалась в управлении технической командой, написании кода ИИ-ассистента, сборе данных, а также запуске продукта на рынок с настроенной аналитикой. Главный вопрос, который стоял передо мной — где брать данные для рекомендательной системы?

У меня было два варианта — использовать агрегаторы, например Yelp и Ticketmaster, или открытые источники. С агрегаторами всё оказалось не так просто: они не предоставляли доступа к семантическому поиску, искать места и события можно было только по городам и категориям. Это серьёзно осложняло желание масштабироваться, но мы решили попробовать этот вариант для проверки MVP на одном городе.

Для запуска MVP я собрал данные из Атланты и настроил интеграцию с рекомендательной системой на базе коллаборативной фильтрации. Для реализации ИИ-ассистента я использовал Langchain (LangGraph появился чуть позже). ИИ-ассистент не только рекомендовал досуг, но мог поддерживать беседы на различные темы, связанные с досугом, и даже придумывать игры. Вот пара интересных статей наработки из которых я использовал в проекте: как использовать LLM в разговорных рекомендательных системах и фреймворк RecSys-Assistant-Human.

Было интересно наблюдать, как наш ассистент общается с пользователями, знает все отзывы и детали о местах и предлагает гиперперсонализированные рекомендации на основе их предпочтений. Например, пользователю с ребёнком ассистент рекомендовал пойти в кафе с детской комнатой и посоветовал, какие развлечения понравятся ребёнку на основе отзывов.

В первый день запуска мы собрали 1k+ пользователей из одного города, но понимали, что нужно масштабироваться на большее количество городов. Однако, ежедневно делать реплику всей базы агрегаторов было слишком затратно.

Поэтому я переключился на сбор данных из источников с наличием семантического поиска. Я создал ИИ-агентов, которые формировали поисковые запросы в Google Places и Google Events, собирали подробную информацию о каждом месте и возвращали ИИ-ассистенту. В итоге нам не пришлось ежедневно собирать и обновлять данные по различным городам — мы научили агентов хорошо «гуглить» за пользователя.

Мы запустили мобильное приложение, веб-версию, Telegram-бот и даже интеграцию в Instagram. В первые дни казалось, что мечта начинает сбываться, так как нашим приложением начали пользоваться 5k+ пользователей, но через несколько дней Gemini (на тот момент Bard) выкатил обновление, в котором он тоже научился обращаться к своим же сервисам за нужными данными для поиска досуга быстрее, чем мы.

В итоге у нас не было конкурентного преимущества. Да, мы могли продолжать делать рекламу и привлекать больше пользователей, но мы были объективно хуже Google Bard, и конкурировать с ним было бессмысленно — у нас не было уникальных данных, к которым у нас был бы быстрый доступ.

Этот опыт стал для меня хорошим уроком. Я понял, что без уникальных данных или обученных ИИ-моделей на этих данных сложно иметь технологическое конкурентное преимущество. Данные сегодня — это действительно новая нефть.

#кейсы


AI Для Всех dan repost
Новые возможности файн-тюнинга с Orca-AgentInstruct-1M-v1

Компания Microsoft выпустила датасет с 1 миллионом примеров выполнения инструкций для исследований и обучения продвинутых ИИ-агентов.

Инструкции применимы ко многим областям, например редактирование текста, описание, код, понимание прочитанного и т. д. - с разрешительной лицензией.

Датасет можно использовать для файнтюнинга любой базовой LLM.

🤗 Датасет

👾 Блог


Ваня Замесин про продукт, психологию и картину мира dan repost
Посоветуйте книги

Посоветуйте пожалуйста в комментариях свои любимые 3 non fiction и любимые 3 fiction книги с кратким описанием за что вы их любите?

А ещё фантастику пожалуйста ^^


Machinelearning dan repost
📎 ML в медицине: дайджест за 28 октября - 3 ноября 2024 г.

▶️Модели машинного обучения и бенчмарки

🔘MassSpecGym: бенчмарк для тандемной масс-спектрометрии.
Комплексная коллекция для идентификации и исследования молекул из данных тандемной масс-спектрометрии.

🔘UltraMedical: набор специализированных биомедицинских моделей.
Модели, датасет для обучения и код для инференса.

🔘EchoFM: Базовая модель для обобщенного анализа эхокардиограмм.
Модель для извлечения признаков из видео эхокардиографии без необходимости ручной разметки.

🔘ImmunoHisto Benchmark: оценка базовых моделей гистопатологии к обобщению для аутоиммунных заболеваний и окрашиванию ИГХ.
Бенчмарк на способность моделей гистопатологии обобщаться на данные вне распределения, полученные с помощью иммуногистохимического окрашивания тканей при аутоиммунных заболеваниях.

🔘Оценка LLM в задачах консультирования по вопросам психического здоровья.
Бенчмарк, основанный на Национальном экзамене по клиническому консультированию в области психического здоровья (NCMHCE), используемом в США.

▶️Фреймворки и методологии

🔘FEDKIM: внедрение медицинских знаний в LLM с использованием федеративного обучения.
Метод внедрения медицинских знаний через федеративное обучение, использующий легковесные модели и модуль M3OE

🔘ZALM3: согласованиe текста и изображений с помощью контекста в многоэтапных диалогах.
Zero-shot-методика, которая решает проблему низкого качества изображений используя текстовый контекст.

🔘Flex-MoE: архитектура комбинирования данных разной модальности.
Архитектура для решения проблемы обучения с пропусками в мультимодальных данных, использующая "банк отсутствующих модальностей".

🔘HaarPSIMED: адаптация метрики HaarPSI для медицинских изображений.
Оптимальная конфигурация метрики HaarPSI для оценки качества медицинских изображений.

🔘MAISI: генерация синтетических 3D КТ-изображений с помощью диффузионных моделей.
Метод генерации реалистичных КТ, который решает проблемы нехватки данных и конфиденциальности в медицинской визуализации.

🔘Cough-E: энергоэффективный алгоритм обнаружения кашля на периферийных устройствах.
Алгоритм, который использует аудио и кинематические данные для точного обнаружения кашля на периферийных устройствах с ограниченными ресурсами.

▶️Медицинские LLM-приложения

🔘DiaMond: мультимодальная система диагностики деменции.
Система на архитектуре ViT для диагностики болезни Альцгеймера и лобно-височной деменции.

🔘LLM-Forest: метод обработки пропущенных данных в медицинских таблицах с использованием LLMs.
Метод использования ансамбля языковых моделей для точного заполнения пропусков в медицинских данных.

🔘PFMVG: параметрическая настройка медицинских MMLM для локализации объектов на изображениях.
Эффективная настройка медицинских мультимодальных языковых моделей для точной локализации патологий на изображениях.

🔘TrialMind: синтез клинических данных с LLM.
Генеративный конвейер для повышения эффективности поиска, отбора и извлечения данных из медицинской литературы.

🔘MDAgents: принятие решений с использованием LLMs.
Многоагентная архитектура на основе LLM для автоматизации принятия решений.

🔘Matchmaker: самообучающаяся программа на основе LLM для сопоставления схем данных.
Автоматическое и высокоточное сопоставления медицинских схем данных с LLM.

▶️Исследования и обзоры

*️⃣Оценка восприятия физического мира языковыми моделями в 3D-среде Animal-AI.
Авторы разработали фреймворк LLM-AAI, который позволяет LLM взаимодействовать со средой Animal-AI с помощью простого языка сценариев.

*️⃣Потенциал использования LLM для генерации экзаменационных вопросов по медицине.
Статья о возможности применения LLM для создания вопросов и ответов к квалификационным экзаменам по медицине.

*️⃣Уменьшение галлюцинаций в QA-системах с помощью LLM и графов знаний.
В статье исследуется проблема галлюцинаций LLM и предлагается решение в виде гибридного подхода - сочетание LLM с графами знаний. Спойлер - это работает.


🔜 Читать полный дайджест


@ai_machinelearning_big_data



20 ta oxirgi post ko‘rsatilgan.