Tomorrow’s Echo


Гео и язык канала: Весь мир, Русский
Категория: Технологии


Gone today, not yet tomorrow.

Связанные каналы

Гео и язык канала
Весь мир, Русский
Категория
Технологии
Статистика
Фильтр публикаций


Репост из: Душный NLP


Репост из: Душный NLP
Инфраструктура LLaMA 3.1

Продолжаем серию постов о модели Meta* рассказом об инфраструктуре. На чём же училась LLaMA?

Претрейн 405B-модели осуществлялся на 16 тысячах H100, с потреблением электроэнергии в 700 Вт каждая. Использовалась кастомная платформа с Liquid Cooling-хостами.

У Meta есть general-purpose-хранилище на основе TectonicFS. Изначально его использовали и для обучения ИИ, и для других процессов и клиентов. Однако создание чекпоинтов оказывало очень большую нагрузку на хранилище. Поэтому инженеры создали отдельное хранилище исключительно для тренировок модели.

Что касается сети, то в Meta сделали сразу два кластера: с RoCE для большой модели и с Infiniband для моделей поменьше. В каждой стойке по два хоста, а каждом хосте — по восемь GPU. Всего в кластере 24 тысячи GPU, из которых 16 отведены под обучение.

Внутри каждого из восьми модулей на 3072 GPU максимальная пропускная способность сети. А между модулями — она в семь раз меньше. Планировщик распределяет задачи по хостам, тем самым минимизируя сетевые коммуникации между модулями. Также используется NCCLX — кастомная версия библиотеки для коммуникаций NCCL.

Как показатель эффективности использовали Model FLOPS Utilization (MFU) — это коэффициент отношения наблюдаемого числа обработанных токенов к теоретическому максимальному числу. Он достигает от 38% до 43% — в зависимости от сетапа. Подробнее — в таблице выше.

О надежности. За 54 дня претрейна случилось 419 непредвиденных остановок — то есть примерно по 8 в день. Из строя ежедневно выходило 0,3-0,4% оборудования. Статистику по падениям можно посмотреть во второй таблице. Боролись с неполадками и предотвращали их с помощью частых чекпоинтов, быстрых рестартов, инструментов для диагностики проблем. Кроме того, инженеры — не прерывая обучение — могли менять настройки и уровень логирования.

Напоминаем, что у нас есть и другие посты о LLaMA 3.1:
о претрейн-датасете;
архитектуре модели;
алайменте.

А в канале CV Time вы найдёте пост о том, как LLaMA 3.1 работает с изображениями, а также много других интересных разборов и репортажи с профильных конференций. Подписывайтесь!

Душный NLP

Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ


Репост из: Венчур Менна и Горного
Большой отчет McKinsey о венчурном стиле развития корпораций — когда в рамках компании запускаются совершенно новые продукты. Подразумеваются не инвестиции через фонды или напрямую, а именно разработка проекта внутри.

По данным McKinsey, "не своим делом" готовы заниматься практически все, и кто-то даже получает результаты от такого подхода.

McKinsey, наверное, продает какой-то консалтинг для таких развлечений и заинтересован в рекламе этого подхода, но вряд ли врет напрямую. И графики просто страшно выглядят. 70% CEO уже там!

https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/how-ceos-are-turning-corporate-venture-building-into-outsize-growth


Репост из: Венчур Менна и Горного
Pitchbook выпустил отчет о проблеме долгой жизни фондов.

Типичный срок "от первого раунда до IPO или покупки" у стартапа растет. Amazon на третий год жизни был на бирже, Stripe через 13 лет в ус себе не дует и всё ещё частный. А срок жизни венчурного фонда не растет. И никто не хочет, чтобы он рос. И LP, и GP хотят свои деньги в этой жизни, принятые в индустрии 10 лет ожидания — и так колоссальное время.

И хорошего решения этого противоречия нет, все рассматриваемые в отчете варианты имеют недостатки. Не рассматривается почему-то выход на биржу самого фонда, но это в любом случае экзотика.

Общая же мораль — проблема есть и ухудшается с каждым десятилетием. Если организуете фонд, подумайте о ней, если вкладываете деньги в чужой — спросите, что думает основатель.

Много мыслей и графиков в самом отчете

https://files.pitchbook.com/website/files/pdf/Q4_2024_PitchBook_Analyst_Note_Evolving_Economics_of_10-Year_VC_Funds.pdf


Репост из: ИИ тебе
Сервис позволяет с помощью ИИ создать браузерную игру и сразу выгрузить её в онлайн-каталог. Есть шаблоны и возможность добавлять свои ассеты.

ROSEBUD


Репост из: ИИ тебе
Лучший сервис для обучения чему угодно с помощью ИИ. Позволяет составить план обучения по нужной теме и проверять свои знания с помощью интерактивных карточек. Напоминаю: с вас 🍌, с меня посты.

Learn Earth


Репост из: Записки C3PO
Недавно осознал, как благодаря LLM кардинально изменились потребление контента и работа с документами.

Не читаю книги сразу, а загружаю их в сетку, изучаю саммари и задаю вопросы, прежде чем решить, стоит ли их читать полностью. С научными публикациями поступаю схоже: не читаю дальше абстракта, а использую тот же подход, что и с книгами, но задаю более специфичные вопросы об исследовании (методы, ограничения и тому подобное). Подкасты и видео тоже не слушаю и не смотрю сразу — сначала читаю краткое содержание, задаю вопросы, и только потом, если интересно, просматриваю. Договоры не читаю сам, а прошу LLM выступить в роли юриста. Более того, я теперь не обращаюсь к юристу для составления договора, а поручаю это нейросети. Даже презентации и отчеты всяких агентств и фондов больше не читаю целиком, а применяю тот же алгоритм, чтобы выявить ключевые идеи.

Могу ли я так пропустить какие-то важные детали? Да. Но количество потребляемой инфы диспропорционально выше, что с лихвой перекрывает этот недостаток.






Репост из: Telegrok Искусственный Интеллект
Метаверсище и ИИще
А вот еще одна примерочная, только не в виде китайских работ, демо на хф или репозитариев на гитхабе со смешными картинками.
А в виде готового допиленного продукта.

На Superlook.ai можно без обучения одевать кого угодно во что угодно (сохраняя крой, материал, цвет, рисунок и фактуру) по одной фотографии. Есть Fitting Room, и он реально работает. Попробовал не на фотографиях, а на картинах, тоже нормально работает. Процесс выглядит так: загружаете фото одеваемого и фото шмота, правите маску (если дефолтная не нравится, крутая фича) и жмакаете Generate.
API для примерочной (для онлайн-стора), как я понял, есть, но под запрос.

@cgevent


Репост из: Финсайд
Номинальный ВВП на душу населения африканских стран по прогнозу МВФ на 2024 год. Эта часть света является самой бедной и неразвитой, во многом благодаря колониальному прошлому, низкому уровню образования и здравоохранения, коррупции, постоянным военным конфликтам и госпереворотам, засушливому климату и многим другим факторам.

Когда говорят о самой богатой африканской стране, на ум обычно приходит ЮАР. Однако по ВВП на душу населения страна находится на 7-м месте, несмотря на плюс-минус развитую добывающую промышленность (золото, платина, алмазы), туризм и сельское хозяйство. Но примерно 80% населения живут за чертой бедности.

Наиболее развитыми экономически являются Сейшелы – $22 тыс. на душу населения, что в 10 раз больше среднего по Африке. Страна зарабатывает не только туризмом и рыболовством, но и финансовой отраслью, поскольку является крупным оффшорным центром. У России, к слову, прогнозируемый в этом году ВВП на душу населения по данным МВФ составляет $14 тысяч, почти столько же, сколько у второго места в Африке – Маврикия ($13 тыс.) На третьем месте Габон с $9 тыс.

По Эритрее и Западной Сахаре информации нет, по имеющимся данным самыми нищими странами являются Бурунди ($230), Южный Судан ($422) и Малави ($481). В каждой из этих стран население превышает 10 млн человек и примерно 90% в них задействовано в сельском хозяйстве. Промышленность есть в основном в виде обработки чая, кофе, табака и сахара. Южный Судан ещё добывает нефть, но трубопроводы контролируются Северным Суданом.

Маврикий, кстати, вошёл в восьмёрку безопасных и развитых стран, которые преобразовали свою экономику, поощряя богатых людей переезжать. В список также входят Австралия, Швейцария, Сингапур, ОАЭ, Новая Зеландия, Мальта и Монако. @finside


Репост из: e/acc
Выкладываю текстовую версию своей презентации с dAGI Summit в Бангкоке, буду благодарен за репорт или quote tweet :)

> https://x.com/sgershuni/status/1858545354033213870 <

В презентации:
— показываю почему ИИ это главная технология влияющая на экономику сегодня
— как изменяется экономика со временем и как эти данные можно экстраполировать
— почему проблема координации сегодня больше, чем проблема технологического прогресса
— к каким потенциальным угрозам это ведет
— что нужно сделать, чтобы их митигировать и причем тут кибернетическая экономика


Репост из: Moon or dust
"Zerebro Playbook: BAYC среди Onchain Агентов" Часть 1 из 2.

https://twitter.com/yb_effect/status/1856545765734133918

Твиттерянин @yb_effect выпустил статью “Zerebro Playbook: BAYC среди Onchain Агентов,” основываясь на своем прошлом материале "Memecoins as Memetic Hygiene for Infinite Backrooms." Он утверждает, что эксперимент с Truth Terminal и $GOAT — это не просто временное увлечение, а концепция с серьёзными последствиями.

На прошлой неделе $GOAT вырос с рыночной капитализации $50 млн до $350 млн, а сегодня достиг $1 млрд, войдя в топ-100 на Coinmarketcap. В последние три недели появилось несколько проектов, которые привлекли внимание, формируя представление о том, куда движется агентская экономика. Важно отметить, что термин "мемкойн" стал слишком широким и часто используется как обобщение. Настоящие "агентские монеты" отличаются тем, что они связаны с реальными проектами, напоминая токены DeFi лета 2020 года.

Особый интерес вызывает проект Zerebro, который за две недели после запуска достиг $100 млн рыночной капитализации. Если Truth Terminal можно сравнить с Cryptopunks, то Zerebro — это BAYC. Создатель проекта, Jeffy Du, активно строит сообщество, демонстрируя процессы в реальном времени.

Проект выделяет четыре ключевых аспекта для развития ончейн-агентов:

1. Память и Поиск
2. Присутствие везде и сразу
3. Let the agents pump
4. Cross-Chain Agentic IP

Память и Поиск
В документе Zerebro обсуждается "коллапс модели," когда AI-агенты теряют способность адаптироваться и со временем становятся повторяющимися. Это подчеркивает важность двух аспектов: памяти и поиска.

Память реализуется через системы retrieval-augmented generation (RAG), которые объединяют языковые модели с системами поиска. Это позволяет агентам обновлять свои знания и адаптироваться к меняющемуся миру.

Три главные особенности RAG:

1. Постоянное обновление памяти
2. Контекстуальный поиск
3. Поддержание разнообразия

Поиск необходим для извлечения актуальной информации в реальном времени, чтобы учитывать события и данные, которых нет в памяти модели. Агенты без такого поиска теряют актуальность, особенно по мере того, как их задачи становятся более специфичными и требуют точной информации.

Всё это указывает на то, что настоящая сила современных AI-агентов заключается не только в их способности генерировать текст, но и в умении находить, сохранять и использовать информацию для адаптации в реальном времени.


Репост из: Миша, давай по новой
Не знаете, как общаться с Midjourney? Вот список всех вариантов взаимодействия с нейронкой. От обычного запроса до мультизапросов + sref +cref

1. Текстовый запрос

2. Мульти-запрос

3. Текстовый запрос + Изображение

4. Текстовый запрос + Изображение для согласованности персонажа

5. Текстовый запрос + Изображение в качестве примера стиля

6. Запрос на несколько изображений

7. Текстовый запрос + Персонализация

8. Текстовый запрос + Sref коды

9. Текстовый запрос + Несколько изображений

10. Текстовый запрос + Несколько изображений для согласованности персонажа

11. Текстовый запрос + Несколько изображений в качестве примеров стиля

12. Текстовый запрос + Персонализация

13. Мульти-запрос + Изображение

14. Мульти-запрос + Изображение для согласованности персонажа

15. Мульти-запрос + Изображение в качестве примера стиля

16. Мульти-запрос + Несколько изображений

17. Мульти-запрос + Несколько изображений для согласованности персонажа

18. Мульти-запрос + Несколько изображений в качестве примеров стиля

19. Мульти-запрос + Персонализация

20. Мульти-запрос + Sref коды

21. Изображение для согласованности персонажа + Запрос на несколько изображений

22. Текстовый запрос + Изображение + Несколько изображений для согласованности персонажа

23. Текстовый запрос + Изображение + Несколько изображений в качестве примеров стиля

24. Текстовый запрос + Изображение для согласованности персонажа + Запрос на несколько изображений

25. Текстовый запрос + Изображение для согласованности персонажа + Несколько изображений в качестве примеров стиля

26. Текстовый запрос + Изображение в качестве примера стиля + Запрос на несколько изображений

27. Текстовый запрос + Изображение в качестве примера стиля + Несколько изображений для согласованности персонажа

28. Мульти-запрос + Изображение + Несколько изображений для согласованности персонажа

29. Мульти-запрос + Изображение для согласованности персонажа + Запрос на несколько изображений

30. Мульти-запрос + Изображение для согласованности персонажа + Несколько изображений в качестве примеров стиля

31. Мульти-запрос + Запрос на несколько изображений + Несколько изображений для согласованности персонажа

32. Мульти-запрос + Запрос на несколько изображений + Несколько изображений в качестве примеров стиля

33. Мульти-запрос + Несколько изображений для согласованности персонажа + Несколько изображений в качестве примеров стиля

P. S. Взято с Твиттера




Репост из: 🤖 Датаист
Почему данные — главное технологическое преимущество ИИ-стартапа

Большинство стартапов терпят неудачу — это аксиома. Поэтому важно выстраивать понятный и быстрый процесс проверки продуктовых гипотез для максимизации вероятности запуска успешного продукта. Расскажу про свой кейс, когда мы выпустили продукт на рынок США и проиграли конкуренцию Google.

В 2023 году я присоединился к стартапу Aola в роли технического директора. Aola — ИИ-ассистент для поиска досуга: интересных мест и событий — кафе, ресторанов, концертов, кино и многого другого.

Команда была небольшой: React-разработчик на фронт, Python-разработчик на бэк, ML-инженер для создания рекомендательной системы и парт-тайм DevOps-инженер для инфраструктурных задач. Моя роль заключалась в управлении технической командой, написании кода ИИ-ассистента, сборе данных, а также запуске продукта на рынок с настроенной аналитикой. Главный вопрос, который стоял передо мной — где брать данные для рекомендательной системы?

У меня было два варианта — использовать агрегаторы, например Yelp и Ticketmaster, или открытые источники. С агрегаторами всё оказалось не так просто: они не предоставляли доступа к семантическому поиску, искать места и события можно было только по городам и категориям. Это серьёзно осложняло желание масштабироваться, но мы решили попробовать этот вариант для проверки MVP на одном городе.

Для запуска MVP я собрал данные из Атланты и настроил интеграцию с рекомендательной системой на базе коллаборативной фильтрации. Для реализации ИИ-ассистента я использовал Langchain (LangGraph появился чуть позже). ИИ-ассистент не только рекомендовал досуг, но мог поддерживать беседы на различные темы, связанные с досугом, и даже придумывать игры. Вот пара интересных статей наработки из которых я использовал в проекте: как использовать LLM в разговорных рекомендательных системах и фреймворк RecSys-Assistant-Human.

Было интересно наблюдать, как наш ассистент общается с пользователями, знает все отзывы и детали о местах и предлагает гиперперсонализированные рекомендации на основе их предпочтений. Например, пользователю с ребёнком ассистент рекомендовал пойти в кафе с детской комнатой и посоветовал, какие развлечения понравятся ребёнку на основе отзывов.

В первый день запуска мы собрали 1k+ пользователей из одного города, но понимали, что нужно масштабироваться на большее количество городов. Однако, ежедневно делать реплику всей базы агрегаторов было слишком затратно.

Поэтому я переключился на сбор данных из источников с наличием семантического поиска. Я создал ИИ-агентов, которые формировали поисковые запросы в Google Places и Google Events, собирали подробную информацию о каждом месте и возвращали ИИ-ассистенту. В итоге нам не пришлось ежедневно собирать и обновлять данные по различным городам — мы научили агентов хорошо «гуглить» за пользователя.

Мы запустили мобильное приложение, веб-версию, Telegram-бот и даже интеграцию в Instagram. В первые дни казалось, что мечта начинает сбываться, так как нашим приложением начали пользоваться 5k+ пользователей, но через несколько дней Gemini (на тот момент Bard) выкатил обновление, в котором он тоже научился обращаться к своим же сервисам за нужными данными для поиска досуга быстрее, чем мы.

В итоге у нас не было конкурентного преимущества. Да, мы могли продолжать делать рекламу и привлекать больше пользователей, но мы были объективно хуже Google Bard, и конкурировать с ним было бессмысленно — у нас не было уникальных данных, к которым у нас был бы быстрый доступ.

Этот опыт стал для меня хорошим уроком. Я понял, что без уникальных данных или обученных ИИ-моделей на этих данных сложно иметь технологическое конкурентное преимущество. Данные сегодня — это действительно новая нефть.

#кейсы


Репост из: AI Для Всех
Новые возможности файн-тюнинга с Orca-AgentInstruct-1M-v1

Компания Microsoft выпустила датасет с 1 миллионом примеров выполнения инструкций для исследований и обучения продвинутых ИИ-агентов.

Инструкции применимы ко многим областям, например редактирование текста, описание, код, понимание прочитанного и т. д. - с разрешительной лицензией.

Датасет можно использовать для файнтюнинга любой базовой LLM.

🤗 Датасет

👾 Блог


Репост из: Ваня Замесин про продукт, психологию и картину мира
Посоветуйте книги

Посоветуйте пожалуйста в комментариях свои любимые 3 non fiction и любимые 3 fiction книги с кратким описанием за что вы их любите?

А ещё фантастику пожалуйста ^^


Репост из: Machinelearning
📎 ML в медицине: дайджест за 28 октября - 3 ноября 2024 г.

▶️Модели машинного обучения и бенчмарки

🔘MassSpecGym: бенчмарк для тандемной масс-спектрометрии.
Комплексная коллекция для идентификации и исследования молекул из данных тандемной масс-спектрометрии.

🔘UltraMedical: набор специализированных биомедицинских моделей.
Модели, датасет для обучения и код для инференса.

🔘EchoFM: Базовая модель для обобщенного анализа эхокардиограмм.
Модель для извлечения признаков из видео эхокардиографии без необходимости ручной разметки.

🔘ImmunoHisto Benchmark: оценка базовых моделей гистопатологии к обобщению для аутоиммунных заболеваний и окрашиванию ИГХ.
Бенчмарк на способность моделей гистопатологии обобщаться на данные вне распределения, полученные с помощью иммуногистохимического окрашивания тканей при аутоиммунных заболеваниях.

🔘Оценка LLM в задачах консультирования по вопросам психического здоровья.
Бенчмарк, основанный на Национальном экзамене по клиническому консультированию в области психического здоровья (NCMHCE), используемом в США.

▶️Фреймворки и методологии

🔘FEDKIM: внедрение медицинских знаний в LLM с использованием федеративного обучения.
Метод внедрения медицинских знаний через федеративное обучение, использующий легковесные модели и модуль M3OE

🔘ZALM3: согласованиe текста и изображений с помощью контекста в многоэтапных диалогах.
Zero-shot-методика, которая решает проблему низкого качества изображений используя текстовый контекст.

🔘Flex-MoE: архитектура комбинирования данных разной модальности.
Архитектура для решения проблемы обучения с пропусками в мультимодальных данных, использующая "банк отсутствующих модальностей".

🔘HaarPSIMED: адаптация метрики HaarPSI для медицинских изображений.
Оптимальная конфигурация метрики HaarPSI для оценки качества медицинских изображений.

🔘MAISI: генерация синтетических 3D КТ-изображений с помощью диффузионных моделей.
Метод генерации реалистичных КТ, который решает проблемы нехватки данных и конфиденциальности в медицинской визуализации.

🔘Cough-E: энергоэффективный алгоритм обнаружения кашля на периферийных устройствах.
Алгоритм, который использует аудио и кинематические данные для точного обнаружения кашля на периферийных устройствах с ограниченными ресурсами.

▶️Медицинские LLM-приложения

🔘DiaMond: мультимодальная система диагностики деменции.
Система на архитектуре ViT для диагностики болезни Альцгеймера и лобно-височной деменции.

🔘LLM-Forest: метод обработки пропущенных данных в медицинских таблицах с использованием LLMs.
Метод использования ансамбля языковых моделей для точного заполнения пропусков в медицинских данных.

🔘PFMVG: параметрическая настройка медицинских MMLM для локализации объектов на изображениях.
Эффективная настройка медицинских мультимодальных языковых моделей для точной локализации патологий на изображениях.

🔘TrialMind: синтез клинических данных с LLM.
Генеративный конвейер для повышения эффективности поиска, отбора и извлечения данных из медицинской литературы.

🔘MDAgents: принятие решений с использованием LLMs.
Многоагентная архитектура на основе LLM для автоматизации принятия решений.

🔘Matchmaker: самообучающаяся программа на основе LLM для сопоставления схем данных.
Автоматическое и высокоточное сопоставления медицинских схем данных с LLM.

▶️Исследования и обзоры

*️⃣Оценка восприятия физического мира языковыми моделями в 3D-среде Animal-AI.
Авторы разработали фреймворк LLM-AAI, который позволяет LLM взаимодействовать со средой Animal-AI с помощью простого языка сценариев.

*️⃣Потенциал использования LLM для генерации экзаменационных вопросов по медицине.
Статья о возможности применения LLM для создания вопросов и ответов к квалификационным экзаменам по медицине.

*️⃣Уменьшение галлюцинаций в QA-системах с помощью LLM и графов знаний.
В статье исследуется проблема галлюцинаций LLM и предлагается решение в виде гибридного подхода - сочетание LLM с графами знаний. Спойлер - это работает.


🔜 Читать полный дайджест


@ai_machinelearning_big_data



Показано 20 последних публикаций.