DeepStuff


Kanal geosi va tili: ko‘rsatilmagan, ko‘rsatilmagan
Toifa: ko‘rsatilmagan


Deep feed aggregation

Связанные каналы

Kanal geosi va tili
ko‘rsatilmagan, ko‘rsatilmagan
Toifa
ko‘rsatilmagan
Statistika
Postlar filtri


Machinelearning dan repost
🖥 GitHub Copilot в CLI теперь общедоступен (вышел из беты)

Относительно недавно GitHub Copilot объявил об общедоступности своего расширения интерфейса командной строки (CLI). Это обновление расширяет функциональность Copilot на терминал, позволяя пользователям получать выгоду от его функций непосредственно в рабочем процессе.

Новые функции Copilot CLI:
⏩Теперь Copilot может предлагать команды на основе пользовательского ввода, а также выполнять эти команды

⏩Помимо предложений на основе пользовательского ввода, Copilot будет предоставлять пояснения к существующим командам

⏩Новые вспомогательные псевдонимы доступны для оболочек Bash, PowerShell и Zsh. Эти псевдонимы, созданные командой gh copilot alias, предоставляют сокращения для часто используемых функций Copilot:
• ghcs – выполняет предложенные команды
• ghce — объясняет существующие команды

📎 Подробнее

@ai_machinelearning_big_data


Запрети мне псевдолейблить dan repost
#HMS #акакстакать
Поступил вопрос про пункт 3 и заявление, что там ничего не ясно. А там с одной стороны классика, с другой не совсем интуитивно:
Допустим у нас есть 150 моделей на одинаковых OOF и мы по ним хотим построить какой-то ансамбль, который будет лучше каждой индивидуальной.
1. Возьмем оптимизатор L-BFGS-B (знаю, в подписчиках есть фанаты) и на OOF построим оптимум заданной лосс функции. Это для нас будет линейная комбинация с положительными весами. Ну например [0.0001, 0.95, 0.003 ..., 0.0]
2. У какой-то доли моделей веса будут близкими к нулю, потому что они не слишком хорошо перформят относительно прочих. Так давайте установим трешхолд, например 0.01, и все модели с весом меньше этого из списка выкинем и пользоваться ими не будем
3. На оставшихся повторим процедуру и будем делать до тех пор, пока у всех моделей веса не будут больше, чем заданный наперед трешхолд
4. ...
5. Profit! У нас остались только уверенные и разнообразные модели

В этом смысле прием похож на совсем уж античную классику: отобрать фичи с помощью L1-регрессии и на выбраных фичах обучить уже обычную линейную/гребневую регрессию


AI Happens dan repost
В чём проблема с добавлением новых данных в GPT-модели?
Возможно, вы заметили, что с каждым обновлением продвигается дата "knowledge cutoff" — момента, до которого модели знают, что происходило в мире.

Какова же проблема? На самом деле, существует два этапа при обучении моделей:

1) Создатели собирают всевозможные данные из интернета, тратя сотни миллионов на обучение модели.
2) Создатели собирают основные новости по разным направлениям и делают дообучение модели.

ChatGPT Knowledge Cutoff — 12/23, Opus — 8/23.

Какие последние версии библиотеки python-telegram-bot знают сети:
GPT-4 — 13.12 (выпущено 2022-05-26), Opus — 20.3 (выпущено 2023-05-07).

Версии библиотек — это самый простой пример, хотя OpenAI и GitHub, находясь в одной компании, могли бы постараться сделать больше! Если вы погрузитесь глубже в любые вещи за пределами новостей, ситуация будет такой же. Статьи, мемы в интернете и т.д.

Проблема здесь в том, что собирать массу новой информации и делать incremental learning на текущий момент почти нереально, насколько я знаю - технически эта задача не решена, а это на самом деле достаточно сильно ограничивает области применения моделей, особенно в написании кода и в индустриях, где все меняется очень быстро (условный маркетинг в интернете, где хуки, работающие год назад, становятся совершенно не актуальны). Такие дела.

@aihappens


Вот так выглядит пайплайн:
1) выделение фактов
2) корректировка фактов для достижения атомарности
3) оценка релевантности
4) оценка ответа через гугл (тут на самом деле под капотом много работы: составление запросов, поиск противоречий, формирование вывода— смотри вторую картинку как пример)


Original post link: t.me/seeallochnaya/1299
Forwarded and filtered by @smartfeed_bot


Сиолошная dan repost
LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

Принято считать, что LLM часто галлюцинируют, и вообще у них большие проблемы с фактической информацией. Вот если GPT-4 мне ответит: «...и Эйфелева башня, открытая в 20м веке, обязательны к посещению» — я должен проверять период открытия? Наверное, да — уже не одна сотня людей на подобном погорела (вспомните случай с адвокатом).

Сотрудники DeepMind решили подойти к вопросу более системно и исследовать вопрос: могут ли модели текущего поколения успешно перепроверять сами себя при условии наличия доступа к гуглу? Для тех, кому лень читать, краткие выводы:
1) LLM ЛУЧШЕ ЛЮДЕЙ в перепроверке информации
2) LLM в 20 раз дешевле ручной валидации фактов
3) (конечно же) бОльшие модели лучше (косой взгляд в сторону тех, кто использует GPT-3.5)
4) GPT-4-Turbo значимо лучше остальных моделей
===

Сначала авторы генерируют 2280 относительно длинных ответов модели, запромченной упоминать как можно больше фактов - на этой выборке будут производиться замеры. Для того, чтобы перевалидировать текст, предлагается следующая многоступенчатая схема:
1) разбить текст на отдельные факты
2) сделать каждый факт самодостаточным и атомарным (например, заменив местоимения «она» на «Эйфелева башня»)
3) для каждого факта проверить релевантность оригинальному запросу
4) наконец, запустить агента в интернет с целью проверки каждого атомарного факта. Такой агент сам пишет запросы, сам открывает и читает страницы, сам может найти противоречие между разными источниками и в теории определить, какой более приоритетен
(и для всех пунктов, конечно же, используются LLM - никаких людей)

Такой пайплайн авторы называли SAFE (Search-Augmented Factuality Evaluator). На своём датасете они тоже метрики меряют, но отдельно сравнивают с людьми на датасете, созданном в рамках одной из прошлых работ в 2023м году. Там ~500 промптов, в ответах на которые выделено 16k фактов. Для каждого живой человек искал подтверждение, правда, только в рамках Википедии, а не во всем интернете.

В 72% случаев SAFE выдаёт тот же ответ, что и человек (то есть соглашается, что факт либо правильный, либо неправильный). «Пффф! ошибается в четверти случаев» — скажут одни. «Ща мы тут проверим, кто ошибается» — отвечают авторы. Затем они берут 100 примеров, где ответы модели и людей отличаются, и перепроверяют уже сами, глядя на результат. Оказывается, в 76% случаев они согласны с моделью — просто люди либо ошиблись, либо у них не было всего контекста (вне Википедии).

Код с промптами: тут и тут (разные папки одного репозитория, мб ещё где-то есть)


🤖 «МегаФон» с помощью речевых технологий SberDevices усовершенствовал своего виртуального помощника «Елена»

В результате у «Елены» на 20% увеличилась скорость распознавания речи, а точность распознавания выросла до 95%. С новым функционалом уровень лояльности клиентов повысился на 3,5 п.п. Срок полной реализации проекта составил три месяца.

Теперь «Елена» стала более человечнее со своим уникальным голосом и по когнитивным параметрам вплотную приблизилась к операторам контакт-центра.

• Подробнее


Original post link: t.me/deepfaker/13366
Forwarded and filtered by @smartfeed_bot


Кажется, мы стали забывать сколько стоит тренировка Gemini Ultra... ее оценивают в 191.4 миллиона долларов $$$!

Это почти в 2.5 раза больше чем GPT-4, и тут еще не учтены остальные эксперименты, которые не выгорели.

Но и инференс же тоже не дешевый. Уверен, что гугл сейчас в убыток раскатывает свои модели в прод.


Original post link: t.me/ai_newz/2591
Forwarded and filtered by @smartfeed_bot


Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
Стартап Limitless представил довольно необычное носимое устройство с искусственным интеллектом — Pendant. Это крепящийся на одежде или подвесе аксессуар, который записывает звук всего происходящего вокруг, и помогает с помощью ИИ впоследствии проанализировать информацию.

Основатель и глава Limitless Дэн Сирокер в прошлом уже запускал похожий продукт — будучи установленным на компьютер, приложение Rewind записывало действия пользователя. Общая идея нового Limitless Pendant настолько похожа, что поначалу этот «кулон» так и назывался: Rewind Pendant. Аксессуар в реальном времени собирает в облако данные из окружающего пользователя пространства, позволяя обратиться к ним позднее с других устройств. Rewind по-прежнему существует и даже может работать совместно с Pendant, расширяя его возможности.


Original post link: t.me/behumanai/4560
Forwarded and filtered by @smartfeed_bot


Запрети мне псевдолейблить dan repost
#HMS

9 место:
1.
Использовали двух и трехмодальные системы. На вход сырой ЭЭГ, ванильные спектрограммы от каггла и спектрограммы Криса Дейота (о его решении следующий пост).
2. Учили мультихед, который предсказывал конкретную запись и предсказывали, будет ли в этой записи Nan. Это скорее такой auxiliary loss, чтобы модель лучше генерализовывала данные и училась понимать саму доменную область, чем улучшала понимание задачи. Подробнее можно тут почитать: тык
3. Чтобы стакнуть свою кучу моделей использовали L-BFGS-B, а там 150 моделей было примерно.
4. Использовали аугментацию таргетов. Интуиция такая: раз у нас есть 15 разметчиков с одним мнением, то может нам в качестве аугментации использовать только часть из них?
Ситуация с таргетом не должна поменяться критически, но разнообразие это для модели внесет. Был вектор таргета
[1, 0, 0, 0, 14]
Мы можем «забыть одного размечающего» и из него получить
[0, 0, 0, 0, 14] и [1, 0, 0, 0, 13]
Делали так только для семплов, у которых число голосов было больше 10. У меня к сжоалению этот трюк не завелся
5. Использовали веса семплов равные числу голосов размечающих. Когда 3 человека говорят, что это судороги, это в тре раза надежнее, чем один человек.


Набор дата сайнтиста в стартапе по-британски

1. Firestore - NoSQL бд, чтобы хранить целиком жсоны и строить дата пайплайны поверх onCreate/onUpdate

2. Typescript - какая разница, на каком языке прогать? А тут зато js команда поймет, что ты делаешь

3. Firebase Cloud Functions - ETL весьма может быть и на серверлесс

4. ChatGPT, Gemini, Claude - вместо тысячи NLP, NER и парсеров

5. Crunchbase, Pitchbook, Apollo - базы с ~Series A стартапами

6. Cursor.sh + claude - самый мощный копайлот тудэй

Другие наборы из серии:
- дамская сумочка стартаперши
- мобильный сайд-хаслер


Original post link: t.me/danokhlopkov/1358
Forwarded and filtered by @smartfeed_bot


Reliable ML dan repost
Опубликован новый пример дизайна ML системы по шаблону Reliable ML
Пополняем базу примеров хороших дизайн-документов

Сегодня добавили новый пример дизайн-документа - проект от Симулятора ML. Даниил Картушов и команда представляют pet project по разработке чат-бота для поиска ответов на разные запросы в телеграм-каналах.

Опубликованный дизайн-док - пример хорошо проработанного и не перегруженного лишней информацией документа. Для более глубокого погружения в потребности пользователей в части про бизнес-требования команда проекта добавила User Story Map и Customer Journey Map. Это, кстати, может стать отличным дополнением к шаблону дизайн-документов.

Огромное спасибо авторам документа за вклад в развитие ML-дизайна.

Шаблон дизайн-документа ML-систем от Reliable ML
Материалы по работе с дизайн-доком
Как написать док вместе с Reliable ML

Stay tuned!

Ваш @Reliable ML

#business #tech #ml_system_design


📓Free book: "Build an LLM from Scratch"

Один из лучших способов разобраться в LLM - это написать ее с нуля!

Сегодня вышла новая глава книги - "Chapter 5: Pretraining on Unlabeled Data".

Автор книги - Себастьян Рашка, известный Исследователь, популяризатор машинного обучения и автор книг по Deep Learning.

В этой главе рассматриваются:
- Оценка качества текста, сгенерированного LLM во время обучения
- Реализация функции обучения и настройка LLM
- Сохранение и загрузка весов для обучения LLM
- Загрузка предварительно подготовленных весов из OpenAI

▪ Github


Original post link: t.me/ai_machinelearning_big_data/4413
Forwarded and filtered by @smartfeed_bot


Information Retriever dan repost
Чем занимается наша R&D команда.

С годами задачи меняются: сначала был фокус на развитие одной R&D технологии (трансформерной персонализации), затем на ее распространение по Яндексу, а сейчас мы с командой занимаемся R&D для рекомендаций в целом, не ограничивая себя одной конкретной технологией.

На что декомпозируется работа:

1. Поиск новых технологий — постоянное изучение arxiv'а, конференций, воркшопов, инженерных блогов. Об этом я писал чуть подробней в посте Про чтение статей (для R&D). Потребность в R&D, как правило, драйвится с двух сторон: либо мы сами "приносим" новые технологии для улучшения рекомендаций в продуктах; либо продукты приходят к нам со своими проблемами. Для нас первый сценарий реализуется чаще, поэтому поиск новых технологий — очень важная часть работы.

2. Экспериментальная деятельность, прототипирование — выдвигаем и проверяем различные гипотезы, большая часть из которых выглядит как "если сделаем Х, улучшим базовое качество рекомендаций на Y". Довольно неплохое мерило успешности R&D команды, помимо прямого влияния на бизнес-метрики — это количество выдвинутых / проверенных / успешных гипотез, эдакая "пропускная способность" в гипотезах. При этом, чтобы было много успешных гипотез, нужна хорошая ресерчевская 'интуиция'. Чтобы выработать интуицию, нужна хорошая теоретическая база и опыт (как положительный, так и отрицательный) — про это упоминал в посте "Про ML соревнования".

3. Поддержка и развитие R&D инструментов:

* фреймворк для обучения нейросетей (он же трейн луп) - самая важная компонента, больше всего влияющая на количество проверяемых гипотез. Предела совершенству здесь нет: как лучше сделать конфигурирование обучения, как должен выглядеть конструктор модели, какие нужны коллбеки, что нужно логировать. Хорошая утилизация ресурсов тоже очень важна (не упираться в чтение по сети и в cpu, использовать оптимальные реализации слоев).

* работа с данными — зачастую самые профитные гипотезы связаны именно с данными. Подать что-то новое в модель, изменить представление входных данных, модифицировать целевую задачу, придумать новую процедуру предобучения. При этом нам доступны по-настоящему большие данные, триллионы пользовательских событий. Чтобы не состариться при проверке очередной гипотезы, требующей "варки" нового датасета, нужен удобный, гибкий и быстрый фреймворк. Дата инженеров у нас нет — нам важно уметь самим залезать в обработку данных и что-то быстро в ней менять. Да и инструменты для работы с данными в Яндексе настолько хороши (YQL, YT), что даже ресерчеры вполне способны их освоить :)

* инструменты для внедрений — "быстрые применялки" моделей, регулярные процессы дообучения, сервисы для применения моделей, оффлайн насчеты векторов, индексы для кандидатогенерации, etc. Здесь частично мы справляемся сами, частично нам помогают другие команды. Некоторые инструменты мейнтейнят и развивают выделенные команды. Конечная цель у нас — это всегда real-world impact, поэтому с этим всем мы тоже много сталкиваемся.

* командные процессы — совершенствуем их от полугодия к полугодию. На мой biased взгляд, выстраивание процессов для эффективного R&D гораздо сложнее, чем в обычной разработке. Вопросов много: сколько людей должно заниматься одним проектом, как лучше проводить планирования, сколько проектов должно быть у каждого человека, как организовать семинары по чтению статей, на что коммититься, etc.

4. Внедрения — мы постоянно общаемся с продуктовыми командами, рассказываем про новые технологии и наши планы, договариваемся про совместные внедрения, делаем общие для экосистемы Яндекса инструменты. Зачастую от сервисов узнаем много нового, вырабатываем новые интуиции, а потом еще и "кросс-опыляем" сервисы, рассказывая одному сервису про фишки другого :) Ну и, конечно, очень приятно видеть импакт на продукты, которые использует много людей (Музыка, Кинопоиск, Маркет, Алиса, Поиск, etc)

К чему я это все: у меня есть вакансия; если прочитали и чувствуете, что душа к нам лежит — приходите в личку (@kkhrylchenko) :)

P.S: приступаю к созданию видео про Pinterest 🙂


Original post link: t.me/boris_again/2410
Forwarded and filtered by @smartfeed_bot


AGI_and_RL dan repost


AGI_and_RL dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
Как GPT-4V в RDR2 играла.

Авторы поставили задачу General Computer Control (GCC): создание foundation агентов для решения любых компьютерных задач также как это делают люди, т.е. когда на вход агенту подаются те же данные, что и человеку (например изображения с экрана/текст/звук), а управлять можно клавиатурой и мышкой.

Для решеия задачи разработали фреймворк Cradle.
Состоит из 6 модулей:
1. Сбор информации.
На вход подается изображение (скриншот и элементы пользовательского интерфейса) + текстовая информация (заголовки и абзацы текста с экрана, меню и тд полученные через OCR).
2. Self-reflection. Позволяет модели поразмышлять о действиях и задачах;
3. Task inference. Обработка пула задач для выбора следующей задачи;
4. Skill curation. Создание и обновления списка навыков;
5. Action planning. Здесь агент пишет код для управления клавиторой и мышкой; (~ нажимать W 5 секунд чтобы идти вперед)
6. Memory. Память для хранения и использования предыдущего опыта и навыков;

Ну и подключили GPT-4V с Cradle к Red Dead Redemption 2.

Что выявили:
* GPT-4V пока плохо справляется с пространственно-визуального восприятием, отчего страдает управление персонажем.
* Не всегда правильно интерпретирует мини-карту. Например иногда неправильно определяет направление центральной стрелочки, потому теряется и не выполняет задачу.
* При работе с длинным контекстом отвлекается на несущественные события в игре и галлюцинирует.
* Авторы полагают, что из-за отсутствия у GPT-4V модели мира RDR2, делает неправильные выводы из прошлых действий, отчего неправильно выбирает следующие. (опа, world models)
* Без модуля Self-reflection результаты сильно хуже.

Так понял.
В общем-то ожидаемый результат, посмотрим за прогрессом в мультимодальных агентах.

https://baai-agents.github.io/Cradle/

Towards General Computer Control: A Multimodal
Agent for Red Dead Redemption II as a Case Study

https://arxiv.org/abs/2403.03186

Код https://github.com/BAAI-Agents/Cradle

Видосик с попытками GPT-4V играть RDR2:
https://www.youtube.com/watch?v=Cx-D708BedY


Kali Novskaya dan repost
🌸Стрим на Рабкоре в 20.00🌸

Сегодня, в 20.00 по мск

На этом канале я часто рассказываю про проблемы авторских прав, доступа к научных знаниям, взаимодействия ИИ и науки.

Сегодня на Рабкоре необычный стрим: сегодня в гостях — Юрий Кашницкий @new_yorko_times , Principal ML Scientist в Elsevier, а также создатель открытого курса по МЛ mlcourse.ai

Приходите!
Будем обсуждать проблемы науки и научного знания:
— Ситуацию с доступом к научным работам, подходы традиционных издательств и открытых платформ;
— Как так вышло, что издательства берут деньги за публикацию статей?
— Платформы распространения научных публикаций, их историю и роль сейчас;
— Акселерацию науки с помощью ИИ — в чьих она руках? Попадут ли публикации из того же Эльзивир в обучение вообще?
— Какие способы читерства существуют в науке? Как LLM меняют научный ландшафт уже сейчас?
— А распознать текст, написанный LLM, вообще возможно?

🟣Youtube:
https://youtube.com/live/Ycx-DwO0cbY




TikTok тестирует AI-инфлуенсеров для интеграции в рекламный кабинет.

Уже были попытки реализовать что-то подобное, завирусившееся в твиттере, правда там было не совсем ai generated (там был простой липсинк). Но выглядело очень правдоподобно – говорящая голова эмоционально зачитывает любой рекламный текст за несколько десятков $.

И вот в сеть утекла информация, что тикток и сам пробует нечто похожее. Неясно, как это будет реализовано и еще более неясно, как на это отреагирует аудитория. А вот криэйторам стоит побеспокоиться, ведь их доход в основном состоит из таких вот партнерств с брэндами, которые AI-аватары могут перетянуть на себя. Криэйторам там и так не платят, а теперь еще и спонсоров хотят отжать. О этот новый дивный мир!


Original post link: t.me/ai_newz/2588
Forwarded and filtered by @smartfeed_bot


Computer Science and Programming dan repost
So, how they solved it? 𝗧𝗵𝗲𝘆 𝗳𝗶𝗿𝘀𝘁 𝘁𝗿𝗶𝗲𝗱 𝘁𝗼 𝘂𝗻𝗱𝗲𝗿𝘀𝘁𝗮𝗻𝗱 𝗵𝗼𝘄 𝘁𝗵𝗲 𝘀𝘆𝘀𝘁𝗲𝗺 𝗽𝗲𝗿𝗳𝗼𝗿𝗺𝘀. They tracked what Elixir processes were doing, if they were stuck waiting on something, etc. They recorded the event types, how many of each kind of message they received, and their processing times. In addition, they tried to understand how much memory they use, the performances of garbage collectors, etc.

After the analysis, they 𝗰𝗿𝗲𝗮𝘁𝗲𝗱 𝘁𝗵𝗲 𝗳𝗼𝗹𝗹𝗼𝘄𝗶𝗻𝗴 𝘀𝘁𝗿𝗮𝘁𝗲𝗴𝘆:

𝟭. 𝗣𝗮𝘀𝘀𝗶𝘃𝗲 𝘀𝗲𝘀𝘀𝗶𝗼𝗻𝘀: Discord significantly reduced the amount of data processed and sent by differentiating between active and passive user connections, cutting the fanout work by 90% for large servers.

𝟮. 𝗥𝗲𝗹𝗮𝘆𝘀: Implementing a relay system (read - multithreading) allowed Discord to split the fanout process across multiple machines, enabling a single guild to utilize more resources and support more prominent communities. Relays maintain connections to the sessions instead of the guild and are responsible for doing fanout with permission checks.

𝟯. 𝗪𝗼𝗿𝗸𝗲𝗿 𝗽𝗿𝗼𝗰𝗲𝘀𝘀𝗲𝘀 𝗮𝗻𝗱 𝗘𝗧𝗦: To maintain server responsiveness, Discord employed worker processes and Erlang Term Storage (ETS) for operations requiring iteration over large sets of members, thus avoiding bottlenecks in the guild process. ETS is an in-memory database that supports the ability of multiple Elixir processes to access it safely. This enables the creation of a new worker process and passes the ETS table so this process can run expensive operations and offload the central guild server.

🔗https://discord.com/blog/maxjourney-pushing-discords-limits-with-a-million-plus-online-users-in-a-single-server

20 ta oxirgi post ko‘rsatilgan.

26

obunachilar
Kanal statistikasi