NoML Digest


Channel's geo and language: not specified, not specified
Category: not specified


NoML (Not Only ML) - Сообщество профессионалов DS/ML решающих прикладные задачи бизнеса
Наш клуб в CH: https://www.joinclubhouse.com/club/noml

Related channels  |  Similar channels

Channel's geo and language
not specified, not specified
Category
not specified
Statistics
Posts filter


Темы недели: Feature Store & GNN

Эта неделя у нас получилась насыщенной на мероприятия.

◽️ Завтра, 18 апреля в 18:00 МСК собираемся на онлайн митап по теме Feature Store. В программе:
▫️ Сергей Серов (Банк Хоум Кредит) - Как мы на базе платформы Customer360 строим Feature Store?
▫️ Андрей Качетов (Альфа-Банк) - Feature Store: как ускорить разработку моделей из маркетплейса?
▫️ Виталий Пименов (Joom) - Feature Store под нагрузкой: опыт Joom.
Подключение→

◽️ В среду, 19 апреля в 17:00 МСК у нас будет семинар. Никита (автор 'https://t.me/noml_community/5629/5667' rel='nofollow'>серии постов про GNN) сделает обзор методов и бизнес-кейсов применения GNN.
Подключение→

◽️ В четверг, 20 апреля в 19:00 МСК будет снова тема Feature Store, а именно круглый стол / обсуждение в продолжение митапа, так как завтра точно не все успеем обсудить.
Подключение→


‼️ Перенос митапа про Feature Store 11.04 → 18.04

Прошу прощения, что-то пошло не так, и мы вынуждены перенести наш митап про Feature Store:(
Но зато теперь в программе будет больше докладов:)

В итоге встречаемся через неделю, 18 апреля в 18:00 МСК по той же ссылке→


Feature Store NoML Recap

По традиции, вспомним, что у нас уже было по теме Feature Store.

◽️ Про опыт In-House разработки FS был митап в конце 2021 года, разбирали кейсы МТС и Ленты, а также представили наше решение Kolmogorov AI.
◽️ Недавно делали апдейт рынка инструментов FS. На этой неделе, надеюсь, дополним.
◽️ Регулярно постим всякое разное интересное из следующих ресурсов:
▫️ Блоги Feast и Tecton.
▫️ apply() - серия митапов и конференций, часто вокруг темы FS.
▫️ Комьюнити Feature Stores for ML www.featurestore.org.


Онлайн митап NoML про платформы Feature Store (‼️перенос)

Завтра, 11 апреля, собираемся на очередном онлайн митапе про любимую тему фичасторов. В программе 2 (а может быть даже 3😉) доклада и обсуждение в конце.

◽️ Как мы на базе платформы Customer360 строим Feature Store?
Сергей Серов, Банк Хоум Кредит
Аннотация:
▫️ Потребности бизнеса и ключевые предпосылки по внедрению системы класса Feature Store.
▫️ Детали технической реализации системы FS. Почему был выбран самописный вариант?
▫️ Что уже удалось сделать, а что еще предстоит?

◽️ Feature Store: как ускорить разработку моделей из маркетплейса?
Андрей Качетов, Альфа-Банк
Аннотация:
▫️ Feature Store - платформа, которая по принципу онлайн-супермаркета структурирует и упрощает работу с данными для ML и аналитки.
▫️ Основные компоненты системы: как устроен и работает FS?
▫️ Кому нужен FS? Ключевые потребители системы.
▫️ За счет чего достигается радикальное сокращение Time-to-Market?

◽️ Третий докладчик пока думает…

◽️ Круглый стол “Лучшие практики и тренды в области Feature Store”
Участники: спикеры докладов и все желающие.
Вопросы к обсуждению:
▫️ Место Feature Store в Data-ландшафте. Как FS связан с DWH и Data Lake?
▫️ Централизованный Feature Store для всех задач и подразделений или FS c парадигмами Data Mesh и Platform Engineering?
▫️ Как правильно выстроить рабочие процессы вокруг Feature Store для достижения еще большей продуктивности DS команды?
▫️ Каким функционалом должен обладать идеальный Feature Store? Какие новые тренды есть в области FS?
▫️ In-house разработка или готовое решение Feature Store? Какие есть ключевые моменты при выборе вендора/поставщика FS?


Дата и время: 11 апреля (вторник), 18:00 МСК.
Подключение: Google Meet→


Forward from: Yandex Cloud
Расширяем программу поддержки в области Computer Science

Локальная инфраструктура вузов не всегда подходит для решения современных ML-задач. Облачные сервисы помогают выводить научные студенческие разработки на новый уровень.

В рамках нашей программы поддержки Computer Science в облаке запустили уже более 100 образовательных проектов. Теперь мы открываем бесплатный доступ к сервису для ML-разработки Yandex DataSphere для учебных программ в вузах.

Преподаватели смогут обучать студентов создавать базовые модели машинного обучения, быстрее проверять код, запускать учебные исследования в области искусственного интеллекта. А студенты получат доступ к работе в Jupyter Notebook и смогут сосредоточиться на работе с кодом, а также дольше работать над моделями без автоматического отключения ноутбука.

Подробнее о программе читайте на сайте ➡️

#yacloud_news


Материалы про байесовские методы

Продублирую в канал подборку рекомендуемых материалов вокруг байесовкских методов, которая недавно родилась в соответствующем топике нашего чата.

От @VagOnOff:
▫️ Курс Димтрий Ветров - Байесовские методы в машинном обучении, 2019.
▫️ Манга Такахаси Макото, Уэдзу Юхо - Занимательная байесовская статистика, 2020 😊

От @vfonov:
▫️ Книга Richard McElreath - Statistical Rethinking, 2020.
▫️ Курс Richard McElreath - Statistical Rethinking, 2022.

От @Serg_Gini:
▫️ Курс Сергей Николенко - Основы байесовского вывода, 2022.

От @mmaxgon:
▫️ Книга Jean Pierre Florens, Michel G.M. Mouchart, Jean-Marie Rolin - Elements of Bayesian Statistics, 2019.
▫️ Книга E.T. Jaynes - Probability Theory: The Logic of Science (Annotated Edition), 2003.

Ну и в качестве ответов на вопросы зачем и почему байесовская статистика вспомнили еще раз книгу
▫️ Judea Pearl, Dana Mackenzie - The Book of Why, 2018.


Запись семинара

▫️ Олег Гуляев - Разметка данных в SpeechKit на ʎzy (75 минут)
▫️ Презентация в базе знаний→


Про ʎzy

Напоминаю, что сегодня в 17:00 по Москве у нас будет семинар (ссылка для подключения→). Олег Гуляев (Яндекс.Облако) расскажет про разметку данных в SpeechKit на ʎzy.
А о том, что такое ʎzy, у нас в прошлом году рассказывал Артём Трофимов из Яндекс.Облака.

▫️ Артём Трофимов - Data pipeline tools: текущее состояние и направление развития, 2022 (65 минут).
▫️ Артём Трофимов - ʎzy - фреймворк для запуска произвольных (ML) задач на кластере, 2022 (35 минут).


Семинар NoML про разметку данных

▫️ 5 апреля (среда), 17:00 МСК
▫️ Google Meet→

В эту среду у нас семинар. Докладыввет:
😎 Олег Гуляев, Разработчик Яндекс.Облака.

Тема: “Разметка данных в SpeechKit на ʎʎzy”

Аннотация:
▫️ Расшифровка аудио для SpeechKit ASR - зачем нужна и как мы ее делаем.
▫️ От запуска на локальной машине к эффективному и надежному исполнению в облаке - парой строчек кода с помощью open source платформы ʎzy.
▫️ Crowdom - open source библиотека на Python для упрощения работы с разметкой данных и Толокой.
▫️ Все в одной IDE - среда разработки с использованием code first подхода.


Data-истории от GlowByte

На прошлой неделе на созвоне мы обсуждали тему Data Mesh. Вопросов (по крайней мере у меня) осталось больше чем ответов, договорились, что как-нибудь попозже точно нужна вторая часть. А пока, в завершение темы управления корпоративными данными, несколько статей от коллег из Data-команд GlowByte.

Во-первых, про Data Governance:
▫️ Разделяй и властвуй, или Зачем управлять данными, 2022 (16 минут).

А во-вторых, разные интересные технологические истории:
▫️ Проблема пакетной загрузки данных в HBase и способы решения, 2022 (10 минут).
▫️ Apache Atlas – доступный data catalog, 2022 (14 минут).
▫️ Использование Kudu для решения задач в реальном времени в окружении Hadoop, 2022 (4 минуты).
▫️ Практический опыт проектирования систем графового анализа, 2022 (11 минут).
▫️ Цвет сезона - слива. Что мы сделали с GreenPlum в 2022-м и что планируем в 2023-м, 2023 (7 минут).


На этой неделе планируем два мероприятия, посвященных кейсам применения продвинутой аналитики в задачах маркетинговой оптимизации:
1️⃣ В четверг, 15.04, в 19:00 по Москве - традиционный Clubhouse 👋
2️⃣ В пятницу, 16.04, в 17:00 по Москве - новый формат🔥🔥🔥: экспертная комната по теме марткетинговой оптимизации в виде голосового чата в Telegram, бронируйте слот в календарях и подключайтесь! Детали будут чуть позже)


На этой неделе планируем говорить про задачи маркетинговой оптимизации. Для начала небольшая статья про применение DS/ML в задачах оптимизации маркетинга:
https://blogboard.io/blog/data-science-in-marketing-optimization/




Немного про сёрвинг моделей:
- Небольшой пост с примерами про Tensorflow Serving,
и перевод
- Сравнение @avidaneran/tensorflow-serving-rest-vs-grpc-e8cef9d4ff62' rel='nofollow'>REST vs gRPC
- Сравнение подходов сервинга и стриминга








Так как данные - это самая важная и самая затратная составляющая успеха ML проекта, то и правильно выстроенный процесс работы с данными для моделирования должен быть ключевым компонентом полноценной ML платформы. Различные технологические и методологические аспекты управления данными для ML появлялись и раньше, но в последние годы все это окончательно оформилось в концепцию Feature Store.

Про концепцию можно почитать здесь. А здесь частичный ответ на сразу возникающий вопрос: почему именно Feature Store и в чем отличие от классических подходов DWH.

Ну и собственно хороший ресурс по теме, из блога которого взяты упомянутые выше статьи: www.featurestore.org.


Подборка книг и ресурсов по теме MLOps

Книги
Introducing MLOps
Наверное наиболее полное из имеющихся на сегодняшний день описание концепций MLOps.
Книгу можно получить бесплатно на сайте Dataiku

Practical MLOps (Early Release)
По сути практическое руководство, фокус на сервинг в контейнерах и Edge и все на стеке Azure

Machine Learning Design Patterns
Главы 5,6 и частично 8 по сути про MLOps

Ресурсы
ML REPA
Хороший ресурс по теме, ребята проводят воркшопы, обучения и конференции.
Кстати будет конференция с 5 по 11 апреля Machine Learning REPA Week 2021
Подписывайтесь на их канал в Telegram

Раздел блога neptune.ai про MLOps
Да и в целом блог достаточно хорош



20 last posts shown.

118

subscribers
Channel statistics