Postlar filtri


Коллеги, всем привет!
❗️Рады поделиться новостью: мы в Sber AI Lab запускаем практический курс 🎓 LightAutoML - фреймворк для автоматического построения моделей машинного обучения.

Фреймворк полностью открытый, так как opensource, работает пока на табличных данных, однако на этот год у нас достаточно плотный roadmap. Курс будут читать авторы и разработчики фреймворка - маcтера и градмастер Kaggle🥇🥇🎖. В конце всех лекций вас ждут лайфхаки и байки лучших практик Kaggle и анонс inclass-соревнования для слушателей курса🎁!

Фреймворк позволяет за короткий промежуток времени построить автоматически пайплайн модели, работающий на уровне топ-10% DS 🎰. Пока машина строит пайплайны за вас 🤖, можно продолжать работать осмысленно 🛀 над построением новых фичей, основанных на бизнес-знаниях, и получать результаты выше.

Курс состоит из 9 вебинаров 🧑‍💻, будет проходить еженедельно по средам с 28 мая в 19.00 по Мск. Регистрация по ссылке

P.S. Много полезного по фреймворку есть на Github. Будем рады звездочкам ⭐️ и ждем всех на курсе.


#release_notes
В версии 0.2.12:
- Добавлена интерпретацию NLP моделей на основе LIME.
- Появилась расширенная поддержка HF моделей для обучения и извлечения эмбеддингов.
- Исправлен ряд багов, связанных с передачей языка в некоторые алгоритмы извлечения эмбеддингов и токенайзеров.


#release_notes
В версии 0.2.11:
- добавлена функциональность подсчета важности признаков из коробки для TabularAutoML и TabularUtilizedAutoML. Примеры использования можно увидеть в Tutorial_2.
- добавлена возможность возвращать предсказания отдельных моделей с последнего слоя перед блендером как на этапе трейна модели (для OutOfFold предсказания), так и для этапа предсказаний. Подробности использования - в посте выше из категории #ответы_на_вопросы
- исправлены баги, найденные в процессе тестирования кастомных метрик, заданию своих конфигов для TabularUtilizedAutoML и превращению его тем самым в мультистарт и др.


#теория #трюки
В задачах машинного обучения часто мы наблюдаем картину насыщения модели данными: при 80-90% используемых данных из тренировочного датасета модель выходит на плато качества и дальше не растет.
Однако встречаются кейсы (и они не являются супер редким исключением из правил), когда качество модели все продолжает и продолжает расти по мере наращивания выборки, на которой модель учится, и даже при 100% насыщения не наступает. Но размеченных данных больше нет и остались только неразмеченные - в данной ситуации может помочь так называемая техника псевдолейблинга (pseudolabelling). О том, как с ней работать и какие существуют важные правила, которые стоит соблюдать для достижения результата, можно прочитать в моем посте на форуме Kaggle: https://www.kaggle.com/c/tabular-playground-series-apr-2021/discussion/231738


#ответы_на_вопросы
Вопрос:
можно ли получить все предсказания с последнего слоя перед блендером?**
Ответ:
да, можно. Для любой задачи чтобы возвращать предсказания всех алгоритмов с последнего слоя нужно на тренировке вписать вот такую историю:
general_params = {
'use_algos': [['linear_l2', 'lgb']],
'return_all_predictions': True,
'weighted_blender_max_nonzero_coef': 0.0
},
где всего 2 алгоритма взяты для примера, параметр return_all_predictions:True означает, что блендер учить нужно но пользователь хочет получить итоговые OutOfFold предсказания в формате всех OutOfFold предсказаний с последнего слоя перед блендером. В задаче бинарной классификации и регрессии это будет выглядеть как матрица с количеством строк, равным числу объектов в трейне, и количеством столбцов, равных количеству алгоритмов на последнем слое перед блендром. Для задачи мультиклассовой классификации на N классов количество столбцов увеличится кратно - первые N столбцов будут относиться к первому алгоритму, вторые N ко второму и так далее.

Для того, чтобы подобные предсказания получить на тесте, нужно параметр return_all_predictions установить в значение True


#оффтоп
Для тех кто устал искать в кернеле на Kaggle версию с лучшим скором посвящается: мини-тул для сбора информации о кернеле https://github.com/alexmryzhkov/kaggle-kernels-helper

Пример вывода в аттаче, пример использования в Jupyter ноутбуке в репозитории.

P.S. Пока что работает только с открытыми кернелами.


#инфографика
И конечно же большинство из нас линуксоиды :)


#инфографика
И что еще более забавно - теперь включился в работу питон 3.6, пытающийся догнать самый распространенный 3.7


#инфографика
Друзья-товарищи, я хотел бы сказать вам большое спасибо за то, что вы с нами и помогаете нам развиваться. Наше текущее состояние по числу скачиваний выглядит вот таким образом. Последние несколько дней прямо пушка 🤩🤩🤩


#примеры #Kaggle
Многие видели кернел на Kaggle, где LightAutoML в режиме blackbox сражается в соревновании TPS 2021 с моделями, построенными вручную (https://www.kaggle.com/alexryzhkov/n3-tps-april-21-lightautoml-starter).

Сейчас мы решили пойти дальше - взять наше whitebox решение и навязать борьбу хваленым градиентным бустингам. Пока что у нас получилось добиться сравнимого с blackbox алгоритмами качества, посмотрим что будет дальше. Мониторить ситуацию можно здесь: https://www.kaggle.com/alexryzhkov/lightautoml-interpretable-model-autowoe


#правила
Давайте постараемся вести данный канал (и связанную с ним группу) следующим образом:
- В данном канале будут появляться важные объявления и анонсы, а также ответы на основные вопросы
- Задавать вопросы можно в связанной группе (она доступна по кнопке "Комментировать" под данным сообщением или по ссылке https://t.me/joinchat/WQDt8U7hZGJlMTgy)


#установка
pip install -U lightautoml



13 ta oxirgi post ko‘rsatilgan.

137

obunachilar
Kanal statistikasi