Сегодня я расскажу про основные инструменты для анализа данных и для построения моделей машинного обучения на Python.
Начнём мы с библиотеки Pandas, эта самая популярная библиотека для анализа табличных данных, то есть данных состоящих из строк и столбцов. С ней приходится иметь дело практически всем, кто занимается анализом данных на Python.
Следующие 2 библиотеки это Numpy и SciPy. В них реализованы различные математические операции которые вам могут пригодиться. Например, нормализация массива для использования его как фичи для обучения ML алгоритма или расчёт p-value для проверки статистической значимости результатов A/B теста.
Для того что бы показать результаты анализа данных более наглядно их визуализируют. Для Python существуют 3 популярные библиотеки для визуализации это Matplotlib, Seaborn и Plotly. Я лично пользуюсь Matplotlib, так как привык к ней.
Теперь переходим к фреймворкам, которые содержат алгоритмы машинного обучения. Если вы собираетесь использовать классические алгоритмы машинного обучения, то вам нужно использовать scikit-learn. Ну а если вы собираетесь использовать deep learning алгоритмы, то тут существуют 2 популярных фреймворка. Это PyTorch и TensorFlow. Какой из них лучше это холиварный вопрос и поэтому можете попробовать оба и решить, что для вас удобнее.
Если вы работаете с текстовыми данными, то для них существует библиотека SpaCy в которой есть предобученные ML модели для различных NLP задач. Например для sentiment analysis или named entity recognition. А если вы собираетесь заниматься задачами компьютерного зрения, то для них есть библиотека open cv.
И последнии 2 темы, которые я хотел бы обсудить это развертывание ML моделей в production и скрапинг (парсинг данных из интернета для создания датасетов). Для первой задачи можно использовать web сервера Flask и Fast API, а для второй - HTML парсер BeautifulSoup вместе с библиотекой для создания http запросов Requests.
Друзья, напишите в комментариях что вы из этого вы уже использовали, что было новое и полезное и что ещё можно было бы добавить в этот список. А так же поделитесь этим списком с теми, кому он может быть полезен.
Ну а если вы изучаете data science, то я могу быть вашим ментором пока вы не достигнете своей цели. Записывайтесь на бесплатную консультацию по ссылке:
https://bit.ly/3D7XheU