dataset trustpilot.png
Привет, ребята!
У меня идёт двухнедельный спринт, который должен завершиться в эту пятницу, и после этого я расскажу о нем больше. А пока напишу немного о проекте, над которым мы работаем в команде.
Цель проекта - извлечь информацию из отзывов о компании(или продукте) на сайтах, таких как Trustpilot, и использовать эту информацию для обучения модели машинного обучения. После обучения модель должна будет выполнять три основные задачи:
1. Классификация и оценка удовлетворенности: Определение уровня удовлетворенности клиентов на основе текста отзыва (в идеале, на любом сайте) путем присвоения рейтинговой оценки (количество звезд).
2. Идентификация ключевых аспектов отзывов: Классификация отзывов по категориям, таким как проблемы с доставкой, качество продукта, обслуживание клиентов и т.д.
3. Выявление конкретных проблем и предложений: Анализ отзывов на предмет конкретных вопросов или предложений по улучшению.
Что мы успели сделать за первую неделю:
У нас не было датасета, и задача проекта также была сформулирована довольно обще, поэтому мы долго не могли определиться, какой датасет мы хотим собрать и с ним потом работать. В конечном итоге мы решили взять 5 крупных онлайн-маркетплейсов на TrustPilot с общим количеством отзывов в 500.000 (смотреть скрин к посту). Мы спарсили все отзывы и хотим проанализировать каждый датасет на наличие каких-то закономерностей до четверга (созвон с ментором).
Я написал скрипт, который двое суток скрейпил все полмиллиона отзывов с одного IP, обходя блокировки Trustpilot. Получил дикое удовольствие от написания скрипта и его улучшения. Прикольно видеть слабости своего алгоритма и думать, как его можно улучшить и сделать удобнее.
Вот такие дела :)
Желаю всем продуктивной недели (их кстати всего 3 в этом году осталось), а если хочется спросить/узнать что-то, то всегда вэлком в комментарии.
P.S.: Спасибо за комменты к предыдущему посту про IDE. Я решил пока продолжить пользоваться PyCharm, но чаще открывать VS Code и там тоже кодить, что-то запускать + думаю CoPilot приобрести.
У меня идёт двухнедельный спринт, который должен завершиться в эту пятницу, и после этого я расскажу о нем больше. А пока напишу немного о проекте, над которым мы работаем в команде.
Цель проекта - извлечь информацию из отзывов о компании(или продукте) на сайтах, таких как Trustpilot, и использовать эту информацию для обучения модели машинного обучения. После обучения модель должна будет выполнять три основные задачи:
1. Классификация и оценка удовлетворенности: Определение уровня удовлетворенности клиентов на основе текста отзыва (в идеале, на любом сайте) путем присвоения рейтинговой оценки (количество звезд).
2. Идентификация ключевых аспектов отзывов: Классификация отзывов по категориям, таким как проблемы с доставкой, качество продукта, обслуживание клиентов и т.д.
3. Выявление конкретных проблем и предложений: Анализ отзывов на предмет конкретных вопросов или предложений по улучшению.
Что мы успели сделать за первую неделю:
У нас не было датасета, и задача проекта также была сформулирована довольно обще, поэтому мы долго не могли определиться, какой датасет мы хотим собрать и с ним потом работать. В конечном итоге мы решили взять 5 крупных онлайн-маркетплейсов на TrustPilot с общим количеством отзывов в 500.000 (смотреть скрин к посту). Мы спарсили все отзывы и хотим проанализировать каждый датасет на наличие каких-то закономерностей до четверга (созвон с ментором).
Я написал скрипт, который двое суток скрейпил все полмиллиона отзывов с одного IP, обходя блокировки Trustpilot. Получил дикое удовольствие от написания скрипта и его улучшения. Прикольно видеть слабости своего алгоритма и думать, как его можно улучшить и сделать удобнее.
Вот такие дела :)
Желаю всем продуктивной недели (их кстати всего 3 в этом году осталось), а если хочется спросить/узнать что-то, то всегда вэлком в комментарии.
P.S.: Спасибо за комменты к предыдущему посту про IDE. Я решил пока продолжить пользоваться PyCharm, но чаще открывать VS Code и там тоже кодить, что-то запускать + думаю CoPilot приобрести.