Если вы когда-нибудь захотите с нуля решить задачу тегирования текстов (типа NER), плюс-минус стандартный рецепт такой:
- Попробовать бейзлайн, основанный на словаре (для быстрого поиска большого количества подстрок в тексте удобно использовать pyahocorasick);
- Если словаря вам мало мало, разметить данные для ML можно в бесплатном labelstudio;
- Пофайнтюнить на этой разметке BERT или другой трансформер для вашего языка, примерно как в этом блокноте.
- Попробовать бейзлайн, основанный на словаре (для быстрого поиска большого количества подстрок в тексте удобно использовать pyahocorasick);
- Если словаря вам мало мало, разметить данные для ML можно в бесплатном labelstudio;
- Пофайнтюнить на этой разметке BERT или другой трансформер для вашего языка, примерно как в этом блокноте.