У меня на руках было 18 часов аудиозаписей, которые нужно было перевести в текст. Как расшифровать аудио в текст?
Можно заплатить
профессионалам.
Можно самому всё слушать и печатать, это сложная и долгая работа.
Я решил скормить аудио дорожки машине и исправить трудные для алгоритма слова руками в специальном редакторе.
Для текстов на английском языке есть совершенно космический редактор —
Descript. В нем редактируешь текст, а он при этом сам переставляет местами нужные куски аудио. Прорыв для редактуры подкастов, пока, к сожалению, для нас недоступный.
С поддержкой русского выбор немного сужается, но всё равно есть очень классные сервисы:
HappyScribe,
Trint,
SimonSays,
Sonix. Эти продукты отличаются моделью ценообразования и вниманием к деталям.
Эти сервисы не разрабывают алгоритмы распознавания речи. Я уверен, что они пользуются облачными API одного из крупных игроков — у гугла эта штука называется
Google Cloud Speech-to-Text. Практические идентичные решения есть у
Яндекса,
Амазона и
Microsoft.
По стоимости: расшифровка часа видеозвонка в
гугле стоит 2.16$, у
яндекса — 0.46$, а в
Sonix — от 5 до 10$ и он — самый дешевый из перечисленных сервисов. Для сравнения,
профессиональная расшифровка с русского — около 23$ за час.
Даже с крутым сервисом, работа заняла у меня больше 40 часов. Я сильно недооценил необходимый объем труда.