🔥
Unsupervised Speech Recognition — как распознавать речь совсем без разметкиЭто совместная статья от Google и Facebook, где для обучения используются два никак не связанных между собой датасета аудио и текста.
Step-by-step: 1. Заранее учим self-supervised
wav2vec выдавать эмбеддинги для аудио (что-то типа берта для звука).
2. Разбиваем аудио на фрагменты и на каждой итерации кластеризуем их эмбеддинги (потом окажется, что один кластер - это одна фонема).
3. Учим GAN по этим кластерам генерировать хоть какой-то текст, пока дискриминатор учится отличать этот текст от реального.
5. Накладываем diversity-loss (максимизируем энтропию генератора).
6. Обнаруживаем, что GAN переводит речь в текст!
В итоге у них лучший результат на unsupervised бенчмарках и почти лучший на supervised.
Статья,
GitHubP.S. Так можно даже инопланетную речь научиться распознавать 👽