🔥Unsupervised Speech Recognition — как распознавать речь совсем без разметки
Это совместная статья от Google и Facebook, где для обучения используются два никак не связанных между собой датасета аудио и текста.
Step-by-step:
1. Заранее учим self-supervised wav2vec выдавать эмбеддинги для аудио (что-то типа берта для звука).
2. Разбиваем аудио на фрагменты и на каждой итерации кластеризуем их эмбеддинги (потом окажется, что один кластер - это одна фонема).
3. Учим GAN по этим кластерам генерировать хоть какой-то текст, пока дискриминатор учится отличать этот текст от реального.
5. Накладываем diversity-loss (максимизируем энтропию генератора).
6. Обнаруживаем, что GAN переводит речь в текст!
В итоге у них лучший результат на unsupervised бенчмарках и почти лучший на supervised.
Статья, GitHub
P.S. Так можно даже инопланетную речь научиться распознавать 👽
Это совместная статья от Google и Facebook, где для обучения используются два никак не связанных между собой датасета аудио и текста.
Step-by-step:
1. Заранее учим self-supervised wav2vec выдавать эмбеддинги для аудио (что-то типа берта для звука).
2. Разбиваем аудио на фрагменты и на каждой итерации кластеризуем их эмбеддинги (потом окажется, что один кластер - это одна фонема).
3. Учим GAN по этим кластерам генерировать хоть какой-то текст, пока дискриминатор учится отличать этот текст от реального.
5. Накладываем diversity-loss (максимизируем энтропию генератора).
6. Обнаруживаем, что GAN переводит речь в текст!
В итоге у них лучший результат на unsupervised бенчмарках и почти лучший на supervised.
Статья, GitHub
P.S. Так можно даже инопланетную речь научиться распознавать 👽