Как в Google делают эффективную коррекцию опечаток. Разбор статьи
Команда Google Bard, в своей статье EdiT5: Semi-Autoregressive Text Editing with T5 Warm-Start c EMNLP 2022 представила модель EdiT5, которая сейчас используется в Google Search для исправления грамматических ошибок (GEC).
Модификация классики: EdiT5 также использует концепцию Seq2Seq трансформера T5, но адаптируется для задачи редактирования текста вместо обычного принципа перевода.
Задача редактирования текста: Мы исправляем только то, что считаем ошибкой, не трогая уже существующий текст и не перегенерируя его целиком.
Принцип работы модели: Редактирование позволяет EdiT5 не работать исключительно авторегрессионно. Это возможно благодаря энкодеру, работающему как pointer network, выбирающему какие токены удалить или сохранть в черновик. Декодер активируется только для добавления недостающих токенов и указания их позиций, для создания финального ответа из черновка. Для эффективности декодер уменьшают до одного слоя и компенцируют это за счет увеличения размера энкодера, что значительно снижает задержку благодаря эффективной параллелизации работы энкодера.
Качество работы: Эксперименты на публичном бенчмарке BEA для коррекции грамматических ошибок показали, что EdiT5-large с 391M параметров демонстрирует более высокую точность коррекций по F0.5 и 9-кратное ускорение по сравнению с базовой моделью T5.
Улучшение обучающих данных с помощью LLM: Для повышения точности EdiT5 используется метод hard distillation. Сначала обучается LLM учитель на исходном датасете созданном людьми , затем учитель используется для генерации обучающих данных для ученика EdiT5. Интересным наблюдением является то, что так исследователи исправляют несовершенство исходного датасета, переделывая его с помощью LLM. Кроме того, они сделали дополнительное переобучение учителя и итеративно улучшали качество псевдо-лейблинга.
Благодаря всему вышесказанному, EdiT5 буквально ставит новый стандарт эффективности в задаче GEC. Но кода и весов в открытом доступе, к сожалению, нет.
Команда Google Bard, в своей статье EdiT5: Semi-Autoregressive Text Editing with T5 Warm-Start c EMNLP 2022 представила модель EdiT5, которая сейчас используется в Google Search для исправления грамматических ошибок (GEC).
Модификация классики: EdiT5 также использует концепцию Seq2Seq трансформера T5, но адаптируется для задачи редактирования текста вместо обычного принципа перевода.
Задача редактирования текста: Мы исправляем только то, что считаем ошибкой, не трогая уже существующий текст и не перегенерируя его целиком.
Принцип работы модели: Редактирование позволяет EdiT5 не работать исключительно авторегрессионно. Это возможно благодаря энкодеру, работающему как pointer network, выбирающему какие токены удалить или сохранть в черновик. Декодер активируется только для добавления недостающих токенов и указания их позиций, для создания финального ответа из черновка. Для эффективности декодер уменьшают до одного слоя и компенцируют это за счет увеличения размера энкодера, что значительно снижает задержку благодаря эффективной параллелизации работы энкодера.
Качество работы: Эксперименты на публичном бенчмарке BEA для коррекции грамматических ошибок показали, что EdiT5-large с 391M параметров демонстрирует более высокую точность коррекций по F0.5 и 9-кратное ускорение по сравнению с базовой моделью T5.
Улучшение обучающих данных с помощью LLM: Для повышения точности EdiT5 используется метод hard distillation. Сначала обучается LLM учитель на исходном датасете созданном людьми , затем учитель используется для генерации обучающих данных для ученика EdiT5. Интересным наблюдением является то, что так исследователи исправляют несовершенство исходного датасета, переделывая его с помощью LLM. Кроме того, они сделали дополнительное переобучение учителя и итеративно улучшали качество псевдо-лейблинга.
Благодаря всему вышесказанному, EdiT5 буквально ставит новый стандарт эффективности в задаче GEC. Но кода и весов в открытом доступе, к сожалению, нет.