#19 post — NLP Wanderer (@nlpwanderer)

TGStat

Qidiruv uchun matnni kiriting

Ilg‘or kanal qidiruvi

Uzbek

Sayt tili

Russian English Uzbek
Saytga kirish

Katalog

Kanal va guruhlar katalogi Kanallar qidiruvi
Kanal/guruh qo‘shish
Reytinglar

Kanallar reytingi Guruhlar reytingi Postlar reytingi
Brendlar va shaxslar reytingi
Analitika
Postlarda qidiruv
Telegram'ni kuzatish

NLP Wanderer

18 Feb, 13:01

Telegram'da ochish Ulashish Shikoyat qilish

Как в Google делают эффективную коррекцию опечаток. Разбор статьи

Команда Google Bard, в своей статье EdiT5: Semi-Autoregressive Text Editing with T5 Warm-Start c EMNLP 2022 представила модель EdiT5, которая сейчас используется в Google Search для исправления грамматических ошибок (GEC).

Модификация классики: EdiT5 также использует концепцию Seq2Seq трансформера T5, но адаптируется для задачи редактирования текста вместо обычного принципа перевода.

Задача редактирования текста: Мы исправляем только то, что считаем ошибкой, не трогая уже существующий текст и не перегенерируя его целиком.

Принцип работы модели: Редактирование позволяет EdiT5 не работать исключительно авторегрессионно. Это возможно благодаря энкодеру, работающему как pointer network, выбирающему какие токены удалить или сохранть в черновик. Декодер активируется только для добавления недостающих токенов и указания их позиций, для создания финального ответа из черновка. Для эффективности декодер уменьшают до одного слоя и компенцируют это за счет увеличения размера энкодера, что значительно снижает задержку благодаря эффективной параллелизации работы энкодера.

Качество работы: Эксперименты на публичном бенчмарке BEA для коррекции грамматических ошибок показали, что EdiT5-large с 391M параметров демонстрирует более высокую точность коррекций по F0.5 и 9-кратное ускорение по сравнению с базовой моделью T5.

Улучшение обучающих данных с помощью LLM: Для повышения точности EdiT5 используется метод hard distillation. Сначала обучается LLM учитель на исходном датасете созданном людьми , затем учитель используется для генерации обучающих данных для ученика EdiT5. Интересным наблюдением является то, что так исследователи исправляют несовершенство исходного датасета, переделывая его с помощью LLM. Кроме того, они сделали дополнительное переобучение учителя и итеративно улучшали качество псевдо-лейблинга.

Благодаря всему вышесказанному, EdiT5 буквально ставит новый стандарт эффективности в задаче GEC. Но кода и весов в открытом доступе, к сожалению, нет.

67 0 4 2

Katalog

Kanal va guruhlar katalogi Kanallar to‘plamlari Kanallar qidiruvi Kanal/guruh qo‘shish

Reytinglar

Telegram-kanallar reytingi Telegram-guruhlar reytingi Postlar reytingi Brendlar va shaxslar reytingi

API

Statistika API'si Postlar qidiruvi API'si API Callback

Kanallarimiz

@TGStat @TGStat_Chat @telepulse @TGStatAPI

O‘qish

Blogimiz Telegram tadqiqoti 2019 Telegram tadqiqoti 2021 Telegram tadqiqoti 2023

Kontaktlar

Qo‘llab-quvvatlash Email Vakansiyalar

Har xil narsalar

Foydalanuvchi shartnomasi Maxfiylik siyosati Ommaviy oferta

Botlarimiz

@TGStat_Bot @SearcheeBot @TGAlertsBot @tg_analytics_bot @TGStatChatBot

Sayt tili