Forward from: Сиолошная
LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS
Принято считать, что LLM часто галлюцинируют, и вообще у них большие проблемы с фактической информацией. Вот если GPT-4 мне ответит: «...и Эйфелева башня, открытая в 20м веке, обязательны к посещению» — я должен проверять период открытия? Наверное, да — уже не одна сотня людей на подобном погорела (вспомните случай с адвокатом).
Сотрудники DeepMind решили подойти к вопросу более системно и исследовать вопрос: могут ли модели текущего поколения успешно перепроверять сами себя при условии наличия доступа к гуглу? Для тех, кому лень читать, краткие выводы:
1) LLM ЛУЧШЕ ЛЮДЕЙ в перепроверке информации
2) LLM в 20 раз дешевле ручной валидации фактов
3) (конечно же) бОльшие модели лучше (косой взгляд в сторону тех, кто использует GPT-3.5)
4) GPT-4-Turbo значимо лучше остальных моделей
===
Сначала авторы генерируют 2280 относительно длинных ответов модели, запромченной упоминать как можно больше фактов - на этой выборке будут производиться замеры. Для того, чтобы перевалидировать текст, предлагается следующая многоступенчатая схема:
1) разбить текст на отдельные факты
2) сделать каждый факт самодостаточным и атомарным (например, заменив местоимения «она» на «Эйфелева башня»)
3) для каждого факта проверить релевантность оригинальному запросу
4) наконец, запустить агента в интернет с целью проверки каждого атомарного факта. Такой агент сам пишет запросы, сам открывает и читает страницы, сам может найти противоречие между разными источниками и в теории определить, какой более приоритетен
(и для всех пунктов, конечно же, используются LLM - никаких людей)
Такой пайплайн авторы называли SAFE (Search-Augmented Factuality Evaluator). На своём датасете они тоже метрики меряют, но отдельно сравнивают с людьми на датасете, созданном в рамках одной из прошлых работ в 2023м году. Там ~500 промптов, в ответах на которые выделено 16k фактов. Для каждого живой человек искал подтверждение, правда, только в рамках Википедии, а не во всем интернете.
В 72% случаев SAFE выдаёт тот же ответ, что и человек (то есть соглашается, что факт либо правильный, либо неправильный). «Пффф! ошибается в четверти случаев» — скажут одни. «Ща мы тут проверим, кто ошибается» — отвечают авторы. Затем они берут 100 примеров, где ответы модели и людей отличаются, и перепроверяют уже сами, глядя на результат. Оказывается, в 76% случаев они согласны с моделью — просто люди либо ошиблись, либо у них не было всего контекста (вне Википедии).
Код с промптами: тут и тут (разные папки одного репозитория, мб ещё где-то есть)
Принято считать, что LLM часто галлюцинируют, и вообще у них большие проблемы с фактической информацией. Вот если GPT-4 мне ответит: «...и Эйфелева башня, открытая в 20м веке, обязательны к посещению» — я должен проверять период открытия? Наверное, да — уже не одна сотня людей на подобном погорела (вспомните случай с адвокатом).
Сотрудники DeepMind решили подойти к вопросу более системно и исследовать вопрос: могут ли модели текущего поколения успешно перепроверять сами себя при условии наличия доступа к гуглу? Для тех, кому лень читать, краткие выводы:
1) LLM ЛУЧШЕ ЛЮДЕЙ в перепроверке информации
2) LLM в 20 раз дешевле ручной валидации фактов
3) (конечно же) бОльшие модели лучше (косой взгляд в сторону тех, кто использует GPT-3.5)
4) GPT-4-Turbo значимо лучше остальных моделей
===
Сначала авторы генерируют 2280 относительно длинных ответов модели, запромченной упоминать как можно больше фактов - на этой выборке будут производиться замеры. Для того, чтобы перевалидировать текст, предлагается следующая многоступенчатая схема:
1) разбить текст на отдельные факты
2) сделать каждый факт самодостаточным и атомарным (например, заменив местоимения «она» на «Эйфелева башня»)
3) для каждого факта проверить релевантность оригинальному запросу
4) наконец, запустить агента в интернет с целью проверки каждого атомарного факта. Такой агент сам пишет запросы, сам открывает и читает страницы, сам может найти противоречие между разными источниками и в теории определить, какой более приоритетен
(и для всех пунктов, конечно же, используются LLM - никаких людей)
Такой пайплайн авторы называли SAFE (Search-Augmented Factuality Evaluator). На своём датасете они тоже метрики меряют, но отдельно сравнивают с людьми на датасете, созданном в рамках одной из прошлых работ в 2023м году. Там ~500 промптов, в ответах на которые выделено 16k фактов. Для каждого живой человек искал подтверждение, правда, только в рамках Википедии, а не во всем интернете.
В 72% случаев SAFE выдаёт тот же ответ, что и человек (то есть соглашается, что факт либо правильный, либо неправильный). «Пффф! ошибается в четверти случаев» — скажут одни. «Ща мы тут проверим, кто ошибается» — отвечают авторы. Затем они берут 100 примеров, где ответы модели и людей отличаются, и перепроверяют уже сами, глядя на результат. Оказывается, в 76% случаев они согласны с моделью — просто люди либо ошиблись, либо у них не было всего контекста (вне Википедии).
Код с промптами: тут и тут (разные папки одного репозитория, мб ещё где-то есть)