Forward from: Data Secrets
Microsoft только что аннонсировали Сorrection – сервис для исправления галлюцинаций в ответах модели
В марте у компании появился сервис Groundedness detection, но он мог только обнаружить неточность в генерации, а не исправить ее. Сorrection – логичное продолжение этого проекта.
Пару слов из анонса о том, как correction работает: когда классификатор выявляет предложение или фразу, в которой LLM потенциально наврала, генерируется новый промпт, и с помощью RAG фраза проверяется на соответсвие базе знаний. Если модель в базе ничего похожего не найдет, то фраза просто удалится, а если найдет – то исправит.
Кстати, что-то похожее летом анонсировал Google, и тогда это вызвало целую волну обсуждений. Ос Кейес говорил, что пытаться удалить галлюцинации из LLM – это как пытаться удалить водород из воды: ведь модели не обучены говорить правду, они обучены предсказывать следующее слово. Иначе говоря, ответы модели — это не ответы, а всего лишь прогнозы того, как был бы дан ответ на вопрос, если бы он присутствовал в обучающей выборке.
Сейчас уже начались обсуждения того, что на самом деле Сorrection – вещь не просто бесполезная, но и опасная. Например, Майк Кук говорит так:
В марте у компании появился сервис Groundedness detection, но он мог только обнаружить неточность в генерации, а не исправить ее. Сorrection – логичное продолжение этого проекта.
Пару слов из анонса о том, как correction работает: когда классификатор выявляет предложение или фразу, в которой LLM потенциально наврала, генерируется новый промпт, и с помощью RAG фраза проверяется на соответсвие базе знаний. Если модель в базе ничего похожего не найдет, то фраза просто удалится, а если найдет – то исправит.
Кстати, что-то похожее летом анонсировал Google, и тогда это вызвало целую волну обсуждений. Ос Кейес говорил, что пытаться удалить галлюцинации из LLM – это как пытаться удалить водород из воды: ведь модели не обучены говорить правду, они обучены предсказывать следующее слово. Иначе говоря, ответы модели — это не ответы, а всего лишь прогнозы того, как был бы дан ответ на вопрос, если бы он присутствовал в обучающей выборке.
Сейчас уже начались обсуждения того, что на самом деле Сorrection – вещь не просто бесполезная, но и опасная. Например, Майк Кук говорит так:
"Функция может обнаружить некоторые ошибки, но она также может усыпить бдительность пользователей, заставив их думать, что модели оказываются правдивыми чаще, чем это есть на самом деле. Допустим, она даст 99% безопасности против 90% без нее. Но ведь проблема никогда не была в этих 9%. Она всегда будет в 1% ошибок, которые мы не обнаруживаем".