Data Secrets dan repost
LLM знают больше, чем показывают: исследование ученых из Техниона, Google Research и Apple
Оказывается, языковые модели в своих representations слоях (имеются в виду слои эмбеддингов) энкодят гораздо больше информации о "правдивости" ответов, чем затем выплевывают в генерации. Другими словами, модель знает больше, чем говорит: в том числе она как бы может знать, что неправа, или даже знать правильный ответ, но при этом все равно болтать чепуху.
Самое интересное: информация о правдивости (в статье это называется truthfulness information) содержится в определенных токенах. К тому же, ученые доказали, что можно предсказать "тип" ошибки, которую выдаст модель, опять же по ее внутренним representations. Они даже обучили классификатор на такую детекцию. Точность получилась вполне приемлемая.
Статья полностью – тут
Оказывается, языковые модели в своих representations слоях (имеются в виду слои эмбеддингов) энкодят гораздо больше информации о "правдивости" ответов, чем затем выплевывают в генерации. Другими словами, модель знает больше, чем говорит: в том числе она как бы может знать, что неправа, или даже знать правильный ответ, но при этом все равно болтать чепуху.
Самое интересное: информация о правдивости (в статье это называется truthfulness information) содержится в определенных токенах. К тому же, ученые доказали, что можно предсказать "тип" ошибки, которую выдаст модель, опять же по ее внутренним representations. Они даже обучили классификатор на такую детекцию. Точность получилась вполне приемлемая.
Статья полностью – тут