Репост из: Душа Питона
Повышаем безопасность ответов LLM
Cпособ опирается на использование предобученных моделей для оценки как промптов, так и возможных ответов.
Важно, что нет необходимости дополнительного файнтюнинга. Это делает метод экономически выгодным 💰
Как работает фреймворк:
🧐 отдельная модель-оценщик проверяет инпут и аутпут генерирующей модели и решает, является ли текст безопасным
☝️ попробовали метод во всех трёх возможных конфигурациях: проверялись только инпут, только аутпут, инпут и аутпут вместе
⛔️ если на каком-либо из этапов оценивающая модель характеризовала текст как небезопасный, генерация прекращалась (модель сообщала пользователю, что не может помочь с запросом)
Для эмпирических тестов метод сравнивали с популярным safety-классификатором LLaMA-Guard2* и API для модерации контента от OpenAI, Azure, Perspective.
Vicuna-7B_v1.5, LLaMA-2*, LLaMA-3*, GPT-4 в тестах использовались и как генераторы, и как оценщики. В качестве метрики взяли процент успешно сгенерированных вредоносных запросов 📊
Результаты:
🛡 использование отдельной модели для проверки безопасности существенно повышает надёжность. Например, для Vicuna-7B процент удачных генераций вредоносных текстов падал с 95% (без использования каких-либо safety-алгоритмов) почти до 0%.
🔄 этот способ лучше имеющихся на данный момент методов и коммерческих API (позволяет добиться сокращения процента генерируемых небезопасных ответов)
Изображение National University of Singapore
Cпособ опирается на использование предобученных моделей для оценки как промптов, так и возможных ответов.
Важно, что нет необходимости дополнительного файнтюнинга. Это делает метод экономически выгодным 💰
Как работает фреймворк:
🧐 отдельная модель-оценщик проверяет инпут и аутпут генерирующей модели и решает, является ли текст безопасным
☝️ попробовали метод во всех трёх возможных конфигурациях: проверялись только инпут, только аутпут, инпут и аутпут вместе
⛔️ если на каком-либо из этапов оценивающая модель характеризовала текст как небезопасный, генерация прекращалась (модель сообщала пользователю, что не может помочь с запросом)
Для эмпирических тестов метод сравнивали с популярным safety-классификатором LLaMA-Guard2* и API для модерации контента от OpenAI, Azure, Perspective.
Vicuna-7B_v1.5, LLaMA-2*, LLaMA-3*, GPT-4 в тестах использовались и как генераторы, и как оценщики. В качестве метрики взяли процент успешно сгенерированных вредоносных запросов 📊
Результаты:
🛡 использование отдельной модели для проверки безопасности существенно повышает надёжность. Например, для Vicuna-7B процент удачных генераций вредоносных текстов падал с 95% (без использования каких-либо safety-алгоритмов) почти до 0%.
🔄 этот способ лучше имеющихся на данный момент методов и коммерческих API (позволяет добиться сокращения процента генерируемых небезопасных ответов)
Изображение National University of Singapore