DecodingTrust: A comprehensive assessment of trustworthiness in GPT models
Wang, W. Chen, H. Pei, C. Xie, M. Kang, C. Zhang, C. Xu, Z. Xiong, R. Dutta, R. Schaeffer et al
NeurIPS, 2023.
🔗https://arxiv.org/pdf/2306.11698
#иб_для_ml
110-страничный фреймворк по безопасности LLM (из которого 48 страниц - источники и приложения
➖GPT-4, как правило, более склонен к токсичности (из-за джейлбрейка), чем GPT-3.5, из-за более точного следования инструкциям.
➖Выявлено, что GPT-4 более уязвим к манипуляциям через инъекции из-за точного следования инструкциям.
➖GPT-4 продемонстрировал лучшую защиту от утечек персональной информации по сравнению с GPT-3.5, но все равно не идеальную
➖Представили бенчмарк AdvGLUE++ для оценки устойчивости LLM к атакам. Выводов по нему тоже много, например, такой: атаки, пускай, на модели GPT-3.5 и GPT-4, созданные с использованием других моделей, таких как Alpaca-7B, могут успешно передаваться и воздействовать на целевые.
И в целом объем инфы невероятный, целая книга по факту
Wang, W. Chen, H. Pei, C. Xie, M. Kang, C. Zhang, C. Xu, Z. Xiong, R. Dutta, R. Schaeffer et al
NeurIPS, 2023.
🔗https://arxiv.org/pdf/2306.11698
#иб_для_ml
110-страничный фреймворк по безопасности LLM (из которого 48 страниц - источники и приложения
➖GPT-4, как правило, более склонен к токсичности (из-за джейлбрейка), чем GPT-3.5, из-за более точного следования инструкциям.
➖Выявлено, что GPT-4 более уязвим к манипуляциям через инъекции из-за точного следования инструкциям.
➖GPT-4 продемонстрировал лучшую защиту от утечек персональной информации по сравнению с GPT-3.5, но все равно не идеальную
➖Представили бенчмарк AdvGLUE++ для оценки устойчивости LLM к атакам. Выводов по нему тоже много, например, такой: атаки, пускай, на модели GPT-3.5 и GPT-4, созданные с использованием других моделей, таких как Alpaca-7B, могут успешно передаваться и воздействовать на целевые.
И в целом объем инфы невероятный, целая книга по факту