Оценка доверия языковых моделей: Исследование DecodingTrust выявляет потенциальные риски
Недавно исследовательская команда, состоящая из нескольких известных университетов и исследовательских институтов, опубликовала комплексное исследование по оценке надежности крупных языковых моделей (LLMs). Это исследование направлено на всестороннюю оценку надежности генеративной предобученной трансформерной модели (GPT) и выявило некоторые ранее не раскрытые уязвимости.
Исследования показывают, что модели GPT легко вводятся в заблуждение, производя вредные и предвзятые результаты, а также могут раскрывать конфиденциальную информацию из обучающих данных и истории диалогов. Интересно, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных бенчмарках, он оказывается более уязвимым при столкновении с системами или подсказками, разработанными с умыслом. Это может быть связано с тем, что GPT-4 более точно следует вводящим в заблуждение инструкциям.
Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая ее способность адаптироваться в условиях противодействия. Например, для оценки устойчивости GPT-3.5 и GPT-4 к текстовым атакам на устойчивость команда разработала три сценария оценки, включая стандартные эталонные тесты, производительность в условиях различных инструкций по заданиям и реакцию на более сложные противодействующие тексты.
Исследование выявило несколько интересных явлений. В отношении устойчивости моделей к противостоящим демонстрациям, GPT-3.5 и GPT-4 не поддаются заблуждениям, вызванным контрфактическими примерами, но предоставление демонстраций по борьбе с мошенничеством может привести к тому, что они сделают неправильные прогнозы на контрфактические входы. Что касается токсичности и предвзятости, обе модели в благоприятной среде имеют небольшие отклонения по большинству тем стереотипов, но под вводящими в заблуждение системными подсказками обе могут быть склонны соглашаться с предвзятым содержанием.
Что касается проблемы утечки конфиденциальности, исследования показывают, что модель GPT может раскрывать чувствительную информацию из тренировочных данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. Хотя GPT-4 более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, обе модели демонстрируют схожие результаты в защите определенных типов личной информации.
Это исследование предоставляет всесторонний взгляд на оценку надежности языковых моделей и выявляет потенциальные уязвимости безопасности. Исследовательская группа надеется, что эта работа сможет привлечь больше исследователей к совместным усилиям по созданию более мощных и надежных моделей. Для содействия сотрудничеству они открыли код для оценки, обеспечив его хорошую масштабируемость и простоту использования.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
23 Лайков
Награда
23
8
Поделиться
комментарий
0/400
StableGeniusDegen
· 07-17 07:43
Снова GPT4 небезопасен, понял.
Посмотреть ОригиналОтветить0
AirdropChaser
· 07-16 16:24
Не пугай моего GPT, хорошо?
Посмотреть ОригиналОтветить0
SchrodingerWallet
· 07-15 15:28
Снова начинаешь изучать это? Сначала изучи мой Аирдроп!
Посмотреть ОригиналОтветить0
FlashLoanKing
· 07-14 08:13
Уязвимость это Кошелек
Посмотреть ОригиналОтветить0
GasWaster69
· 07-14 08:12
Есть дыры, чтобы играть, gm
Посмотреть ОригиналОтветить0
MrRightClick
· 07-14 08:08
Эх, ai все-таки немного подводит.
Посмотреть ОригиналОтветить0
MetaverseLandlord
· 07-14 07:46
Почему так много уязвимостей? Это пугает человека.
DecodingTrust: Оценка доверия больших языковых моделей выявляет потенциальные риски
Оценка доверия языковых моделей: Исследование DecodingTrust выявляет потенциальные риски
Недавно исследовательская команда, состоящая из нескольких известных университетов и исследовательских институтов, опубликовала комплексное исследование по оценке надежности крупных языковых моделей (LLMs). Это исследование направлено на всестороннюю оценку надежности генеративной предобученной трансформерной модели (GPT) и выявило некоторые ранее не раскрытые уязвимости.
Исследования показывают, что модели GPT легко вводятся в заблуждение, производя вредные и предвзятые результаты, а также могут раскрывать конфиденциальную информацию из обучающих данных и истории диалогов. Интересно, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных бенчмарках, он оказывается более уязвимым при столкновении с системами или подсказками, разработанными с умыслом. Это может быть связано с тем, что GPT-4 более точно следует вводящим в заблуждение инструкциям.
Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая ее способность адаптироваться в условиях противодействия. Например, для оценки устойчивости GPT-3.5 и GPT-4 к текстовым атакам на устойчивость команда разработала три сценария оценки, включая стандартные эталонные тесты, производительность в условиях различных инструкций по заданиям и реакцию на более сложные противодействующие тексты.
Исследование выявило несколько интересных явлений. В отношении устойчивости моделей к противостоящим демонстрациям, GPT-3.5 и GPT-4 не поддаются заблуждениям, вызванным контрфактическими примерами, но предоставление демонстраций по борьбе с мошенничеством может привести к тому, что они сделают неправильные прогнозы на контрфактические входы. Что касается токсичности и предвзятости, обе модели в благоприятной среде имеют небольшие отклонения по большинству тем стереотипов, но под вводящими в заблуждение системными подсказками обе могут быть склонны соглашаться с предвзятым содержанием.
Что касается проблемы утечки конфиденциальности, исследования показывают, что модель GPT может раскрывать чувствительную информацию из тренировочных данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. Хотя GPT-4 более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, обе модели демонстрируют схожие результаты в защите определенных типов личной информации.
Это исследование предоставляет всесторонний взгляд на оценку надежности языковых моделей и выявляет потенциальные уязвимости безопасности. Исследовательская группа надеется, что эта работа сможет привлечь больше исследователей к совместным усилиям по созданию более мощных и надежных моделей. Для содействия сотрудничеству они открыли код для оценки, обеспечив его хорошую масштабируемость и простоту использования.