Оцінка надійності мовних моделей: Дослідження DecodingTrust виявляє потенційні ризики
Нещодавно дослідницька команда, що складається з кількох відомих університетів та наукових установ, опублікувала комплексне дослідження щодо надійності великих мовних моделей (LLMs). Це дослідження має на меті всебічно оцінити надійність генеративної попередньо навченої моделі трансформера (GPT) та виявило деякі раніше не опубліковані пов'язані вразливості.
Дослідження показують, що моделі GPT легко піддаються дезінформації, генеруючи шкідливі та упереджені результати, а також можуть розкривати конфіденційну інформацію з навчальних даних та історії діалогів. Цікаво, що, хоча GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у стандартних бенчмарках, в умовах зловмисно створених систем або запитів від користувачів, GPT-4 насправді є більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 точніше виконує оманливі інструкції.
Дослідницька команда провела всебічну оцінку моделі GPT з восьми різних точок зору, включаючи її здатність адаптуватися в умовах протистояння. Наприклад, для оцінки стійкості GPT-3.5 та GPT-4 до текстових атак у протистоянні команда розробила три сценарії оцінки, включаючи стандартні бенчмарки, результати під різними інструкціями завдань та реакцію на більш складні текстові атаки.
Дослідження виявило деякі цікаві явища. Щодо стійкості моделей до антагоністичних демонстрацій, GPT-3.5 та GPT-4 не піддаються омані контрфактичними прикладами, але надання демонстрацій для боротьби з шахрайством може призвести до того, що вони зроблять помилкові прогнози на контрфактичні введення. Щодо токсичності та упередження, обидві моделі мають незначні відхилення від більшості тем стереотипів у доброчинному середовищі, але під впливом оманливих системних підказок можуть бути спровоковані погодитися з упередженим змістом.
Щодо проблеми витоку конфіденційності, дослідження показали, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може значно підвищити точність витягування інформації. Хоча GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, обидві моделі демонструють схожі результати в захисті певних типів особистої інформації.
Це дослідження надає всебічний погляд на оцінку надійності мовних моделей, виявляючи потенційні вразливості безпеки. Дослідницька група сподівається, що ця робота зможе залучити більше дослідників до спільних зусиль для створення потужніших і надійніших моделей. Для сприяння співпраці вони оприлюднили код оцінювання, що забезпечує хорошу масштабованість і зручність використання.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
23 лайків
Нагородити
23
8
Поділіться
Прокоментувати
0/400
StableGeniusDegen
· 07-17 07:43
Знову GPT4 небезпечний, зрозумів.
Переглянути оригіналвідповісти на0
AirdropChaser
· 07-16 16:24
Не лякай мого GPT, га!
Переглянути оригіналвідповісти на0
SchrodingerWallet
· 07-15 15:28
Знову починаєш досліджувати це? Спочатку вивчи мій Аірдроп!
Переглянути оригіналвідповісти на0
FlashLoanKing
· 07-14 08:13
Вразливість — це гаманець
Переглянути оригіналвідповісти на0
GasWaster69
· 07-14 08:12
Є дірки, з якими можна грати, gm
Переглянути оригіналвідповісти на0
MrRightClick
· 07-14 08:08
Ех, ai все ж трохи підводить.
Переглянути оригіналвідповісти на0
MetaverseLandlord
· 07-14 07:46
Чому так багато вразливостей безпеки? Це ж страшно!
DecodingTrust: оцінка надійності великих мовних моделей виявляє потенційні ризики
Оцінка надійності мовних моделей: Дослідження DecodingTrust виявляє потенційні ризики
Нещодавно дослідницька команда, що складається з кількох відомих університетів та наукових установ, опублікувала комплексне дослідження щодо надійності великих мовних моделей (LLMs). Це дослідження має на меті всебічно оцінити надійність генеративної попередньо навченої моделі трансформера (GPT) та виявило деякі раніше не опубліковані пов'язані вразливості.
Дослідження показують, що моделі GPT легко піддаються дезінформації, генеруючи шкідливі та упереджені результати, а також можуть розкривати конфіденційну інформацію з навчальних даних та історії діалогів. Цікаво, що, хоча GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у стандартних бенчмарках, в умовах зловмисно створених систем або запитів від користувачів, GPT-4 насправді є більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 точніше виконує оманливі інструкції.
Дослідницька команда провела всебічну оцінку моделі GPT з восьми різних точок зору, включаючи її здатність адаптуватися в умовах протистояння. Наприклад, для оцінки стійкості GPT-3.5 та GPT-4 до текстових атак у протистоянні команда розробила три сценарії оцінки, включаючи стандартні бенчмарки, результати під різними інструкціями завдань та реакцію на більш складні текстові атаки.
Дослідження виявило деякі цікаві явища. Щодо стійкості моделей до антагоністичних демонстрацій, GPT-3.5 та GPT-4 не піддаються омані контрфактичними прикладами, але надання демонстрацій для боротьби з шахрайством може призвести до того, що вони зроблять помилкові прогнози на контрфактичні введення. Щодо токсичності та упередження, обидві моделі мають незначні відхилення від більшості тем стереотипів у доброчинному середовищі, але під впливом оманливих системних підказок можуть бути спровоковані погодитися з упередженим змістом.
Щодо проблеми витоку конфіденційності, дослідження показали, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може значно підвищити точність витягування інформації. Хоча GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, обидві моделі демонструють схожі результати в захисті певних типів особистої інформації.
Це дослідження надає всебічний погляд на оцінку надійності мовних моделей, виявляючи потенційні вразливості безпеки. Дослідницька група сподівається, що ця робота зможе залучити більше дослідників до спільних зусиль для створення потужніших і надійніших моделей. Для сприяння співпраці вони оприлюднили код оцінювання, що забезпечує хорошу масштабованість і зручність використання.