DecodingTrust:大規模言語モデルの信頼性評価が潜在的なリスクを明らかにする

robot
概要作成中

言語モデルの信頼性を評価する:DecodingTrust研究が潜在的リスクを明らかに

最近、多くの著名な大学や研究機関で構成される研究チームが、大型言語モデル(LLMs)の信頼性に関する包括的な評価研究を発表しました。この研究は、生成型事前学習transformerモデル(GPT)の信頼性を包括的に評価することを目的としており、これまで公開されていなかった関連の脆弱性がいくつか発見されました。

研究結果は、GPTモデルが誤解を受けやすく、有害で偏見に満ちた出力を生成する可能性があり、さらにトレーニングデータや対話履歴のプライバシー情報を漏洩する恐れがあることを示しています。興味深いことに、GPT-4は標準ベンチマークテストで通常GPT-3.5よりも信頼性が高いですが、悪意のある設計のシステムやユーザープロンプトに直面した場合、逆にGPT-4は攻撃を受けやすくなります。これは、GPT-4が誤解を招く指示に対してより正確に従っているためかもしれません。

研究チームは、対抗的な環境における適応能力を含む、8つの異なる視点からGPTモデルを包括的に評価しました。たとえば、GPT-3.5とGPT-4のテキスト対抗攻撃に対するロバスト性を評価するために、チームは標準ベンチマークテスト、異なる指導タスクの説明に基づくパフォーマンス、そしてより挑戦的な対抗テキストに直面したときの反応を含む3つの評価シナリオを設計しました。

研究ではいくつかの興味深い現象が発見されました。モデルの対抗的なデモに対するロバスト性において、GPT-3.5とGPT-4はどちらも反事実の例に惑わされることはありませんが、反詐欺デモを提供すると、反事実の入力に対して誤った予測をする可能性があります。有毒性と偏見に関しては、両方のモデルは良性の環境下でほとんどのステレオタイプのテーマに対する偏見が大きくありませんが、誤解を招くシステムプロンプトの下では、偏見のあるコンテンツに同意するように誘導される可能性があります。

プライバシー漏洩の問題に関する研究では、GPTモデルがトレーニングデータ内の敏感な情報、例えば電子メールアドレスを漏洩する可能性があることが示されています。特定のケースでは、補足的な知識を利用することで情報抽出の精度が大幅に向上することがあります。GPT-4は個人識別情報の保護においてGPT-3.5よりも堅牢ですが、特定のタイプの個人情報保護に関しては二つのモデルは類似した性能を示しています。

この研究は、言語モデルの信頼性評価に対する包括的な視点を提供し、潜在的なセキュリティの脆弱性を明らかにしました。研究チームは、この作業がより多くの研究者を参加させ、より強力で信頼性の高いモデルを共同で作り出すことを促進できることを望んでいます。協力を促進するために、彼らは評価基準コードを公開し、良好なスケーラビリティと使いやすさを持たせました。

GPT-2.85%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 8
  • 共有
コメント
0/400
StableGeniusDegenvip
· 07-17 07:43
またGPT4は安全でないことがわかりました
原文表示返信0
AirdropChaservip
· 07-16 16:24
うちのGPTを怖がらせないでね
原文表示返信0
SchrodingerWalletvip
· 07-15 15:28
またこれを研究し始めたの?まずは私のエアドロップを研究してみて!
原文表示返信0
FlashLoanKingvip
· 07-14 08:13
漏洞はウォレットです
原文表示返信0
GasWaster69vip
· 07-14 08:12
バグがあってこそ遊べる gm
原文表示返信0
MrRightClickvip
· 07-14 08:08
うーん、aiはやっぱり少し難しいね。
原文表示返信0
MetaverseLandlordvip
· 07-14 07:46
安全な脆弱性がこんなに多いなんて、驚いてしまう。
原文表示返信0
FarmToRichesvip
· 07-14 07:44
またバグを出してしまったね、チッ
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)