DecodingTrust: Penilaian keandalan model bahasa besar mengungkap risiko potensial

robot
Pembuatan abstrak sedang berlangsung

Menilai Keandalan Model Bahasa: Penelitian DecodingTrust Mengungkap Risiko Potensial

Baru-baru ini, sebuah tim penelitian yang terdiri dari beberapa universitas dan lembaga penelitian terkemuka meluncurkan penelitian komprehensif mengenai tingkat kepercayaan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh tingkat kepercayaan model transformer pralatih generatif (GPT) dan menemukan beberapa kerentanan terkait yang sebelumnya tidak dipublikasikan.

Hasil penelitian menunjukkan bahwa model GPT rentan terhadap kebingungan, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, GPT-4 justru lebih rentan terhadap serangan ketika menghadapi sistem atau prompt yang dirancang secara jahat. Ini mungkin karena GPT-4 lebih akurat mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi komprehensif terhadap model GPT dari delapan sudut yang berbeda, termasuk kemampuan beradaptasi di lingkungan yang bersifat adversarial. Sebagai contoh, untuk mengevaluasi ketahanan GPT-3.5 dan GPT-4 terhadap serangan teks yang bersifat adversarial, tim merancang tiga skenario evaluasi, termasuk pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta respons ketika menghadapi teks adversarial yang lebih menantang.

Penelitian menemukan beberapa fenomena menarik. Dalam hal ketahanan model terhadap demonstrasi adversarial, baik GPT-3.5 maupun GPT-4 tidak akan tersesat oleh contoh kontra-faktual, tetapi memberikan demonstrasi anti-penipuan dapat menyebabkan mereka membuat prediksi yang salah terhadap input kontra-faktual. Dalam hal toksisitas dan bias, kedua model menunjukkan bias yang tidak signifikan terhadap sebagian besar tema stereotip dalam lingkungan yang baik, tetapi di bawah petunjuk sistem yang menyesatkan, keduanya dapat dipicu untuk setuju dengan konten yang bias.

Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan mengungkapkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, menggunakan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Meskipun GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, kedua model menunjukkan kinerja yang serupa dalam perlindungan jenis informasi pribadi tertentu.

Penelitian ini memberikan perspektif komprehensif untuk penilaian kredibilitas model bahasa, mengungkapkan potensi celah keamanan. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk terlibat, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, mereka telah mempublikasikan kode referensi penilaian, sehingga memiliki skalabilitas dan kemudahan penggunaan yang baik.

GPT2.62%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 8
  • Bagikan
Komentar
0/400
StableGeniusDegenvip
· 07-17 07:43
Sekali lagi GPT4 tidak aman, mengerti.
Lihat AsliBalas0
AirdropChaservip
· 07-16 16:24
Jangan menakut-nakuti GPT saya ya
Lihat AsliBalas0
SchrodingerWalletvip
· 07-15 15:28
Mulai mempelajari ini lagi? Coba teliti airdrop saya dulu!
Lihat AsliBalas0
FlashLoanKingvip
· 07-14 08:13
Vulnerabilitas adalah dompet
Lihat AsliBalas0
GasWaster69vip
· 07-14 08:12
Ada celah baru bisa dimainkan gm
Lihat AsliBalas0
MrRightClickvip
· 07-14 08:08
Eh, ai masih sedikit menjebak.
Lihat AsliBalas0
MetaverseLandlordvip
· 07-14 07:46
Mengapa ada begitu banyak celah keamanan? Ini membuat orang panik.
Lihat AsliBalas0
FarmToRichesvip
· 07-14 07:44
Ada bug lagi, tsk tsk
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)