DecodingTrust: Penilaian keandalan model bahasa besar mengungkap risiko potensial

2025-07-14 07:43:14

Pembuatan abstrak sedang berlangsung

Menilai Keandalan Model Bahasa: Penelitian DecodingTrust Mengungkap Risiko Potensial

Baru-baru ini, sebuah tim penelitian yang terdiri dari beberapa universitas dan lembaga penelitian terkemuka meluncurkan penelitian komprehensif mengenai tingkat kepercayaan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh tingkat kepercayaan model transformer pralatih generatif (GPT) dan menemukan beberapa kerentanan terkait yang sebelumnya tidak dipublikasikan.

Hasil penelitian menunjukkan bahwa model GPT rentan terhadap kebingungan, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, GPT-4 justru lebih rentan terhadap serangan ketika menghadapi sistem atau prompt yang dirancang secara jahat. Ini mungkin karena GPT-4 lebih akurat mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi komprehensif terhadap model GPT dari delapan sudut yang berbeda, termasuk kemampuan beradaptasi di lingkungan yang bersifat adversarial. Sebagai contoh, untuk mengevaluasi ketahanan GPT-3.5 dan GPT-4 terhadap serangan teks yang bersifat adversarial, tim merancang tiga skenario evaluasi, termasuk pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta respons ketika menghadapi teks adversarial yang lebih menantang.

Penelitian menemukan beberapa fenomena menarik. Dalam hal ketahanan model terhadap demonstrasi adversarial, baik GPT-3.5 maupun GPT-4 tidak akan tersesat oleh contoh kontra-faktual, tetapi memberikan demonstrasi anti-penipuan dapat menyebabkan mereka membuat prediksi yang salah terhadap input kontra-faktual. Dalam hal toksisitas dan bias, kedua model menunjukkan bias yang tidak signifikan terhadap sebagian besar tema stereotip dalam lingkungan yang baik, tetapi di bawah petunjuk sistem yang menyesatkan, keduanya dapat dipicu untuk setuju dengan konten yang bias.

Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan mengungkapkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, menggunakan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Meskipun GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, kedua model menunjukkan kinerja yang serupa dalam perlindungan jenis informasi pribadi tertentu.

Penelitian ini memberikan perspektif komprehensif untuk penilaian kredibilitas model bahasa, mengungkapkan potensi celah keamanan. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk terlibat, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, mereka telah mempublikasikan kode referensi penilaian, sehingga memiliki skalabilitas dan kemudahan penggunaan yang baik.

GPT2.62%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

23 Suka

Hadiah
23
8
Bagikan

Komentar

0/400

StableGeniusDegen

· 07-17 07:43

Sekali lagi GPT4 tidak aman, mengerti.

Lihat AsliBalas0

AirdropChaser

· 07-16 16:24

Jangan menakut-nakuti GPT saya ya

Lihat AsliBalas0

SchrodingerWallet

· 07-15 15:28

Mulai mempelajari ini lagi? Coba teliti airdrop saya dulu!

Lihat AsliBalas0

FlashLoanKing

· 07-14 08:13

Vulnerabilitas adalah dompet

Lihat AsliBalas0

GasWaster69

· 07-14 08:12

Ada celah baru bisa dimainkan gm

Lihat AsliBalas0

MrRightClick

· 07-14 08:08

Eh, ai masih sedikit menjebak.

Lihat AsliBalas0

MetaverseLandlord

· 07-14 07:46

Mengapa ada begitu banyak celah keamanan? Ini membuat orang panik.

Lihat AsliBalas0

FarmToRiches

· 07-14 07:44

Ada bug lagi, tsk tsk

Lihat AsliBalas0

Topik
1/3
1ETH Breaks Through $3,800
20k Popularitas
2Gate June Transparency Report
12k Popularitas
3Altcoins on the Rise
20k Popularitas
4Gate Square Creator Spark Program
143k Popularitas
5Content Mining & Earn Rich Commission
1837k Popularitas

Sematkan

peta situs