Menilai Keandalan Model Bahasa: Penelitian DecodingTrust Mengungkap Risiko Potensial
Baru-baru ini, sebuah tim penelitian yang terdiri dari beberapa universitas dan lembaga penelitian terkemuka meluncurkan penelitian komprehensif mengenai tingkat kepercayaan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh tingkat kepercayaan model transformer pralatih generatif (GPT) dan menemukan beberapa kerentanan terkait yang sebelumnya tidak dipublikasikan.
Hasil penelitian menunjukkan bahwa model GPT rentan terhadap kebingungan, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, GPT-4 justru lebih rentan terhadap serangan ketika menghadapi sistem atau prompt yang dirancang secara jahat. Ini mungkin karena GPT-4 lebih akurat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi komprehensif terhadap model GPT dari delapan sudut yang berbeda, termasuk kemampuan beradaptasi di lingkungan yang bersifat adversarial. Sebagai contoh, untuk mengevaluasi ketahanan GPT-3.5 dan GPT-4 terhadap serangan teks yang bersifat adversarial, tim merancang tiga skenario evaluasi, termasuk pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta respons ketika menghadapi teks adversarial yang lebih menantang.
Penelitian menemukan beberapa fenomena menarik. Dalam hal ketahanan model terhadap demonstrasi adversarial, baik GPT-3.5 maupun GPT-4 tidak akan tersesat oleh contoh kontra-faktual, tetapi memberikan demonstrasi anti-penipuan dapat menyebabkan mereka membuat prediksi yang salah terhadap input kontra-faktual. Dalam hal toksisitas dan bias, kedua model menunjukkan bias yang tidak signifikan terhadap sebagian besar tema stereotip dalam lingkungan yang baik, tetapi di bawah petunjuk sistem yang menyesatkan, keduanya dapat dipicu untuk setuju dengan konten yang bias.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan mengungkapkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, menggunakan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Meskipun GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, kedua model menunjukkan kinerja yang serupa dalam perlindungan jenis informasi pribadi tertentu.
Penelitian ini memberikan perspektif komprehensif untuk penilaian kredibilitas model bahasa, mengungkapkan potensi celah keamanan. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk terlibat, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, mereka telah mempublikasikan kode referensi penilaian, sehingga memiliki skalabilitas dan kemudahan penggunaan yang baik.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
23 Suka
Hadiah
23
8
Bagikan
Komentar
0/400
StableGeniusDegen
· 07-17 07:43
Sekali lagi GPT4 tidak aman, mengerti.
Lihat AsliBalas0
AirdropChaser
· 07-16 16:24
Jangan menakut-nakuti GPT saya ya
Lihat AsliBalas0
SchrodingerWallet
· 07-15 15:28
Mulai mempelajari ini lagi? Coba teliti airdrop saya dulu!
Lihat AsliBalas0
FlashLoanKing
· 07-14 08:13
Vulnerabilitas adalah dompet
Lihat AsliBalas0
GasWaster69
· 07-14 08:12
Ada celah baru bisa dimainkan gm
Lihat AsliBalas0
MrRightClick
· 07-14 08:08
Eh, ai masih sedikit menjebak.
Lihat AsliBalas0
MetaverseLandlord
· 07-14 07:46
Mengapa ada begitu banyak celah keamanan? Ini membuat orang panik.
DecodingTrust: Penilaian keandalan model bahasa besar mengungkap risiko potensial
Menilai Keandalan Model Bahasa: Penelitian DecodingTrust Mengungkap Risiko Potensial
Baru-baru ini, sebuah tim penelitian yang terdiri dari beberapa universitas dan lembaga penelitian terkemuka meluncurkan penelitian komprehensif mengenai tingkat kepercayaan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh tingkat kepercayaan model transformer pralatih generatif (GPT) dan menemukan beberapa kerentanan terkait yang sebelumnya tidak dipublikasikan.
Hasil penelitian menunjukkan bahwa model GPT rentan terhadap kebingungan, menghasilkan output yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, GPT-4 justru lebih rentan terhadap serangan ketika menghadapi sistem atau prompt yang dirancang secara jahat. Ini mungkin karena GPT-4 lebih akurat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi komprehensif terhadap model GPT dari delapan sudut yang berbeda, termasuk kemampuan beradaptasi di lingkungan yang bersifat adversarial. Sebagai contoh, untuk mengevaluasi ketahanan GPT-3.5 dan GPT-4 terhadap serangan teks yang bersifat adversarial, tim merancang tiga skenario evaluasi, termasuk pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta respons ketika menghadapi teks adversarial yang lebih menantang.
Penelitian menemukan beberapa fenomena menarik. Dalam hal ketahanan model terhadap demonstrasi adversarial, baik GPT-3.5 maupun GPT-4 tidak akan tersesat oleh contoh kontra-faktual, tetapi memberikan demonstrasi anti-penipuan dapat menyebabkan mereka membuat prediksi yang salah terhadap input kontra-faktual. Dalam hal toksisitas dan bias, kedua model menunjukkan bias yang tidak signifikan terhadap sebagian besar tema stereotip dalam lingkungan yang baik, tetapi di bawah petunjuk sistem yang menyesatkan, keduanya dapat dipicu untuk setuju dengan konten yang bias.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT mungkin akan mengungkapkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, menggunakan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Meskipun GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, kedua model menunjukkan kinerja yang serupa dalam perlindungan jenis informasi pribadi tertentu.
Penelitian ini memberikan perspektif komprehensif untuk penilaian kredibilitas model bahasa, mengungkapkan potensi celah keamanan. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk terlibat, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, mereka telah mempublikasikan kode referensi penilaian, sehingga memiliki skalabilitas dan kemudahan penggunaan yang baik.