DecodingTrust: تقييم موثوقية نماذج اللغة الكبيرة يكشف عن المخاطر المحتملة

robot
إنشاء الملخص قيد التقدم

تقييم موثوقية نماذج اللغة: دراسة DecodingTrust تكشف عن المخاطر المحتملة

مؤخراً، أصدرت مجموعة بحثية تتكون من العديد من الجامعات المعروفة والمؤسسات البحثية دراسة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تهدف هذه الدراسة إلى تقييم موثوقية نماذج التحويل المدربة مسبقاً التوليدية (GPT) بشكل شامل، وقد اكتشفت بعض الثغرات ذات الصلة التي لم يتم الكشف عنها سابقاً.

أظهرت نتائج البحث أن نماذج GPT عرضة للتوجيه الخاطئ، مما يؤدي إلى إنتاج مخرجات ضارة وذات تحيز، وقد تكشف أيضًا عن بيانات التدريب ومعلومات الخصوصية في تاريخ المحادثات. من المثير للاهتمام أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يكون أكثر عرضة للهجمات عند مواجهة أنظمة أو مطالبات مصممة بشكل خبيث. قد يكون هذا بسبب أن GPT-4 يتبع التعليمات المضللة بدقة أكبر.

قامت فريق البحث بتقييم شامل لنموذج GPT من ثمانية جوانب مختلفة، بما في ذلك قدرته على التكيف في بيئات معادية. على سبيل المثال، لتقييم قوة GPT-3.5 وGPT-4 ضد هجمات النص المعادية، صمم الفريق ثلاث سيناريوهات تقييم، بما في ذلك اختبارات المعيار القياسية، والأداء تحت إرشادات مختلفة من المهام، ورد الفعل عند مواجهة نصوص معادية أكثر تحدياً.

أظهرت الأبحاث بعض الظواهر المثيرة للاهتمام. فيما يتعلق بمتانة النماذج ضد العروض المعادية، لا يمكن لـ GPT-3.5 و GPT-4 أن تنخدع بالأمثلة المضادة للحقائق، ولكن تقديم عروض مضادة للاحتيال قد يؤدي إلى توقعات خاطئة منهم تجاه المدخلات المضادة للحقائق. في ما يتعلق بالسمية والتحيز، فإن كلا النموذجين يظهران انحيازًا ضئيلًا تجاه معظم موضوعات الصور النمطية في بيئات جيدة، ولكن تحت مطالبات النظام المضللة، يمكن أن يتم تحفيزهما للموافقة على محتوى متحيز.

فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يسرب معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة التكميلية إلى تحسين دقة استخراج المعلومات بشكل كبير. على الرغم من أن GPT-4 أكثر متانة في حماية المعلومات الشخصية مقارنة بـ GPT-3.5، إلا أن كلا النموذجين يظهران أداءً مشابهًا في حماية أنواع معينة من المعلومات الشخصية.

تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج اللغة، وتكشف عن الثغرات الأمنية المحتملة. يأمل فريق البحث أن تدفع هذه العمل المزيد من الباحثين للمشاركة، والعمل معًا على إنشاء نماذج أقوى وأكثر موثوقية. لتعزيز التعاون، قاموا بنشر كود المعايير التقييمية، مما يجعلها تتمتع بقابلية توسع جيدة وسهولة الاستخدام.

GPT-0.36%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 8
  • مشاركة
تعليق
0/400
StableGeniusDegenvip
· 07-17 07:43
مرة أخرى GPT4 غير آمن فهمت
شاهد النسخة الأصليةرد0
AirdropChaservip
· 07-16 16:24
لا تخيف GPT الخاص بي
شاهد النسخة الأصليةرد0
SchrodingerWalletvip
· 07-15 15:28
又开始研究这些؟先研究下我的 توزيع مجاني吧!
شاهد النسخة الأصليةرد0
FlashLoanKingvip
· 07-14 08:13
الثغرة هي المحفظة
شاهد النسخة الأصليةرد0
GasWaster69vip
· 07-14 08:12
هناك ثغرات فقط للعب gm
شاهد النسخة الأصليةرد0
MrRightClickvip
· 07-14 08:08
أه، ai لا يزال به بعض المشاكل.
شاهد النسخة الأصليةرد0
MetaverseLandlordvip
· 07-14 07:46
لماذا يوجد الكثير من الثغرات الأمنية؟ الأمر يثير القلق.
شاهد النسخة الأصليةرد0
FarmToRichesvip
· 07-14 07:44
لقد ظهرت مشكلة جديدة. تبا.
شاهد النسخة الأصليةرد0
  • تثبيت