Đánh giá độ tin cậy của mô hình ngôn ngữ: Nghiên cứu DecodingTrust tiết lộ các rủi ro tiềm ẩn
Gần đây, một nhóm nghiên cứu được thành lập từ nhiều trường đại học và viện nghiên cứu danh tiếng đã công bố một nghiên cứu đánh giá tổng thể về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Nghiên cứu này nhằm đánh giá toàn diện độ tin cậy của mô hình transformer được huấn luyện trước sinh (GPT) và phát hiện một số lỗ hổng liên quan chưa được công bố trước đó.
Các nghiên cứu cho thấy rằng mô hình GPT dễ bị đánh lừa, tạo ra các đầu ra có hại và mang tính thiên lệch, đồng thời cũng có thể làm lộ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử cuộc trò chuyện. Thú vị là, mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra chuẩn, nhưng khi đối mặt với các hệ thống hoặc gợi ý người dùng được thiết kế xấu, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ các chỉ dẫn lừa đảo một cách chính xác hơn.
Nhóm nghiên cứu đã thực hiện đánh giá toàn diện về mô hình GPT từ tám góc độ khác nhau, bao gồm khả năng thích ứng trong môi trường đối kháng. Ví dụ, để đánh giá độ bền của GPT-3.5 và GPT-4 trước các cuộc tấn công văn bản đối kháng, nhóm đã thiết kế ba kịch bản đánh giá, bao gồm thử nghiệm tiêu chuẩn, hiệu suất dưới các hướng dẫn nhiệm vụ khác nhau, và phản ứng khi đối mặt với các văn bản đối kháng thách thức hơn.
Nghiên cứu đã phát hiện ra một số hiện tượng thú vị. Về độ bền của mô hình đối với các ví dụ đối kháng, cả GPT-3.5 và GPT-4 đều không bị đánh lừa bởi các ví dụ phản thực, nhưng việc cung cấp các ví dụ chống gian lận có thể dẫn đến việc chúng đưa ra dự đoán sai về đầu vào phản thực. Về độc tính và thiên kiến, cả hai mô hình trong môi trường lành mạnh có độ lệch không đáng kể đối với hầu hết các chủ đề khuôn mẫu, nhưng dưới sự thúc ép của các nhắc nhở hệ thống gây hiểu lầm, chúng có thể bị dẫn dắt đồng ý với nội dung có thiên kiến.
Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Mặc dù GPT-4 mạnh mẽ hơn GPT-3.5 trong việc bảo vệ thông tin cá nhân, nhưng cả hai mô hình đều thể hiện sự tương tự trong việc bảo vệ các loại thông tin cá nhân cụ thể.
Nghiên cứu này cung cấp một góc nhìn toàn diện về việc đánh giá độ tin cậy của các mô hình ngôn ngữ, làm sáng tỏ các lỗ hổng bảo mật tiềm ẩn. Nhóm nghiên cứu hy vọng rằng công việc này sẽ thúc đẩy nhiều nhà nghiên cứu hơn tham gia, cùng nhau nỗ lực để tạo ra các mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy hợp tác, họ đã công khai mã đánh giá chuẩn, giúp nó có khả năng mở rộng tốt và dễ sử dụng.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
23 thích
Phần thưởng
23
8
Chia sẻ
Bình luận
0/400
StableGeniusDegen
· 07-17 07:43
Lại là GPT4 không an toàn, hiểu rồi.
Xem bản gốcTrả lời0
AirdropChaser
· 07-16 16:24
Đừng dọa GPT nhà tôi nhé
Xem bản gốcTrả lời0
SchrodingerWallet
· 07-15 15:28
Lại bắt đầu nghiên cứu những thứ này? Hãy nghiên cứu airdrop của tôi trước đã!
Xem bản gốcTrả lời0
FlashLoanKing
· 07-14 08:13
Lỗ hổng chính là Ví tiền
Xem bản gốcTrả lời0
GasWaster69
· 07-14 08:12
Có lỗ hổng thì mới có cái để chơi gm
Xem bản gốcTrả lời0
MrRightClick
· 07-14 08:08
Ôi, ai cũng có chút khó khăn.
Xem bản gốcTrả lời0
MetaverseLandlord
· 07-14 07:46
Sao lỗi bảo mật lại nhiều như vậy, làm người ta hoảng loạn.
DecodingTrust: Đánh giá độ tin cậy của mô hình ngôn ngữ lớn tiết lộ rủi ro tiềm ẩn
Đánh giá độ tin cậy của mô hình ngôn ngữ: Nghiên cứu DecodingTrust tiết lộ các rủi ro tiềm ẩn
Gần đây, một nhóm nghiên cứu được thành lập từ nhiều trường đại học và viện nghiên cứu danh tiếng đã công bố một nghiên cứu đánh giá tổng thể về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Nghiên cứu này nhằm đánh giá toàn diện độ tin cậy của mô hình transformer được huấn luyện trước sinh (GPT) và phát hiện một số lỗ hổng liên quan chưa được công bố trước đó.
Các nghiên cứu cho thấy rằng mô hình GPT dễ bị đánh lừa, tạo ra các đầu ra có hại và mang tính thiên lệch, đồng thời cũng có thể làm lộ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử cuộc trò chuyện. Thú vị là, mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra chuẩn, nhưng khi đối mặt với các hệ thống hoặc gợi ý người dùng được thiết kế xấu, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ các chỉ dẫn lừa đảo một cách chính xác hơn.
Nhóm nghiên cứu đã thực hiện đánh giá toàn diện về mô hình GPT từ tám góc độ khác nhau, bao gồm khả năng thích ứng trong môi trường đối kháng. Ví dụ, để đánh giá độ bền của GPT-3.5 và GPT-4 trước các cuộc tấn công văn bản đối kháng, nhóm đã thiết kế ba kịch bản đánh giá, bao gồm thử nghiệm tiêu chuẩn, hiệu suất dưới các hướng dẫn nhiệm vụ khác nhau, và phản ứng khi đối mặt với các văn bản đối kháng thách thức hơn.
Nghiên cứu đã phát hiện ra một số hiện tượng thú vị. Về độ bền của mô hình đối với các ví dụ đối kháng, cả GPT-3.5 và GPT-4 đều không bị đánh lừa bởi các ví dụ phản thực, nhưng việc cung cấp các ví dụ chống gian lận có thể dẫn đến việc chúng đưa ra dự đoán sai về đầu vào phản thực. Về độc tính và thiên kiến, cả hai mô hình trong môi trường lành mạnh có độ lệch không đáng kể đối với hầu hết các chủ đề khuôn mẫu, nhưng dưới sự thúc ép của các nhắc nhở hệ thống gây hiểu lầm, chúng có thể bị dẫn dắt đồng ý với nội dung có thiên kiến.
Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Mặc dù GPT-4 mạnh mẽ hơn GPT-3.5 trong việc bảo vệ thông tin cá nhân, nhưng cả hai mô hình đều thể hiện sự tương tự trong việc bảo vệ các loại thông tin cá nhân cụ thể.
Nghiên cứu này cung cấp một góc nhìn toàn diện về việc đánh giá độ tin cậy của các mô hình ngôn ngữ, làm sáng tỏ các lỗ hổng bảo mật tiềm ẩn. Nhóm nghiên cứu hy vọng rằng công việc này sẽ thúc đẩy nhiều nhà nghiên cứu hơn tham gia, cùng nhau nỗ lực để tạo ra các mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy hợp tác, họ đã công khai mã đánh giá chuẩn, giúp nó có khả năng mở rộng tốt và dễ sử dụng.