DecodingTrust : L'évaluation de la confiance des grands modèles de langage révèle des risques potentiels

robot
Création du résumé en cours

Évaluer la crédibilité des modèles linguistiques : l'étude DecodingTrust révèle des risques potentiels

Récemment, une équipe de recherche composée de plusieurs universités et institutions de recherche réputées a publié une étude d'évaluation complète sur la crédibilité des grands modèles de langage (LLMs). Cette étude vise à évaluer de manière exhaustive la crédibilité du modèle de transformateur pré-entraîné génératif (GPT) et a révélé certaines vulnérabilités connexes qui n'avaient pas été précédemment divulguées.

Les résultats de la recherche montrent que les modèles GPT sont facilement trompés, produisant des sorties nuisibles et biaisées, et peuvent également divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations. Fait intéressant, bien que GPT-4 soit généralement plus fiable que GPT-3.5 dans les tests de référence standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des systèmes ou des invites conçus de manière malveillante. Cela pourrait être dû au fait que GPT-4 suit plus précisément des instructions trompeuses.

L'équipe de recherche a évalué le modèle GPT de manière exhaustive sous huit angles différents, y compris sa capacité d'adaptation dans des environnements adverses. Par exemple, pour évaluer la robustesse de GPT-3.5 et GPT-4 face aux attaques textuelles adversariales, l'équipe a conçu trois scénarios d'évaluation, y compris des tests de référence standard, des performances sous différentes instructions de tâches directrices et des réactions face à des textes adversariaux plus difficiles.

La recherche a révélé des phénomènes intéressants. En ce qui concerne la robustesse des modèles face aux démonstrations adversariales, GPT-3.5 et GPT-4 ne sont pas trompés par des exemples contre-factuels, mais fournir des démonstrations anti-fraude peut les amener à faire des prédictions incorrectes sur des entrées contre-factuelles. En ce qui concerne la toxicité et les biais, les deux modèles montrent peu de biais sur la plupart des sujets de stéréotypes dans un environnement bienveillant, mais sous des invites système trompeuses, ils peuvent être amenés à accepter du contenu biaisé.

Concernant les problèmes de fuite de vie privée, des recherches ont révélé que le modèle GPT pourrait divulguer des informations sensibles présentes dans les données d'entraînement, telles que des adresses électroniques. Dans certains cas, l'utilisation de connaissances supplémentaires peut considérablement améliorer la précision de l'extraction d'informations. Bien que GPT-4 soit plus robuste que GPT-3.5 en matière de protection des informations d'identification personnelles, les deux modèles montrent des performances similaires en ce qui concerne la protection de certains types d'informations personnelles.

Cette étude offre une perspective complète sur l'évaluation de la crédibilité des modèles linguistiques, révélant des vulnérabilités potentielles en matière de sécurité. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à participer et à collaborer pour créer des modèles plus puissants et plus fiables. Pour favoriser la coopération, ils ont rendu public le code de référence d'évaluation, le rendant facilement extensible et utilisable.

GPT-1.56%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 8
  • Partager
Commentaire
0/400
StableGeniusDegenvip
· 07-17 07:43
Encore le GPT4 est dangereux, compris.
Voir l'originalRépondre0
AirdropChaservip
· 07-16 16:24
Ne fais pas peur à mon GPT.
Voir l'originalRépondre0
SchrodingerWalletvip
· 07-15 15:28
Tu recommences à étudier ça ? Commence par étudier mon Airdrop !
Voir l'originalRépondre0
FlashLoanKingvip
· 07-14 08:13
Une vulnérabilité est un portefeuille.
Voir l'originalRépondre0
GasWaster69vip
· 07-14 08:12
Il n'y a de jeu que lorsqu'il y a des failles gm
Voir l'originalRépondre0
MrRightClickvip
· 07-14 08:08
Eh bien, ai est quand même un peu casse-pieds.
Voir l'originalRépondre0
MetaverseLandlordvip
· 07-14 07:46
Pourquoi y a-t-il autant de failles de sécurité ? Ça fait vraiment peur.
Voir l'originalRépondre0
FarmToRichesvip
· 07-14 07:44
Encore un bug ! Tsk tsk.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)