DecodingTrust: A avaliação da confiabilidade de grandes modelos de linguagem revela riscos potenciais

robot
Geração de resumo em curso

Avaliação da confiabilidade dos modelos de linguagem: A pesquisa DecodingTrust revela riscos potenciais

Recentemente, uma equipe de pesquisa composta por várias universidades e instituições de pesquisa renomadas publicou um estudo abrangente sobre a confiabilidade dos grandes modelos de linguagem (LLMs). O estudo visa avaliar de forma abrangente a confiabilidade do modelo de transformador pré-treinado generativo (GPT) e descobriu algumas vulnerabilidades relacionadas que não haviam sido divulgadas anteriormente.

Os resultados da pesquisa indicam que os modelos GPT são suscetíveis a serem enganados, produzindo saídas prejudiciais e tendenciosas, e também podem vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele é mais suscetível a ataques quando confrontado com sistemas ou solicitações maliciosamente projetados. Isso pode ser porque o GPT-4 segue instruções enganosas de forma mais precisa.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo a capacidade de adaptação em ambientes adversariais. Por exemplo, para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto, a equipe projetou três cenários de avaliação, incluindo testes de referência padrão, desempenho sob diferentes instruções de tarefas orientadoras e reações ao enfrentar textos adversariais mais desafiadores.

A pesquisa descobriu alguns fenômenos interessantes. No que diz respeito à robustez do modelo em relação a demonstrações adversas, tanto o GPT-3.5 quanto o GPT-4 não são enganados por exemplos contrafactuais, mas fornecer demonstrações de combate à fraude pode levá-los a fazer previsões erradas em relação a entradas contrafactuais. Em termos de toxicidade e preconceito, ambos os modelos apresentam pouca variação em relação à maioria dos temas de estereótipos em um ambiente benigno, mas sob prompts de sistema enganosos, podem ser levados a concordar com conteúdos tendenciosos.

Sobre o problema de vazamento de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Embora o GPT-4 seja mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, ambos os modelos apresentam desempenho semelhante na proteção de tipos específicos de informações pessoais.

Este estudo fornece uma perspectiva abrangente sobre a avaliação da confiabilidade dos modelos de linguagem, revelando potenciais vulnerabilidades de segurança. A equipe de pesquisa espera que este trabalho possa incentivar mais pesquisadores a participar, colaborando para criar modelos mais robustos e confiáveis. Para promover a colaboração, tornaram público o código de avaliação, tornando-o altamente escalável e fácil de usar.

GPT-1.66%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 8
  • Partilhar
Comentar
0/400
StableGeniusDegenvip
· 07-17 07:43
Mais uma vez, GPT4 não é seguro. Entendi.
Ver originalResponder0
AirdropChaservip
· 07-16 16:24
Não assuste o meu GPT, tá?
Ver originalResponder0
SchrodingerWalletvip
· 07-15 15:28
Já começou a pesquisar sobre isso? Primeiro, estude o meu Airdrop!
Ver originalResponder0
FlashLoanKingvip
· 07-14 08:13
Vulnerabilidade é a Carteira
Ver originalResponder0
GasWaster69vip
· 07-14 08:12
Só há diversão se houver falhas gm
Ver originalResponder0
MrRightClickvip
· 07-14 08:08
Ai, ainda é um pouco problemático.
Ver originalResponder0
MetaverseLandlordvip
· 07-14 07:46
Por que há tantas vulnerabilidades de segurança? Isso está a deixar-me em pânico.
Ver originalResponder0
FarmToRichesvip
· 07-14 07:44
Mais um bug, tsk tsk.
Ver originalResponder0
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)