DecodingTrust: A avaliação da confiabilidade de grandes modelos de linguagem revela riscos potenciais

2025-07-14 07:43:14

Geração de resumo em curso

Avaliação da confiabilidade dos modelos de linguagem: A pesquisa DecodingTrust revela riscos potenciais

Recentemente, uma equipe de pesquisa composta por várias universidades e instituições de pesquisa renomadas publicou um estudo abrangente sobre a confiabilidade dos grandes modelos de linguagem (LLMs). O estudo visa avaliar de forma abrangente a confiabilidade do modelo de transformador pré-treinado generativo (GPT) e descobriu algumas vulnerabilidades relacionadas que não haviam sido divulgadas anteriormente.

Os resultados da pesquisa indicam que os modelos GPT são suscetíveis a serem enganados, produzindo saídas prejudiciais e tendenciosas, e também podem vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele é mais suscetível a ataques quando confrontado com sistemas ou solicitações maliciosamente projetados. Isso pode ser porque o GPT-4 segue instruções enganosas de forma mais precisa.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo a capacidade de adaptação em ambientes adversariais. Por exemplo, para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto, a equipe projetou três cenários de avaliação, incluindo testes de referência padrão, desempenho sob diferentes instruções de tarefas orientadoras e reações ao enfrentar textos adversariais mais desafiadores.

A pesquisa descobriu alguns fenômenos interessantes. No que diz respeito à robustez do modelo em relação a demonstrações adversas, tanto o GPT-3.5 quanto o GPT-4 não são enganados por exemplos contrafactuais, mas fornecer demonstrações de combate à fraude pode levá-los a fazer previsões erradas em relação a entradas contrafactuais. Em termos de toxicidade e preconceito, ambos os modelos apresentam pouca variação em relação à maioria dos temas de estereótipos em um ambiente benigno, mas sob prompts de sistema enganosos, podem ser levados a concordar com conteúdos tendenciosos.

Sobre o problema de vazamento de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Embora o GPT-4 seja mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, ambos os modelos apresentam desempenho semelhante na proteção de tipos específicos de informações pessoais.

Este estudo fornece uma perspectiva abrangente sobre a avaliação da confiabilidade dos modelos de linguagem, revelando potenciais vulnerabilidades de segurança. A equipe de pesquisa espera que este trabalho possa incentivar mais pesquisadores a participar, colaborando para criar modelos mais robustos e confiáveis. Para promover a colaboração, tornaram público o código de avaliação, tornando-o altamente escalável e fácil de usar.

GPT-1.66%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

23 gostos

Recompensa
23
8
Partilhar

Comentar

0/400

StableGeniusDegen

· 07-17 07:43

Mais uma vez, GPT4 não é seguro. Entendi.

Ver originalResponder0

AirdropChaser

· 07-16 16:24

Não assuste o meu GPT, tá?

Ver originalResponder0

SchrodingerWallet

· 07-15 15:28

Já começou a pesquisar sobre isso? Primeiro, estude o meu Airdrop!

Ver originalResponder0

FlashLoanKing

· 07-14 08:13

Vulnerabilidade é a Carteira

Ver originalResponder0

GasWaster69

· 07-14 08:12

Só há diversão se houver falhas gm

Ver originalResponder0

MrRightClick

· 07-14 08:08

Ai, ainda é um pouco problemático.

Ver originalResponder0

MetaverseLandlord

· 07-14 07:46

Por que há tantas vulnerabilidades de segurança? Isso está a deixar-me em pânico.

Ver originalResponder0

FarmToRiches

· 07-14 07:44

Mais um bug, tsk tsk.

Ver originalResponder0

Tópico
1/3
1Altcoin Season Coming?
5k Popularidade
2Stablecoin Regulation Crackdown
3k Popularidade
3Gate June Transparency Report
16k Popularidade
4ETH Breaks Through $3,800
25k Popularidade
5Institutions Buying Bitcoin
15k Popularidade

Pino