Avaliação da confiabilidade dos modelos de linguagem: A pesquisa DecodingTrust revela riscos potenciais
Recentemente, uma equipe de pesquisa composta por várias universidades e instituições de pesquisa renomadas publicou um estudo abrangente sobre a confiabilidade dos grandes modelos de linguagem (LLMs). O estudo visa avaliar de forma abrangente a confiabilidade do modelo de transformador pré-treinado generativo (GPT) e descobriu algumas vulnerabilidades relacionadas que não haviam sido divulgadas anteriormente.
Os resultados da pesquisa indicam que os modelos GPT são suscetíveis a serem enganados, produzindo saídas prejudiciais e tendenciosas, e também podem vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele é mais suscetível a ataques quando confrontado com sistemas ou solicitações maliciosamente projetados. Isso pode ser porque o GPT-4 segue instruções enganosas de forma mais precisa.
A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo a capacidade de adaptação em ambientes adversariais. Por exemplo, para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto, a equipe projetou três cenários de avaliação, incluindo testes de referência padrão, desempenho sob diferentes instruções de tarefas orientadoras e reações ao enfrentar textos adversariais mais desafiadores.
A pesquisa descobriu alguns fenômenos interessantes. No que diz respeito à robustez do modelo em relação a demonstrações adversas, tanto o GPT-3.5 quanto o GPT-4 não são enganados por exemplos contrafactuais, mas fornecer demonstrações de combate à fraude pode levá-los a fazer previsões erradas em relação a entradas contrafactuais. Em termos de toxicidade e preconceito, ambos os modelos apresentam pouca variação em relação à maioria dos temas de estereótipos em um ambiente benigno, mas sob prompts de sistema enganosos, podem ser levados a concordar com conteúdos tendenciosos.
Sobre o problema de vazamento de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Embora o GPT-4 seja mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, ambos os modelos apresentam desempenho semelhante na proteção de tipos específicos de informações pessoais.
Este estudo fornece uma perspectiva abrangente sobre a avaliação da confiabilidade dos modelos de linguagem, revelando potenciais vulnerabilidades de segurança. A equipe de pesquisa espera que este trabalho possa incentivar mais pesquisadores a participar, colaborando para criar modelos mais robustos e confiáveis. Para promover a colaboração, tornaram público o código de avaliação, tornando-o altamente escalável e fácil de usar.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
23 gostos
Recompensa
23
8
Partilhar
Comentar
0/400
StableGeniusDegen
· 07-17 07:43
Mais uma vez, GPT4 não é seguro. Entendi.
Ver originalResponder0
AirdropChaser
· 07-16 16:24
Não assuste o meu GPT, tá?
Ver originalResponder0
SchrodingerWallet
· 07-15 15:28
Já começou a pesquisar sobre isso? Primeiro, estude o meu Airdrop!
Ver originalResponder0
FlashLoanKing
· 07-14 08:13
Vulnerabilidade é a Carteira
Ver originalResponder0
GasWaster69
· 07-14 08:12
Só há diversão se houver falhas gm
Ver originalResponder0
MrRightClick
· 07-14 08:08
Ai, ainda é um pouco problemático.
Ver originalResponder0
MetaverseLandlord
· 07-14 07:46
Por que há tantas vulnerabilidades de segurança? Isso está a deixar-me em pânico.
DecodingTrust: A avaliação da confiabilidade de grandes modelos de linguagem revela riscos potenciais
Avaliação da confiabilidade dos modelos de linguagem: A pesquisa DecodingTrust revela riscos potenciais
Recentemente, uma equipe de pesquisa composta por várias universidades e instituições de pesquisa renomadas publicou um estudo abrangente sobre a confiabilidade dos grandes modelos de linguagem (LLMs). O estudo visa avaliar de forma abrangente a confiabilidade do modelo de transformador pré-treinado generativo (GPT) e descobriu algumas vulnerabilidades relacionadas que não haviam sido divulgadas anteriormente.
Os resultados da pesquisa indicam que os modelos GPT são suscetíveis a serem enganados, produzindo saídas prejudiciais e tendenciosas, e também podem vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele é mais suscetível a ataques quando confrontado com sistemas ou solicitações maliciosamente projetados. Isso pode ser porque o GPT-4 segue instruções enganosas de forma mais precisa.
A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo a capacidade de adaptação em ambientes adversariais. Por exemplo, para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto, a equipe projetou três cenários de avaliação, incluindo testes de referência padrão, desempenho sob diferentes instruções de tarefas orientadoras e reações ao enfrentar textos adversariais mais desafiadores.
A pesquisa descobriu alguns fenômenos interessantes. No que diz respeito à robustez do modelo em relação a demonstrações adversas, tanto o GPT-3.5 quanto o GPT-4 não são enganados por exemplos contrafactuais, mas fornecer demonstrações de combate à fraude pode levá-los a fazer previsões erradas em relação a entradas contrafactuais. Em termos de toxicidade e preconceito, ambos os modelos apresentam pouca variação em relação à maioria dos temas de estereótipos em um ambiente benigno, mas sob prompts de sistema enganosos, podem ser levados a concordar com conteúdos tendenciosos.
Sobre o problema de vazamento de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Embora o GPT-4 seja mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, ambos os modelos apresentam desempenho semelhante na proteção de tipos específicos de informações pessoais.
Este estudo fornece uma perspectiva abrangente sobre a avaliação da confiabilidade dos modelos de linguagem, revelando potenciais vulnerabilidades de segurança. A equipe de pesquisa espera que este trabalho possa incentivar mais pesquisadores a participar, colaborando para criar modelos mais robustos e confiáveis. Para promover a colaboração, tornaram público o código de avaliação, tornando-o altamente escalável e fácil de usar.