DecodingTrust: La evaluación de la confiabilidad de los modelos de lenguaje a gran escala revela riesgos potenciales

2025-07-14 07:43:14

Generación de resúmenes en curso

Evaluación de la credibilidad de los modelos de lenguaje: La investigación DecodingTrust revela riesgos potenciales

Recientemente, un equipo de investigación compuesto por varias universidades e instituciones de investigación de renombre publicó un estudio integral sobre la confiabilidad de los grandes modelos de lenguaje (LLMs). Este estudio tiene como objetivo evaluar de manera exhaustiva la confiabilidad del modelo generativo preentrenado transformer (GPT) y ha descubierto algunas vulnerabilidades relacionadas que no se habían hecho públicas anteriormente.

Los resultados de la investigación indican que los modelos GPT son susceptibles a ser engañados, produciendo salidas dañinas y sesgadas, y también pueden filtrar información privada del conjunto de datos de entrenamiento y del historial de conversaciones. Curiosamente, aunque GPT-4 suele ser más confiable que GPT-3.5 en pruebas de referencia estándar, se vuelve más susceptible a ataques cuando se enfrenta a sistemas o indicaciones diseñadas maliciosamente. Esto puede deberse a que GPT-4 sigue instrucciones engañosas con mayor precisión.

El equipo de investigación evaluó exhaustivamente el modelo GPT desde ocho perspectivas diferentes, incluida su capacidad de adaptación en entornos adversos. Por ejemplo, para evaluar la robustez de GPT-3.5 y GPT-4 frente a ataques adversariales en texto, el equipo diseñó tres escenarios de evaluación, que incluyen pruebas de referencia estándar, rendimiento bajo diferentes instrucciones de tareas y la reacción frente a textos adversariales más desafiantes.

La investigación ha encontrado algunos fenómenos interesantes. En términos de la robustez del modelo frente a ejemplos adversariales, ni GPT-3.5 ni GPT-4 son engañados por ejemplos contrafactuales, pero proporcionar demostraciones de detección de fraudes puede llevarlos a hacer predicciones erróneas ante entradas contrafactuales. En cuanto a la toxicidad y los sesgos, ambos modelos presentan poca desviación en la mayoría de los temas estereotipados en un entorno benigno, pero bajo indicaciones del sistema engañosas, pueden ser inducidos a aceptar contenido sesgado.

Sobre el tema de la filtración de privacidad, las investigaciones han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En algunos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Aunque GPT-4 es más robusto en la protección de información personal en comparación con GPT-3.5, ambos modelos tienen un rendimiento similar en la protección de ciertos tipos de información personal.

Este estudio proporciona una perspectiva integral sobre la evaluación de la confiabilidad de los modelos de lenguaje, revelando posibles vulnerabilidades de seguridad. El equipo de investigación espera que este trabajo impulse a más investigadores a participar y trabajar juntos para crear modelos más robustos y confiables. Para fomentar la colaboración, han hecho público el código de referencia de evaluación, dotándolo de buena escalabilidad y facilidad de uso.

GPT-4.47%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

23 me gusta

Recompensa
23
8
Compartir

Comentar

0/400

StableGeniusDegen

· 07-17 07:43

Ya está, GPT4 no es seguro, entendido.

Ver originalesResponder0

AirdropChaser

· 07-16 16:24

No asustes a mi GPT.

Ver originalesResponder0

SchrodingerWallet

· 07-15 15:28

¿Ya empezaste a investigar esto? ¡Primero investiga mi Airdrop!

Ver originalesResponder0

FlashLoanKing

· 07-14 08:13

La vulnerabilidad es la billetera

Ver originalesResponder0

GasWaster69

· 07-14 08:12

Hay vulnerabilidades que permiten jugar gm

Ver originalesResponder0

MrRightClick

· 07-14 08:08

Eh, ai todavía tiene sus desventajas.

Ver originalesResponder0

MetaverseLandlord

· 07-14 07:46

¿Por qué hay tantas vulnerabilidades de seguridad? Me muero de miedo.

Ver originalesResponder0

FarmToRiches

· 07-14 07:44

Otra vez salió un bug, tsk tsk.

Ver originalesResponder0

Tema
1/3
1Gate ETH 10th Anniversary Celebration
2k Popularidad
2Trump’s AI Strategy
801 Popularidad
3RWA Boom
805 Popularidad
4Altcoin Season Coming?
39k Popularidad
5Stablecoin Regulation Crackdown
29k Popularidad

Anclado