DecodingTrust: La evaluación de la confiabilidad de los modelos de lenguaje a gran escala revela riesgos potenciales

robot
Generación de resúmenes en curso

Evaluación de la credibilidad de los modelos de lenguaje: La investigación DecodingTrust revela riesgos potenciales

Recientemente, un equipo de investigación compuesto por varias universidades e instituciones de investigación de renombre publicó un estudio integral sobre la confiabilidad de los grandes modelos de lenguaje (LLMs). Este estudio tiene como objetivo evaluar de manera exhaustiva la confiabilidad del modelo generativo preentrenado transformer (GPT) y ha descubierto algunas vulnerabilidades relacionadas que no se habían hecho públicas anteriormente.

Los resultados de la investigación indican que los modelos GPT son susceptibles a ser engañados, produciendo salidas dañinas y sesgadas, y también pueden filtrar información privada del conjunto de datos de entrenamiento y del historial de conversaciones. Curiosamente, aunque GPT-4 suele ser más confiable que GPT-3.5 en pruebas de referencia estándar, se vuelve más susceptible a ataques cuando se enfrenta a sistemas o indicaciones diseñadas maliciosamente. Esto puede deberse a que GPT-4 sigue instrucciones engañosas con mayor precisión.

El equipo de investigación evaluó exhaustivamente el modelo GPT desde ocho perspectivas diferentes, incluida su capacidad de adaptación en entornos adversos. Por ejemplo, para evaluar la robustez de GPT-3.5 y GPT-4 frente a ataques adversariales en texto, el equipo diseñó tres escenarios de evaluación, que incluyen pruebas de referencia estándar, rendimiento bajo diferentes instrucciones de tareas y la reacción frente a textos adversariales más desafiantes.

La investigación ha encontrado algunos fenómenos interesantes. En términos de la robustez del modelo frente a ejemplos adversariales, ni GPT-3.5 ni GPT-4 son engañados por ejemplos contrafactuales, pero proporcionar demostraciones de detección de fraudes puede llevarlos a hacer predicciones erróneas ante entradas contrafactuales. En cuanto a la toxicidad y los sesgos, ambos modelos presentan poca desviación en la mayoría de los temas estereotipados en un entorno benigno, pero bajo indicaciones del sistema engañosas, pueden ser inducidos a aceptar contenido sesgado.

Sobre el tema de la filtración de privacidad, las investigaciones han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En algunos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Aunque GPT-4 es más robusto en la protección de información personal en comparación con GPT-3.5, ambos modelos tienen un rendimiento similar en la protección de ciertos tipos de información personal.

Este estudio proporciona una perspectiva integral sobre la evaluación de la confiabilidad de los modelos de lenguaje, revelando posibles vulnerabilidades de seguridad. El equipo de investigación espera que este trabajo impulse a más investigadores a participar y trabajar juntos para crear modelos más robustos y confiables. Para fomentar la colaboración, han hecho público el código de referencia de evaluación, dotándolo de buena escalabilidad y facilidad de uso.

GPT-0.29%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 8
  • Compartir
Comentar
0/400
StableGeniusDegenvip
· 07-17 07:43
Ya está, GPT4 no es seguro, entendido.
Ver originalesResponder0
AirdropChaservip
· 07-16 16:24
No asustes a mi GPT.
Ver originalesResponder0
SchrodingerWalletvip
· 07-15 15:28
¿Ya empezaste a investigar esto? ¡Primero investiga mi Airdrop!
Ver originalesResponder0
FlashLoanKingvip
· 07-14 08:13
La vulnerabilidad es la billetera
Ver originalesResponder0
GasWaster69vip
· 07-14 08:12
Hay vulnerabilidades que permiten jugar gm
Ver originalesResponder0
MrRightClickvip
· 07-14 08:08
Eh, ai todavía tiene sus desventajas.
Ver originalesResponder0
MetaverseLandlordvip
· 07-14 07:46
¿Por qué hay tantas vulnerabilidades de seguridad? Me muero de miedo.
Ver originalesResponder0
FarmToRichesvip
· 07-14 07:44
Otra vez salió un bug, tsk tsk.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)