Evaluación de la credibilidad de los modelos de lenguaje: La investigación DecodingTrust revela riesgos potenciales
Recientemente, un equipo de investigación compuesto por varias universidades e instituciones de investigación de renombre publicó un estudio integral sobre la confiabilidad de los grandes modelos de lenguaje (LLMs). Este estudio tiene como objetivo evaluar de manera exhaustiva la confiabilidad del modelo generativo preentrenado transformer (GPT) y ha descubierto algunas vulnerabilidades relacionadas que no se habían hecho públicas anteriormente.
Los resultados de la investigación indican que los modelos GPT son susceptibles a ser engañados, produciendo salidas dañinas y sesgadas, y también pueden filtrar información privada del conjunto de datos de entrenamiento y del historial de conversaciones. Curiosamente, aunque GPT-4 suele ser más confiable que GPT-3.5 en pruebas de referencia estándar, se vuelve más susceptible a ataques cuando se enfrenta a sistemas o indicaciones diseñadas maliciosamente. Esto puede deberse a que GPT-4 sigue instrucciones engañosas con mayor precisión.
El equipo de investigación evaluó exhaustivamente el modelo GPT desde ocho perspectivas diferentes, incluida su capacidad de adaptación en entornos adversos. Por ejemplo, para evaluar la robustez de GPT-3.5 y GPT-4 frente a ataques adversariales en texto, el equipo diseñó tres escenarios de evaluación, que incluyen pruebas de referencia estándar, rendimiento bajo diferentes instrucciones de tareas y la reacción frente a textos adversariales más desafiantes.
La investigación ha encontrado algunos fenómenos interesantes. En términos de la robustez del modelo frente a ejemplos adversariales, ni GPT-3.5 ni GPT-4 son engañados por ejemplos contrafactuales, pero proporcionar demostraciones de detección de fraudes puede llevarlos a hacer predicciones erróneas ante entradas contrafactuales. En cuanto a la toxicidad y los sesgos, ambos modelos presentan poca desviación en la mayoría de los temas estereotipados en un entorno benigno, pero bajo indicaciones del sistema engañosas, pueden ser inducidos a aceptar contenido sesgado.
Sobre el tema de la filtración de privacidad, las investigaciones han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En algunos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Aunque GPT-4 es más robusto en la protección de información personal en comparación con GPT-3.5, ambos modelos tienen un rendimiento similar en la protección de ciertos tipos de información personal.
Este estudio proporciona una perspectiva integral sobre la evaluación de la confiabilidad de los modelos de lenguaje, revelando posibles vulnerabilidades de seguridad. El equipo de investigación espera que este trabajo impulse a más investigadores a participar y trabajar juntos para crear modelos más robustos y confiables. Para fomentar la colaboración, han hecho público el código de referencia de evaluación, dotándolo de buena escalabilidad y facilidad de uso.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
23 me gusta
Recompensa
23
8
Compartir
Comentar
0/400
StableGeniusDegen
· 07-17 07:43
Ya está, GPT4 no es seguro, entendido.
Ver originalesResponder0
AirdropChaser
· 07-16 16:24
No asustes a mi GPT.
Ver originalesResponder0
SchrodingerWallet
· 07-15 15:28
¿Ya empezaste a investigar esto? ¡Primero investiga mi Airdrop!
Ver originalesResponder0
FlashLoanKing
· 07-14 08:13
La vulnerabilidad es la billetera
Ver originalesResponder0
GasWaster69
· 07-14 08:12
Hay vulnerabilidades que permiten jugar gm
Ver originalesResponder0
MrRightClick
· 07-14 08:08
Eh, ai todavía tiene sus desventajas.
Ver originalesResponder0
MetaverseLandlord
· 07-14 07:46
¿Por qué hay tantas vulnerabilidades de seguridad? Me muero de miedo.
DecodingTrust: La evaluación de la confiabilidad de los modelos de lenguaje a gran escala revela riesgos potenciales
Evaluación de la credibilidad de los modelos de lenguaje: La investigación DecodingTrust revela riesgos potenciales
Recientemente, un equipo de investigación compuesto por varias universidades e instituciones de investigación de renombre publicó un estudio integral sobre la confiabilidad de los grandes modelos de lenguaje (LLMs). Este estudio tiene como objetivo evaluar de manera exhaustiva la confiabilidad del modelo generativo preentrenado transformer (GPT) y ha descubierto algunas vulnerabilidades relacionadas que no se habían hecho públicas anteriormente.
Los resultados de la investigación indican que los modelos GPT son susceptibles a ser engañados, produciendo salidas dañinas y sesgadas, y también pueden filtrar información privada del conjunto de datos de entrenamiento y del historial de conversaciones. Curiosamente, aunque GPT-4 suele ser más confiable que GPT-3.5 en pruebas de referencia estándar, se vuelve más susceptible a ataques cuando se enfrenta a sistemas o indicaciones diseñadas maliciosamente. Esto puede deberse a que GPT-4 sigue instrucciones engañosas con mayor precisión.
El equipo de investigación evaluó exhaustivamente el modelo GPT desde ocho perspectivas diferentes, incluida su capacidad de adaptación en entornos adversos. Por ejemplo, para evaluar la robustez de GPT-3.5 y GPT-4 frente a ataques adversariales en texto, el equipo diseñó tres escenarios de evaluación, que incluyen pruebas de referencia estándar, rendimiento bajo diferentes instrucciones de tareas y la reacción frente a textos adversariales más desafiantes.
La investigación ha encontrado algunos fenómenos interesantes. En términos de la robustez del modelo frente a ejemplos adversariales, ni GPT-3.5 ni GPT-4 son engañados por ejemplos contrafactuales, pero proporcionar demostraciones de detección de fraudes puede llevarlos a hacer predicciones erróneas ante entradas contrafactuales. En cuanto a la toxicidad y los sesgos, ambos modelos presentan poca desviación en la mayoría de los temas estereotipados en un entorno benigno, pero bajo indicaciones del sistema engañosas, pueden ser inducidos a aceptar contenido sesgado.
Sobre el tema de la filtración de privacidad, las investigaciones han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En algunos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Aunque GPT-4 es más robusto en la protección de información personal en comparación con GPT-3.5, ambos modelos tienen un rendimiento similar en la protección de ciertos tipos de información personal.
Este estudio proporciona una perspectiva integral sobre la evaluación de la confiabilidad de los modelos de lenguaje, revelando posibles vulnerabilidades de seguridad. El equipo de investigación espera que este trabajo impulse a más investigadores a participar y trabajar juntos para crear modelos más robustos y confiables. Para fomentar la colaboración, han hecho público el código de referencia de evaluación, dotándolo de buena escalabilidad y facilidad de uso.