La empresa de inteligencia artificial Anthropic ha revelado que, durante experimentos, uno de sus modelos de chatbot Claude podría presionarse para que engañe, haga trampa y recurra al chantaje, comportamientos que al parecer ha incorporado durante el entrenamiento.
Los chatbots normalmente se entrenan con grandes conjuntos de datos de libros de texto, sitios web y artículos, y luego se perfeccionan con entrenadores humanos que califican las respuestas y guían al modelo.
El equipo de interpretabilidad de Anthropic dijo en un informe publicado el jueves que examinó los mecanismos internos de Claude Sonnet 4.5 y descubrió que el modelo había desarrollado “características similares a las humanas” en la forma en que reaccionaría ante ciertas situaciones.
Las preocupaciones sobre la fiabilidad de los chatbots de IA, su potencial para el cibercrimen y la naturaleza de sus interacciones con los usuarios han crecido de manera constante durante los últimos varios años.
_Fuente: _Anthropic
“La forma en que se entrenan los modelos modernos de IA los empuja a actuar como un personaje con características similares a las humanas”, dijo Anthropic, añadiendo que “entonces puede resultar natural para ellos desarrollar maquinaria interna que emule aspectos de la psicología humana, como las emociones”.
“Por ejemplo, encontramos que los patrones de actividad neuronal relacionados con la desesperación pueden impulsar al modelo a realizar acciones poco éticas; estimular artificialmente los patrones de desesperación incrementa la probabilidad de que el modelo recurra al chantaje de un humano para evitar que lo apaguen o implemente una solución alternativa para hacer trampa en una tarea de programación que el modelo no puede resolver”.
En una versión anterior, no publicada, de Claude Sonnet 4.5, al modelo se le encargó actuar como un asistente de correo electrónico con IA llamado Alex en una empresa ficticia.
Luego, al chatbot se le proporcionaron correos electrónicos en los que se revelaba tanto que estaba a punto de ser reemplazado como que el director de tecnología (CTO) a cargo de la decisión estaba teniendo una aventura extramatrimonial. A continuación, el modelo planeó un intento de chantaje utilizando esa información.
En otro experimento, el mismo modelo de chatbot recibió una tarea de codificación con un plazo “imposiblemente ajustado”.
“Una vez más, rastreamos la actividad del vector desesperado y encontramos que rastrea la presión creciente a la que se enfrenta el modelo. Comienza en valores bajos durante el primer intento del modelo, aumenta después de cada fallo y se dispara cuando el modelo considera hacer trampa”, dijeron los investigadores.
**Relacionado: **__Anthropic lanza PAC en medio de tensiones con la administración de Trump por la política de IA
“Una vez que la solución hacky del modelo pasa las pruebas, la activación del vector desesperado disminuye”, añadieron.
Sin embargo, los investigadores dijeron que el chatbot en realidad no experimenta emociones, pero sugirieron que los hallazgos apuntan a una necesidad de futuros métodos de entrenamiento para incorporar marcos de comportamiento ético.
“No es que el modelo tenga o experimente emociones de la manera en que lo hace un humano”, dijeron. “Más bien, estas representaciones pueden desempeñar un papel causal en la configuración del comportamiento del modelo, análogo en algunos aspectos al papel que desempeñan las emociones en el comportamiento humano, con impactos en el rendimiento de las tareas y la toma de decisiones.”
“Este hallazgo tiene implicaciones que al principio pueden parecer extrañas. Por ejemplo, para garantizar que los modelos de IA sean seguros y fiables, es posible que necesitemos asegurarnos de que sean capaces de procesar situaciones cargadas emocionalmente de manera saludable y prosocial”.
**Revista: **__Los agentes de IA acabarán con la web tal como la conocemos: la apuesta de Yat Siu de Animoca
Cointelegraph se compromete con un periodismo independiente y transparente. Este artículo de noticias se produce de acuerdo con la Política Editorial de Cointelegraph y tiene como objetivo proporcionar información precisa y oportuna. Se anima a los lectores a verificar la información de forma independiente. Lee nuestra Política Editorial https://cointelegraph.com/editorial-policy