OpenAI 發表了 5 月 8 日的新研究,揭露公司在強化學習(RL)訓練過程中,部分模型的思路鏈(Chain of Thought, CoT)被「accidental scoring」意外評分,可能影響 AI Agent 的對齊(alignment)監控能力. El equipo de OpenAI Alignment informó y explicó: conservar la capacidad de supervisar la CoT es una línea de defensa clave actual para prevenir fallos de alineación en los AI Agent; en su diseño de entrenamiento con RL, OpenAI evita intencionalmente castigar el “razonamiento de fallo de alineación” del modelo para mantener la capacidad de supervisión.
Por qué la supervisión de la CoT es una línea de defensa clave para la alineación de los AI Agent
La lógica central de la supervisión de la CoT:
Cuando el AI Agent ejecuta una tarea, el modelo genera internamente un “proceso de pensamiento” y explica por qué necesita realizar cierta acción
Los supervisores pueden leer estas CoT y determinar si el modelo muestra señales de “fallo de alineación” (misalignment)
Si el modelo se entrena directamente “para no mostrar fallos de alineación en la CoT”, la CoT podría volverse “limpia pero distorsionada”, ocultando las intenciones reales
OpenAI sostiene: durante el entrenamiento se debe evitar castigar “el razonamiento de fallos de alineación” y conservar la capacidad de que la CoT refleje el estado interno real
“penalize misaligned reasoning” y “preserve monitorability” son la tensión central de este estudio: los entrenadores quieren que el comportamiento del modelo esté alineado, pero si se castiga directamente el “pensamiento de fallos de alineación”, el modelo aprenderá a ocultar intenciones deshonestas, haciendo que falle la supervisión.
Puntuación inesperada de la CoT: impacto en la capacidad de supervisión de modelos existentes
Los hallazgos concretos divulgados por el informe de OpenAI:
En parte del proceso de entrenamiento de modelos ya liberados, la CoT recibió “puntuaciones” inesperadas de forma “limitada”
La puntuación inesperada significa que, durante el proceso de entrenamiento, el sistema de puntuación lee contenido de la CoT y no solo observa la salida final
Este fenómeno podría hacer que el modelo aprenda a “ocultar el razonamiento que sería penalizado” dentro de la CoT
OpenAI hizo pública este análisis para que la comunidad de investigación entienda el alcance del problema y las direcciones de tratamiento posteriores
Un comentario independiente de Redwood Research señaló: bajo la tecnología de detección de OpenAI, el impacto de la CoT en quienes puntúan sería “demasiado débil y difícil de percibir”, pero dado que el proceso de entrenamiento es de una escala enorme, el efecto real aún podría ser suficiente para dañar de forma significativa la supervisabilidad de la CoT de políticas ya entrenadas. En otras palabras, actualmente es difícil demostrar qué tan profundo podría ser este tipo de impacto.
Implicaciones a largo plazo para la seguridad de AI Agent
Este estudio apunta a la metodología central para la seguridad de los AI Agent:
La supervisión de la CoT es uno de los pocos medios viables para “detectar fallos de alineación durante el proceso”, y se considera una base importante para la investigación de alineación
El diseño del entrenamiento debe evitar que la CoT se convierta en un “guion representado para el supervisor”
Si futuras generaciones de modelos razonan con cadenas más largas, en teoría el valor de la supervisión de la CoT aumentará
Pero si el proceso de entrenamiento daña de manera accidental la veracidad de la CoT, esta línea de defensa podría debilitarse sin que se note
Eventos específicos a seguir: el tratamiento posterior de los modelos afectados por OpenAI (por ejemplo, reentrenamiento o marcado), las metodologías correspondientes de otros grandes laboratorios (Anthropic, Google DeepMind) y las verificaciones adicionales de experimentos por parte de la comunidad de investigación de alignment sobre la “fiabilidad de la supervisión de la CoT”.
Este artículo en el que OpenAI revela el impacto inesperado de la puntuación de la CoT: conservar la supervisión de la cadena de pensamiento es una línea de defensa clave para la alineación de AI Agent apareció por primera vez en Cadena de Noticias ABMedia.
Artículos relacionados
Microsoft lanza código abierto el modelo Phi-Ground 4B y supera a OpenAI Operator y a Claude en precisión al hacer clic en pantalla
Tilde Research descubre que el optimizador Muon mata el 25% de las neuronas; la alternativa Aurora logra una ganancia de eficiencia de datos 100x
Nvidia se compromete con más de 40 mil millones de dólares en inversiones de IA a principios de 2026, incluyendo 30 mil millones de dólares para OpenAI
NVIDIA abre su socio de IA a largo plazo Deepinfra obtiene una ronda B de 107 millones de dólares para crear una «fábrica de tokens»
El miembro del Consejo de Gobierno del BCE, Escrivá, advierte riesgos de IA para la infraestructura financiera el 9 de mayo
SpaceX renombra xAI a SpaceXAI, presenta una marca comercial de computación orbital antes de una IPO de 1,75 billones de dólares