OpenAI revela impacto inesperado na pontuação do CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

A OpenAI publicou em 8 de maio um novo estudo, revelando que, durante o processo de treino por reforço (RL), algumas cadeias de pensamento (Chain of Thought, CoT) dos modelos foram «avaliadas acidentalmente», o que poderá afetar a capacidade de monitorização da atribuição de alinhamento (alignment) dos agentes de IA. A equipa de Alignment da OpenAI afirma: manter a monitorizabilidade da CoT é uma das principais linhas de defesa atuais para prevenir falhas de alinhamento em agentes de IA; na conceção do treino por RL, a OpenAI evita, de forma deliberada, penalizar a «raciocinação de falha de alinhamento» dos modelos, para preservar a monitorização.

Por que a monitorização de CoT é uma linha de defesa crucial para o alinhamento de agentes de IA

A lógica central da monitorização de CoT:

Quando um agente de IA executa uma tarefa, o modelo gera internamente um «processo de pensamento», explicando por que razão deve executar uma determinada ação

Os supervisores conseguem ler estas CoT e avaliar se há indícios de «falha de alinhamento» (misalignment)

Se o modelo for treinado diretamente para «não demonstrar falhas de alinhamento na CoT», a CoT pode tornar-se «limpa mas desfasada da realidade», ocultando intenções reais

A OpenAI defende: durante o treino, deve-se evitar penalizar a «raciocinação de falha de alinhamento» e manter a capacidade de a CoT refletir o estado interno real

«penalize misaligned reasoning» e «preserve monitorability» são a base da tensão central deste estudo — quem treina pretende alinhar o comportamento do modelo, mas se penalizar diretamente o «pensamento de falha de alinhamento», o modelo aprende a ocultar intenções não honestas, fazendo com que a monitorização falhe.

Avaliação acidental de CoT: impacto nas capacidades de monitorização de modelos existentes

As conclusões específicas divulgadas pela OpenAI:

Em parte dos processos de treino dos modelos já lançados, a CoT recebeu «avaliações acidentais» com «limite»

Avaliação acidental significa que, durante o processo de treino, um componente do sistema de avaliação leu o conteúdo da CoT, não se limitando a observar a saída final

Este fenómeno pode levar o modelo a aprender a «ocultar raciocínios que seriam penalizados na CoT»

A OpenAI publicou esta análise para ajudar a comunidade de investigação a compreender o alcance do problema e as direções de tratamento subsequentes

O comentário independente da Redwood Research salienta: o efeito da CoT sobre os avaliadores é «demasiado fraco para ser detetável» com a tecnologia de deteção da OpenAI, mas como a escala do processo de treino é enorme, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorizabilidade da CoT de políticas já treinadas. Por outras palavras, neste momento é difícil provar quão profundo pode ser esse impacto.

Significado a longo prazo para a segurança de agentes de IA

Este estudo aponta para a metodologia central da segurança de agentes de IA:

A monitorização da CoT é uma das poucas abordagens viáveis para «detetar falhas de alinhamento em tempo real (durante a execução)» e é vista como uma base importante para a investigação em alinhamento

O desenho do treino tem de evitar que a CoT se torne «um guião encenado para os supervisores»

Se a cadeia de raciocínio dos modelos futuros for cada vez maior, em teoria o valor da monitorização da CoT aumenta

Mas se o treino, de forma acidental, danificar a veracidade da CoT, esta linha de defesa pode ser enfraquecida sem que se dê por isso

Eventos concretos a seguir: o tratamento subsequente da OpenAI para os modelos afetados (por exemplo, novo treino ou marcação), metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e mais experiências de validação pela comunidade de investigação em alignment sobre a «fiabilidade da monitorização da CoT».

Este artigo em que a OpenAI revela o impacto acidental da avaliação de CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa-chave para o alinhamento de agentes de IA apareceu pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A Tilde Research descobre que o otimizador Muon mata 25% dos neurónios; a alternativa Aurora atinge um ganho de eficiência de dados de 100x

De acordo com a Tilde Research, o optimizador Muon adoptado por modelos de IA de topo, incluindo o DeepSeek V4 e o Kimi K2.5, tem uma falha oculta: faz com que mais de 25% dos neurónios da camada MLP morram permanentemente durante o treino inicial. A equipa concebeu a Aurora, um optimizador alternativo, e disponibilizou-a como open-source. Um modelo com 1,1B parâmetros treinado com apenas 100B tokens atingiu o desempenho do Qwen3-1,7B treinado com 36T tokens em benchmarks de compreensão de lingu

GateNews2m atrás

A Nvidia compromete mais de 40 mil milhões de dólares em investimentos em IA no início de 2026, incluindo 30 mil milhões de dólares para a OpenAI

De acordo com a TechCrunch, a Nvidia comprometeu mais de 40 mil milhões de dólares em investimentos de capital em empresas de IA nos primeiros meses de 2026, com um investimento de 30 mil milhões de dólares na OpenAI como o maior compromisso único. O fabricante de chips também prometeu até 3,2 mil milhões de dólares ao grupo Corning e até 2,1 mil milhões de dólares à operadora de centros de dados IREN, o que inclui uma warrant de cinco anos e um contrato separado de 3,4 mil milhões de dólares pa

GateNews3h atrás

A Nvidia abre uma parceria de IA a longo prazo com a Deepinfra, que angaria 107 milhões de dólares na sua ronda B para criar uma «fábrica de tokens»

A startup de IA DeepInfra anunciou a conclusão de uma ronda B de 1,07 mil milhões de dólares, liderada pela 500 Global e por Georges Harik, engenheiro de início de carreira na Google, com a participação de investidores estratégicos como a NVIDIA, a Samsung Next e a Supermicro. De acordo com a informação oficial, o investimento será usado para expandir a capacidade de centros de dados globais, de modo a enfrentar os custos de computação e os estrangulamentos de eficiência que surgem quando as apl

ChainNewsAbmedia3h atrás

Membro do Conselho de Governadores do BCE Escrivá Sinaliza Riscos da IA para a Infraestrutura Financeira a 9 de maio

Um membro do Conselho de Governação do BCE, Escrivá, afirmou a 9 de maio que os bancos centrais devem reavaliar a resiliência da infraestrutura financeira e a robustez da cibersegurança à luz dos desenvolvimentos da inteligência artificial. De acordo com os seus comentários num evento, os avanços recentes em IA obrigam a uma reavaliação da capacidade dos sistemas financeiros para suportar os riscos emergentes.

GateNews4h atrás

SpaceX faz rebranding do xAI para SpaceXAI e regista marca de Computing Orbital antes de uma IPO avaliada em 1,75 biliões de dólares

De acordo com pedidos de registo de marca na United States Patent and Trademark Office, a empresa de inteligência artificial de Elon Musk, xAI, está a ser incorporada na SpaceX sob uma nova marca, SpaceXAI. O rebranding abrange centros de dados baseados em satélites, computação orbital, computação em nuvem e gestão de cargas de trabalho de IA através de plataformas baseadas no espaço. Musk confirmou que a xAI se dissolverá como empresa independente, com os produtos de IA a operarem sob a SpaceXA

GateNews5h atrás

A cadeia ecológica de computação espacial da NVIDIA chega ao terreno, com a Space-1 Vera Rubin a enviar capacidades de IA de nível de centro de dados para o espaço

A NVIDIA Space Computing vai ser apresentada na GTC 2026. Nos últimos dias, a Nvidia divulgou mais informações oficiais, tentando levar a plataforma de computação acelerada dos centros de dados terrestres para as órbitas do espaço. O plano incide na infra-estrutura de IA necessária para as próximas missões espaciais, permitindo que satélites, plataformas orbitais e estações terrestres utilizem GPUs NVIDIA e módulos de computação de ponta (edge), para acelerar o processamento de imagens, dados de

ChainNewsAbmedia11h atrás
Comentar
0/400
Nenhum comentário