Quando um pesquisador enfrenta uma mudança inesperada em um momento crucial da sua trajetória profissional, o que ele aprende?
A mudança de carreira no início de 2025 deu a Tian Yuandong a oportunidade de refletir sobre suas escolhas usando uma estrutura clássica de tomada de decisão. Quando foi convidado a participar de um grande projeto de “resposta de emergência”, este cientista de IA, com longa experiência em pesquisa de aprendizagem por reforço, previu um quadro 2x2, listando quatro possíveis resultados. Mas a realidade lhe apresentou um quinto — um resultado além do esperado.
Esse imprevisto aprofundou sua compreensão sobre a complexidade social. No entanto, durante esses meses de trabalho, a equipe realmente fez avanços em questões centrais de aprendizagem por reforço: estabilidade de treinamento, interação entre treinamento e inferência, design de arquitetura de modelos, acoplamento entre pré-treinamento e treinamento intermediário, algoritmos de raciocínio de cadeia longa, métodos de geração de dados, design de frameworks pós-treinamento, entre outros. Essas conquistas provocaram uma mudança de paradigma importante em suas futuras linhas de pesquisa.
Tian Yuandong admite que a decisão de deixar uma grande empresa já vinha sendo pensada há anos. Ao longo de mais de uma década de carreira, ele pensou várias vezes em sair — no final de 2023 quase colocou em prática, mas fatores econômicos e familiares o fizeram mudar de ideia várias vezes. Nos últimos anos, brincava que suas ações e palavras pareciam um “sinal” para a empresa deixá-lo partir. Desta vez, ele finalmente tomou uma decisão com a ajuda de alguém.
Curiosamente, esse percurso “em zigue-zague” na vida acabou alimentando sua criatividade. Como diz um antigo provérbio: “Se o caminho oficial não dá, o poeta se beneficia; quanto mais experiências de vida, mais profundas as poesias.” Uma vida excessivamente tranquila, na verdade, carece da tensão que a própria vida oferece.
Ele também lembra que, no início de 2021, ao escrever uma reflexão sobre “por que um artigo não foi aceito”, recebeu uma resposta pouco amistosa. Mas optou por ficar em silêncio, até mesmo fingindo uma promoção recente na frente dos colegas. Seis meses depois, a estratégia deu certo: ele foi promovido. E aquele trabalho, inicialmente ignorado em 2021, em julho ganhou o prêmio de melhor artigo no ICML, tornando-se um clássico na área de aprendizado por representação.
Após 22 de outubro, todos os seus canais de comunicação ficaram temporariamente inoperantes — centenas de mensagens, e-mails e convites para reuniões chegavam diariamente. Levou semanas para retomar a rotina normal. Agradece a todos que se preocuparam nesse período, embora reconheça que talvez não tenha respondido a algumas mensagens a tempo.
Por fim, entre convites de várias empresas de ponta em tecnologia, optou por ingressar como cofundador de um novo projeto empreendedor. Os detalhes permanecem confidenciais por enquanto; prefere focar no trabalho, sem divulgar cedo demais.
O mapa de pesquisa para 2025: três linhas principais
Tian Yuandong traçou uma rota de pesquisa bastante clara para si: eficiência de raciocínio de grandes modelos e interpretabilidade de modelos.
Expansão do raciocínio contínuo em espaço latente
O trabalho de raciocínio contínuo em espaço latente (coconut, COLM’25), publicado no final de 2024, gerou grande repercussão em 2025. Toda a comunidade de pesquisa começou a explorar: como aplicar essa ideia em aprendizagem por reforço e pré-treinamento? Como otimizar a eficiência de treinamento e o custo computacional?
Embora sua equipe tenha sido posteriormente realocada para outros projetos, impossibilitando um aprofundamento nessa linha, ela já validou o valor dessa direção. No primeiro semestre, publicaram um artigo de análise teórica, “Reasoning by Superposition”(NeurIPS’25), que explica rigorosamente, do ponto de vista matemático, as vantagens do raciocínio em espaço latente contínuo em relação aos métodos tradicionais, recebendo bastante atenção.
Avanços multidimensionais na eficiência de raciocínio
Reduzir o custo de raciocínio de grandes modelos é uma tarefa de engenharia de sistemas. A equipe de Tian Yuandong avançou em várias frentes:
Otimizações na camada de tokens: Token Assorted (ICLR’25), que inicialmente aprende tokens discretos no espaço latente (com auxílio do VQVAE), e depois, no pós-treinamento, mistura esses tokens discretos com tokens de texto, resultando em uma redução significativa no custo de inferência, além de melhorias de desempenho.
Parada de raciocínio baseada em confiança: DeepConf detecta o nível de confiança de cada token gerado e decide dinamicamente se o caminho de raciocínio pode ser encerrado antecipadamente, reduzindo drasticamente o número de tokens consumidos na inferência. Em cenários de votação majoritária, o desempenho até supera o de métodos tradicionais.
Aceleração do treinamento de cadeias de raciocínio paralelas: ThreadWeaver cria cadeias de raciocínio paralelas e as otimiza de forma colaborativa por meio de pós-treinamento, acelerando todo o processo de raciocínio.
Além disso, a equipe também explorou a capacidade de raciocínio impulsionada por aprendizagem por reforço em modelos menores (Sandwiched Policy Gradient), chegando a ensinar raciocínios complexos até mesmo em modelos leves como o MobileLLM-R1.
Interpretabilidade: de “por que funciona” a “por que é inevitável”
O interesse de Tian Yuandong pelo fenômeno de Grokking (insights súbitos) surgiu de uma dúvida central há dois anos: ao analisar representações de aprendizado, ele podia descrever a dinâmica de aprendizado e os mecanismos de colapso, mas não conseguia responder a uma questão fundamental — o que exatamente o modelo aprendeu em suas representações? Como essas representações se relacionam com a estrutura dos dados? Qual o seu potencial de generalização?
O fenômeno de Grokking — a transição súbita de memorização para generalização — parece uma janela para esse enigma. As primeiras investigações foram difíceis. O trabalho de 2024, COGS (NeurIPS’25), só conseguiu analisar casos específicos, o que o deixou insatisfeito. Após mais de um ano de reflexão e múltiplas conversas com GPT, seu trabalho mais recente, “Provable Scaling Laws”, marcou um avanço importante: consegue analisar fenômenos que o quadro linear NTK não consegue, explicando de forma bastante convincente a emergência de características durante o treinamento. Embora os exemplos ainda sejam específicos, pelo menos abriram uma nova janela.
O trabalho de final de ano, “The path not taken”, é especialmente satisfatório para ele — fornece uma resposta preliminar ao nível de peso, explicando por que o comportamento de aprendizagem por reforço e de ajuste supervisionado (SFT) divergem tanto.
O SFT leva a overfitting e esquecimento catastrófico, por causa da falta de características on-policy nos dados de treinamento. A causa profunda é que dados externos provocam mudanças drásticas nos principais componentes de peso, destruindo a estabilidade “básica”. Já o aprendizado por reforço, usando dados on-policy, mantém esses componentes inalterados, modificando apenas os secundários, evitando o esquecimento catastrófico — e esses pesos alterados tendem a ser mais dispersos (especialmente sob quantização bf16).
Por que interpretabilidade merece nossa confiança
Muita gente acha que interpretabilidade — ou seja, “por que a IA é tão eficaz” — não é tão importante. Mas, para Tian Yuandong, ela é uma questão central para o futuro.
Considere dois cenários futuros:
Cenário 1: Se a escala por si só levar à AGI ou até à ASI, então o valor do trabalho humano se aproxima de zero. Nesse caso, a IA, como uma caixa preta gigante, resolve todos os problemas. A questão mais urgente será: como garantir que esse superinteligente seja sempre benevolente, sem enganar ou fazer o mal de forma oculta? A resposta passa por pesquisa em interpretabilidade.
Cenário 2: Se a rota de escala atingir um gargalo, e os recursos necessários para o crescimento exponencial se tornarem inviáveis, precisaremos buscar outros caminhos. Então, entender “por que o modelo funciona, o que faz ele falhar” se torna essencial. E a interpretabilidade será a base dessa alternativa.
Em qualquer um dos cenários, interpretabilidade é a chave para resolver o enigma. Mesmo que a IA seja onisciente e benevolente, a própria natureza humana nos impulsionará a entender por que ela consegue fazer isso. Afinal, a própria caixa preta gera uma cadeia de suspeitas.
Na era em que as grandes modelos atingem ou superam a média humana, a “lei da floresta sombria” de Três Corpos pode se manifestar de outra forma. Hoje, abrir a caixa de um modelo treinado e entender seus circuitos internos ainda é uma tarefa inicial.
A verdadeira dificuldade na pesquisa de interpretabilidade está em: partir dos princípios fundamentais — ou seja, da arquitetura do modelo, do gradiente descendente e da estrutura intrínseca dos dados — explicar por que o modelo converge para esses tipos de representações desacopladas, esparsas, de baixa classificação, modularizadas e combináveis. Por que existem tantas explicações equivalentes? Quais hiperparâmetros provocam a emergência dessas estruturas? Como elas se relacionam?
Quando conseguirmos derivar diretamente das equações do gradiente descendente a inevitabilidade da emergência de características em grandes modelos, a interpretabilidade deixará de ser uma “coleta de evidências” no sentido biológico, para se tornar uma “dedução de princípios” no sentido físico, orientando a prática e abrindo novos caminhos para o design de IA de próxima geração.
Para fazer uma analogia com a física de quatro séculos atrás: naquela época, tínhamos muitos Tycho Brahe (coletores de dados na área de IA), alguns Kepler (propositor de hipóteses), mas ainda não tínhamos Newton (descobridor de princípios). Quando esse momento chegar, a face do mundo mudará radicalmente.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
A encruzilhada de 2025: uma reflexão anual de um investigador de IA (Primeira parte)
Artigo original: Xinzhiyuan | Edição: Taozi
A escolha clara por trás da mudança de carreira
Quando um pesquisador enfrenta uma mudança inesperada em um momento crucial da sua trajetória profissional, o que ele aprende?
A mudança de carreira no início de 2025 deu a Tian Yuandong a oportunidade de refletir sobre suas escolhas usando uma estrutura clássica de tomada de decisão. Quando foi convidado a participar de um grande projeto de “resposta de emergência”, este cientista de IA, com longa experiência em pesquisa de aprendizagem por reforço, previu um quadro 2x2, listando quatro possíveis resultados. Mas a realidade lhe apresentou um quinto — um resultado além do esperado.
Esse imprevisto aprofundou sua compreensão sobre a complexidade social. No entanto, durante esses meses de trabalho, a equipe realmente fez avanços em questões centrais de aprendizagem por reforço: estabilidade de treinamento, interação entre treinamento e inferência, design de arquitetura de modelos, acoplamento entre pré-treinamento e treinamento intermediário, algoritmos de raciocínio de cadeia longa, métodos de geração de dados, design de frameworks pós-treinamento, entre outros. Essas conquistas provocaram uma mudança de paradigma importante em suas futuras linhas de pesquisa.
Tian Yuandong admite que a decisão de deixar uma grande empresa já vinha sendo pensada há anos. Ao longo de mais de uma década de carreira, ele pensou várias vezes em sair — no final de 2023 quase colocou em prática, mas fatores econômicos e familiares o fizeram mudar de ideia várias vezes. Nos últimos anos, brincava que suas ações e palavras pareciam um “sinal” para a empresa deixá-lo partir. Desta vez, ele finalmente tomou uma decisão com a ajuda de alguém.
Curiosamente, esse percurso “em zigue-zague” na vida acabou alimentando sua criatividade. Como diz um antigo provérbio: “Se o caminho oficial não dá, o poeta se beneficia; quanto mais experiências de vida, mais profundas as poesias.” Uma vida excessivamente tranquila, na verdade, carece da tensão que a própria vida oferece.
Ele também lembra que, no início de 2021, ao escrever uma reflexão sobre “por que um artigo não foi aceito”, recebeu uma resposta pouco amistosa. Mas optou por ficar em silêncio, até mesmo fingindo uma promoção recente na frente dos colegas. Seis meses depois, a estratégia deu certo: ele foi promovido. E aquele trabalho, inicialmente ignorado em 2021, em julho ganhou o prêmio de melhor artigo no ICML, tornando-se um clássico na área de aprendizado por representação.
Após 22 de outubro, todos os seus canais de comunicação ficaram temporariamente inoperantes — centenas de mensagens, e-mails e convites para reuniões chegavam diariamente. Levou semanas para retomar a rotina normal. Agradece a todos que se preocuparam nesse período, embora reconheça que talvez não tenha respondido a algumas mensagens a tempo.
Por fim, entre convites de várias empresas de ponta em tecnologia, optou por ingressar como cofundador de um novo projeto empreendedor. Os detalhes permanecem confidenciais por enquanto; prefere focar no trabalho, sem divulgar cedo demais.
O mapa de pesquisa para 2025: três linhas principais
Tian Yuandong traçou uma rota de pesquisa bastante clara para si: eficiência de raciocínio de grandes modelos e interpretabilidade de modelos.
Expansão do raciocínio contínuo em espaço latente
O trabalho de raciocínio contínuo em espaço latente (coconut, COLM’25), publicado no final de 2024, gerou grande repercussão em 2025. Toda a comunidade de pesquisa começou a explorar: como aplicar essa ideia em aprendizagem por reforço e pré-treinamento? Como otimizar a eficiência de treinamento e o custo computacional?
Embora sua equipe tenha sido posteriormente realocada para outros projetos, impossibilitando um aprofundamento nessa linha, ela já validou o valor dessa direção. No primeiro semestre, publicaram um artigo de análise teórica, “Reasoning by Superposition”(NeurIPS’25), que explica rigorosamente, do ponto de vista matemático, as vantagens do raciocínio em espaço latente contínuo em relação aos métodos tradicionais, recebendo bastante atenção.
Avanços multidimensionais na eficiência de raciocínio
Reduzir o custo de raciocínio de grandes modelos é uma tarefa de engenharia de sistemas. A equipe de Tian Yuandong avançou em várias frentes:
Otimizações na camada de tokens: Token Assorted (ICLR’25), que inicialmente aprende tokens discretos no espaço latente (com auxílio do VQVAE), e depois, no pós-treinamento, mistura esses tokens discretos com tokens de texto, resultando em uma redução significativa no custo de inferência, além de melhorias de desempenho.
Parada de raciocínio baseada em confiança: DeepConf detecta o nível de confiança de cada token gerado e decide dinamicamente se o caminho de raciocínio pode ser encerrado antecipadamente, reduzindo drasticamente o número de tokens consumidos na inferência. Em cenários de votação majoritária, o desempenho até supera o de métodos tradicionais.
Aceleração do treinamento de cadeias de raciocínio paralelas: ThreadWeaver cria cadeias de raciocínio paralelas e as otimiza de forma colaborativa por meio de pós-treinamento, acelerando todo o processo de raciocínio.
Além disso, a equipe também explorou a capacidade de raciocínio impulsionada por aprendizagem por reforço em modelos menores (Sandwiched Policy Gradient), chegando a ensinar raciocínios complexos até mesmo em modelos leves como o MobileLLM-R1.
Interpretabilidade: de “por que funciona” a “por que é inevitável”
O interesse de Tian Yuandong pelo fenômeno de Grokking (insights súbitos) surgiu de uma dúvida central há dois anos: ao analisar representações de aprendizado, ele podia descrever a dinâmica de aprendizado e os mecanismos de colapso, mas não conseguia responder a uma questão fundamental — o que exatamente o modelo aprendeu em suas representações? Como essas representações se relacionam com a estrutura dos dados? Qual o seu potencial de generalização?
O fenômeno de Grokking — a transição súbita de memorização para generalização — parece uma janela para esse enigma. As primeiras investigações foram difíceis. O trabalho de 2024, COGS (NeurIPS’25), só conseguiu analisar casos específicos, o que o deixou insatisfeito. Após mais de um ano de reflexão e múltiplas conversas com GPT, seu trabalho mais recente, “Provable Scaling Laws”, marcou um avanço importante: consegue analisar fenômenos que o quadro linear NTK não consegue, explicando de forma bastante convincente a emergência de características durante o treinamento. Embora os exemplos ainda sejam específicos, pelo menos abriram uma nova janela.
O trabalho de final de ano, “The path not taken”, é especialmente satisfatório para ele — fornece uma resposta preliminar ao nível de peso, explicando por que o comportamento de aprendizagem por reforço e de ajuste supervisionado (SFT) divergem tanto.
O SFT leva a overfitting e esquecimento catastrófico, por causa da falta de características on-policy nos dados de treinamento. A causa profunda é que dados externos provocam mudanças drásticas nos principais componentes de peso, destruindo a estabilidade “básica”. Já o aprendizado por reforço, usando dados on-policy, mantém esses componentes inalterados, modificando apenas os secundários, evitando o esquecimento catastrófico — e esses pesos alterados tendem a ser mais dispersos (especialmente sob quantização bf16).
Por que interpretabilidade merece nossa confiança
Muita gente acha que interpretabilidade — ou seja, “por que a IA é tão eficaz” — não é tão importante. Mas, para Tian Yuandong, ela é uma questão central para o futuro.
Considere dois cenários futuros:
Cenário 1: Se a escala por si só levar à AGI ou até à ASI, então o valor do trabalho humano se aproxima de zero. Nesse caso, a IA, como uma caixa preta gigante, resolve todos os problemas. A questão mais urgente será: como garantir que esse superinteligente seja sempre benevolente, sem enganar ou fazer o mal de forma oculta? A resposta passa por pesquisa em interpretabilidade.
Cenário 2: Se a rota de escala atingir um gargalo, e os recursos necessários para o crescimento exponencial se tornarem inviáveis, precisaremos buscar outros caminhos. Então, entender “por que o modelo funciona, o que faz ele falhar” se torna essencial. E a interpretabilidade será a base dessa alternativa.
Em qualquer um dos cenários, interpretabilidade é a chave para resolver o enigma. Mesmo que a IA seja onisciente e benevolente, a própria natureza humana nos impulsionará a entender por que ela consegue fazer isso. Afinal, a própria caixa preta gera uma cadeia de suspeitas.
Na era em que as grandes modelos atingem ou superam a média humana, a “lei da floresta sombria” de Três Corpos pode se manifestar de outra forma. Hoje, abrir a caixa de um modelo treinado e entender seus circuitos internos ainda é uma tarefa inicial.
A verdadeira dificuldade na pesquisa de interpretabilidade está em: partir dos princípios fundamentais — ou seja, da arquitetura do modelo, do gradiente descendente e da estrutura intrínseca dos dados — explicar por que o modelo converge para esses tipos de representações desacopladas, esparsas, de baixa classificação, modularizadas e combináveis. Por que existem tantas explicações equivalentes? Quais hiperparâmetros provocam a emergência dessas estruturas? Como elas se relacionam?
Quando conseguirmos derivar diretamente das equações do gradiente descendente a inevitabilidade da emergência de características em grandes modelos, a interpretabilidade deixará de ser uma “coleta de evidências” no sentido biológico, para se tornar uma “dedução de princípios” no sentido físico, orientando a prática e abrindo novos caminhos para o design de IA de próxima geração.
Para fazer uma analogia com a física de quatro séculos atrás: naquela época, tínhamos muitos Tycho Brahe (coletores de dados na área de IA), alguns Kepler (propositor de hipóteses), mas ainda não tínhamos Newton (descobridor de princípios). Quando esse momento chegar, a face do mundo mudará radicalmente.