Le carrefour de 2025 : la réflexion annuelle d'un chercheur en IA (Première partie)

Source : Xinzhiyuan | Éditeur : Taozi

Un choix clair derrière la reconversion professionnelle

Que peut-on apprendre lorsqu’un chercheur fait face à un changement inattendu à un moment clé de sa carrière ?

Ce tournant professionnel au début de 2025 a permis à Tian Yuandong d’utiliser un cadre de décision classique pour examiner ses choix. Lorsqu’il a été invité à participer à un grand projet « Urgence », ce scientifique en IA, spécialisé depuis longtemps dans la recherche en apprentissage par renforcement, a préalablement tracé une matrice 2x2 listant quatre résultats possibles. Mais la réalité lui a offert une cinquième option — un résultat inattendu.

Cet imprévu lui a permis d’approfondir sa compréhension de la complexité sociale. Cependant, durant ces quelques mois de travail, l’équipe a effectivement réalisé des avancées sur des questions fondamentales de l’apprentissage par renforcement : stabilité de l’entraînement, interaction entre entraînement et inférence, conception d’architecture de modèles, couplage entre pré-entraînement et entraînement intermédiaire, algorithmes d’inférence longue chaîne, méthodes de génération de données, conception de cadres post-entraînement, etc. Ces résultats ont marqué un changement de paradigme important pour ses recherches ultérieures.

Tian Yuandong confie que la décision de quitter une grande entreprise était en fait mûrie depuis plusieurs années. Au cours de sa carrière de plus d’une décennie, il y a souvent pensé — à la fin de 2023, il était même sur le point de passer à l’action, mais des raisons économiques et familiales l’ont fait changer d’avis à chaque fois. Ces dernières années, il plaisantait en disant que ses comportements et paroles semblaient « suggérer » à l’entreprise qu’il devrait partir. Cette fois, il a finalement été « aidé » à prendre sa décision.

Ce qui est intéressant, c’est que cette trajectoire en « zigzag » dans sa vie est devenue une source d’inspiration pour sa créativité. Comme le dit un vieux proverbe : « Si la voie officielle est bloquée, le poète en tire profit ; plus l’expérience de vie est riche, plus les vers sont profonds. » Une vie trop lisse manque en réalité de la tension propre à la vie elle-même.

Il se souvient qu’au début de 2021, suite à une réflexion sur « pourquoi un article n’a pas été accepté » dans son bilan annuel, il a reçu une réponse peu amicale. Mais il a choisi de garder le silence, allant jusqu’à faire semblant d’avoir été récemment promu devant ses collègues. Six mois plus tard, cette stratégie a porté ses fruits : il a effectivement été promu. Et le travail, initialement ignoré en début 2021, a finalement reçu en juillet le prix du meilleur article à ICML, devenant une référence dans le domaine de l’apprentissage par représentation.

Après le 22 octobre, tous ses canaux de communication ont été temporairement paralysés — des centaines de messages, courriels et invitations à des réunions affluaient chaque jour. Il lui a fallu plusieurs semaines pour retrouver une vie normale. Il remercie tous ceux qui se sont souciés de lui durant cette période, même s’il admet que certains messages n’ont pas reçu de réponse rapide.

Finalement, parmi plusieurs propositions de grandes entreprises technologiques, il a choisi de rejoindre une nouvelle startup en tant que co-fondateur. Les détails restent confidentiels pour l’instant, car il préfère se concentrer sur son travail plutôt que de tout dévoiler prématurément.

La carte de recherche pour 2025 : trois axes principaux

Tian Yuandong a tracé une ligne directrice claire pour ses recherches : l’efficacité de l’inférence dans les grands modèles et l’interprétabilité des modèles.

Diffusion de l’inférence continue dans l’espace latent

Le travail sur l’inférence continue dans l’espace latent (coconut, COLM’25), publié fin 2024, a suscité un large écho en 2025. La communauté de recherche a commencé à explorer : comment appliquer cette idée dans l’apprentissage par renforcement et le pré-entraînement ? Comment optimiser l’efficacité de l’entraînement et réduire les coûts de calcul ?

Bien que son équipe ait été redirigée vers d’autres projets, empêchant une exploration approfondie de cette voie, cette orientation a déjà prouvé sa valeur. Au premier semestre, ils ont publié un article d’analyse théorique, « Reasoning by Superposition » (NeurIPS’25), qui explique rigoureusement, d’un point de vue mathématique, les avantages de l’inférence continue dans l’espace latent par rapport aux méthodes traditionnelles, attirant beaucoup d’attention.

Percées multidimensionnelles dans l’efficacité de l’inférence

Réduire le coût de l’inférence dans les grands modèles est un projet systémique. L’équipe de Tian Yuandong avance sur plusieurs axes :

Optimisation au niveau des tokens : Token Assorted (ICLR’25), qui apprend dans l’espace latent des tokens discrets (avec VQVAE), puis lors du post-entraînement, mélange ces tokens discrets avec les tokens textuels, permettant une réduction significative du coût d’inférence tout en améliorant la performance.

Arrêt d’inférence basé sur la confiance : DeepConf détecte le niveau de confiance de chaque token généré, décidant dynamiquement si le processus d’inférence peut s’arrêter plus tôt, réduisant ainsi considérablement le nombre de tokens consommés. Dans des scénarios comme le vote majoritaire, la performance est même meilleure.

Accélération de l’entraînement de chaînes d’inférence parallèles : ThreadWeaver crée des chaînes d’inférence parallèles, et grâce à un entraînement postérieur, optimise la collaboration entre ces chaînes, accélérant tout le processus d’inférence.

De plus, l’équipe a exploré la capacité d’inférence renforcée par l’apprentissage par renforcement sur de petits modèles (Sandwiched Policy Gradient), et a même réussi à apprendre des inférences complexes dans des modèles légers comme MobileLLM-R1.

Interprétabilité : du « pourquoi c’est efficace » au « pourquoi c’est forcément efficace »

L’intérêt de Tian Yuandong pour le phénomène de Grokking (l’illumination soudaine) remonte à deux ans, lorsqu’il était confronté à une énigme centrale : en analysant l’apprentissage de représentations, il pouvait décrire la dynamique d’apprentissage et le mécanisme de collapse, mais ne pouvait répondre à une question fondamentale — quelles représentations le modèle a-t-il réellement appris ? Quel est leur rapport avec la structure des données ? Jusqu’où peuvent-elles généraliser ?

Le phénomène de Grokking — la transition soudaine de la mémoire à la généralisation — semble être une fenêtre sur cette énigme. Les premières explorations ont été difficiles. En 2024, le travail COGS (NeurIPS’25) ne pouvait analyser que des cas particuliers, ce qui ne le satisfaisait pas entièrement. Après plus d’un an de réflexion et de dialogues avec GPT, le récent article « Provable Scaling Laws » marque une avancée majeure : il permet d’analyser des phénomènes inaccessibles au cadre linéaire NTK, et explique de manière satisfaisante la dynamique d’émergence des caractéristiques lors de l’entraînement. Bien que les exemples restent spécifiques, cela ouvre au moins une nouvelle perspective.

Le dernier travail de l’année, « The path not taken », est celui dont il est le plus satisfait — il donne une réponse préliminaire au niveau des poids, expliquant pourquoi la différence de comportement entre apprentissage par renforcement et fine-tuning supervisé (SFT) est si grande.

Le SFT entraîne un surapprentissage et une catastrophe de l’oubli, la cause superficielle étant le manque de caractéristiques on-policy dans les données d’entraînement, mais la cause profonde étant que les données externes modifient fortement la composante principale des poids, détruisant la stabilité « de base ». L’apprentissage par renforcement, en utilisant des données on-policy, maintient cette composante principale inchangée, ne modifiant que les composantes secondaires, évitant ainsi la catastrophe de l’oubli — et ces modifications de poids sont plus dispersées (notamment sous quantification bf16).

Pourquoi l’interprétabilité mérite notre confiance

Beaucoup pensent que l’interprétabilité — c’est-à-dire « pourquoi l’IA est si efficace » — n’est pas une question cruciale. Mais pour Tian Yuandong, c’est une question centrale pour l’avenir.

Considérons deux scénarios futurs :

Scénario 1 : si l’AGI ou même l’ASI sont atteints simplement par scaling, alors la valeur du travail humain devient proche de zéro. Dans ce cas, l’IA, en tant que boîte noire géante, résout tous les problèmes. La question la plus urgente devient : comment s’assurer que cette super-intelligence reste bienveillante, qu’elle ne trompe ou ne fasse le mal en secret ? La réponse passe par la recherche en interprétabilité.

Scénario 2 : si la voie du scaling atteint ses limites, et que l’humanité ne peut plus satisfaire une croissance exponentielle des ressources, alors il faut explorer d’autres voies. Dans ce cas, comprendre pourquoi le modèle est efficace, et ce qui peut le faire échouer, devient essentiel. La recherche en interprétabilité est la pierre angulaire de cette alternative.

Dans tous les cas, l’interprétabilité est la clé pour dénouer la situation. Même si l’IA devient omnisciente et bienveillante, la nature humaine nous poussera à comprendre comment elle fonctionne. Après tout, le « boîte noire » elle-même engendre une chaîne de doutes.

À l’ère où la technologie des grands modèles atteint ou dépasse le niveau moyen humain, la « loi de la forêt sombre » de Tripode pourrait se manifester sous une autre forme. Aujourd’hui, ouvrir la boîte noire d’un modèle entraîné et en explorer le circuit interne reste une tâche initiale.

La véritable difficulté de la recherche en interprétabilité réside dans le fait que : partant des principes premiers — c’est-à-dire de la structure du modèle, du gradient et des données — il faut expliquer pourquoi le modèle converge vers ces caractéristiques déconnectées, sparses, de rang faible, modulaires, ou facilement recomposables. Pourquoi existe-t-il autant d’explications équivalentes ? Quels hyperparamètres favorisent l’émergence de ces structures ? Comment ces structures sont-elles reliées entre elles ?

Lorsque nous pourrons déduire directement des équations du gradient la nécessité de l’émergence de ces caractéristiques dans de grands modèles, l’interprétabilité passera du stade de « collecte de preuves » à celui de « dérivation des principes » au sens physique, guidant la pratique et ouvrant de nouvelles voies pour la conception de la prochaine génération d’IA.

Pour faire une analogie avec la physique d’il y a quatre cents ans : à cette époque, nous avions beaucoup de données collectées par Tycho Brahe (le « collecteur de données » dans le domaine de l’IA), quelques Kepler (les « hypothèses »), mais pas encore Newton (le « découvreur de principes »). Lorsque ce moment arrivera, le visage du monde changera radicalement.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)