Analyse de Berkeley GEPA : l’IA peut apprendre de nouvelles tâches sans mettre à jour les poids, avec 35 fois moins de coûts d’entraînement que le RL

ChainNewsAbmedia

L’équipe de recherche de l’université de Californie à Berkeley propose une nouvelle méthode d’entraînement pour l’IA : GEPA, déjà acceptée par l’ICLR 2026 en tant qu’article Oral. GEPA ne met pas à jour les poids du modèle, ne nécessite pas d’entraînement sur GPU : il suffit d’utiliser un LLM qui « lit un journal d’entraînement » et réécrit à répétition les invites du système d’IA. Résultat : sur 6 tâches, GEPA surpasse en moyenne les méthodes d’apprentissage par renforcement dominantes de 6 %, avec un meilleur score jusqu’à 20 %, et avec un nombre d’essais d’entraînement (rollouts) inférieur de 35 fois. Après avoir été synthétisée par la communauté d’ingénierie IA, la méthode a suscité des discussions sur la plateforme X ; elle a désormais été intégrée à DSPy en tant qu’optimiseur de premier rang.

Ce que fait GEPA : utiliser les journaux d’entraînement comme support, au lieu de ne regarder que les scores

Le workflow des méthodes d’apprentissage par renforcement traditionnelles (comme GRPO) est le suivant : faire exécuter une fois une tâche à l’IA, obtenir un score « +1 ou -1 » en fonction du résultat, puis ajuster en boucle les poids du modèle à partir de ce score. Le problème, c’est que le déroulé de cette exécution d’une tâche comporte souvent des étapes de raisonnement de plusieurs milliers de tokens, des appels d’outils, des messages d’erreur : ces détails riches sont compressés en un seul score, et l’information du processus est perdue. Ainsi, le RL doit être lancé des dizaines de milliers, voire des dizaines de milliers de fois, pour converger.

La démarche de GEPA est l’inverse : une fois la tâche terminée, l’IA transmet l’intégralité du processus (reasoning, appels d’outils, historique d’erreurs) à un autre « LLM de réflexion » qui le lit tel quel. Le LLM de réflexion agit comme un ingénieur chevronné lisant un log de programme : il repère l’étape où ça s’est mal passé, pourquoi cela a échoué, et comment modifier l’invite, puis réécrit directement l’invite du module concerné. À exécution identique de la tâche, la quantité de signaux extraite par GEPA est bien plus grande que celle fournie par le seul score de RL.

Pourquoi ça marche : transformer le « score » en « lecture de tout le processus »

Sur 6 tâches, GEPA obtient en moyenne un avantage de 6 % sur GRPO, avec un maximum de 20 % ; face à un autre optimiseur d’invites dominant, MIPROv2, il dépasse aussi de plus de 10 % (avec une progression de 12 % sur le benchmark de maths AIME-2025). Le point le plus crucial est le coût d’entraînement : pour atteindre des performances comparables, GEPA a besoin de rollouts (un passage complet sur une tâche) inférieurs de 35 fois.

Une autre donnée : après l’intégration de GEPA avec DSPy, le « Full Program Adapter » permet d’optimiser l’ensemble du programme DSPy (y compris les signatures, les modules, la structure de contrôle). Sur le benchmark MATH, GEPA atteint 93 % de précision, bien au-delà de la méthode ChainOfThought initiale de DSPy (67 %). GEPA excelle aussi particulièrement sur des workflows multi-modules (agents IA chaînés sur plusieurs modules) : il peut cibler précisément un module qui échoue et réécrire son invite, plutôt que d’ajuster tout le système.

Qui va s’en servir en premier : un citoyen de première classe dans DSPy, code déjà open source sur GitHub

Le code de GEPA a été publié sur GitHub. Il est intégré au framework DSPy sous la forme de dspy.GEPA, et publié aussi de manière indépendante en tant que bibliothèque Python. L’équipe de recherche regroupe des institutions comme UC Berkeley, Stanford, Notre Dame et Anthropic. Les auteurs du papier comprennent Matei Zaharia (cofondateur de Databricks, auteur principal de DSPy) et Omar Khattab (auteur principal de DSPy).

Pour la communauté des développeurs, GEPA apporte une nouvelle solution à un problème courant : avoir énormément de rollouts mais ne pas savoir comment les exploiter. Beaucoup d’équipes ont déjà accumulé des milliers, voire des dizaines de milliers, de journaux d’exécution d’agents, mais au-delà de quelques vérifications quand ça bug, elles n’ont pas de méthode systématique pour transformer ces journaux en amélioration du modèle. Le prochain point à observer est l’adoption concrète de GEPA dans les workflows agentiques en entreprise (comme l’automatisation du support client et la réparation automatique de code), et de savoir si des implémentations de GEPA apparaîtront en dehors du cadre DSPy.

Cet article « Berkeley GEPA » : sans mise à jour des poids, l’IA apprend de nouvelles tâches, et avec 35 fois moins de coût d’entraînement, devance le RL—la première apparition de l’article remonte à Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Vercel open-source le framework deepsec avec une concurrence de sandbox de plus de 1 000 pour l’analyse de sécurité locale de l’IA

Selon Beating, Vercel a open-sourcé deepsec, un framework de tests de sécurité piloté par l’IA qui permet aux développeurs d’analyser localement de vastes bases de code sans exposer le code source à des services cloud externes. Le framework utilise un workflow de vérification multi-étapes : après un filtrage initial par regex, un

GateNewsIl y a 2h

Les caméras d’IA Netradyne surveillent le comportement des conducteurs dans les flottes

Système de surveillance du conducteur par IA de Netradyne Netradyne, une startup indienne, déploie des caméras alimentées par l’IA dans des flottes de véhicules commerciaux pour surveiller le comportement des conducteurs et réduire les accidents. Les caméras orientées vers l’intérieur se concentrent sur le conducteur plutôt que sur les passagers, en alertant les conducteurs lorsqu’ils dépassent les limites de vitesse o

CryptoFrontierIl y a 4h

AequiSolva lance l’architecture d’IA Sentinel Stack pour la vérification des actifs institutionnels le 30 avril

D’après AequiSolva, l’entreprise a lancé son architecture d’échange Sentinel Stack™ intégrant l’IA le 30 avril 2026, avec une exécution déterministe, une surveillance des marchés pilotée par l’IA et le moteur Omni-Attest Engine™ pour une preuve cryptographique continue des réserves. La plateforme combine trois éléments centraux

GateNewsIl y a 9h

Karpathy révèle : la méthode complète pour construire une base de connaissances personnelle avec des LLM

Les membres fondateurs d’OpenAI, l’ancien directeur de l’IA chez Tesla, Andrej Karpathy, a publié sur X un travail sur le flux de travail des « LLM Knowledge Bases » et a expliqué comment, récemment, il a fait passer une grande partie de sa consommation de tokens de « la manipulation de code » à « la manipulation de connaissances »—en utilisant des LLM pour rassembler des articles, des documents, des dossiers, des images dispersés dans un wiki personnel auto-entretenu. L’ensemble du processus a déjà accumulé, dans ses propres projets de recherche, environ ~100 articles, ~400 000 mots, et tout a été écrit et mis à jour entièrement par des LLM. Cet article récapitule le setup complet de Karpathy et fournit aux développeurs qui veulent le reproduire une liste de vérification exécutable. Idée centrale : données brutes → compilation par LLM → wiki → Q&R La philosophie de conception de Karpathy peut se résumer en un

ChainNewsAbmediaIl y a 15h

L’entreprise de trésorerie Bitcoin K Wave Media obtient jusqu’à $485M pour la mise en place de l’infrastructure d’IA

Selon ChainCatcher, l’entreprise de trésorerie en bitcoins cotée au Nasdaq, K Wave Media, a annoncé le 4 mai un pivot stratégique vers l’infrastructure d’IA, en obtenant jusqu’à 485 millions de dollars de soutien en capital pour des investissements dans des centres de données, des services de location de GPU, ainsi que des acquisitions et des partenariats d’infrastructure d’IA. L’entreprise

GateNewsIl y a 17h

Antimatter lance un plan de centre de données d’IA avec un financement de 300 millions d’euros

Antimatter, une société française d’infrastructure cloud pour les charges de travail liées à l’IA, a été lancée le 4 mai en réunissant trois entreprises existantes : Datafactory, Policloud et Hivenet. La société lève 300 millions d’euros (351 millions de dollars) afin de déployer 100 unités de micro data centers en 2026 pour l’inférence IA

CryptoFrontierIl y a 18h
Commentaire
0/400
Aucun commentaire