Étude de Cambridge : Les données humaines de 2026 seront épuisées par l'apprentissage des LLM, l'IA pourrait s'effondrer en raison du « phénomène des Habsbourg ».
À l'ère de l'IA générative, les modèles de géants tels qu'OpenAI, Google et Anthropic ont presque épuisé toutes les données publiques disponibles sur le net. Cependant, selon des recherches de l'Université d'Oxford et de plusieurs institutions, d'ici 2026 à 2028, les données publiques de haute qualité que les humains peuvent fournir à l'IA seront sur le point de s'épuiser. Lorsque le web sera inondé de contenus générés par l'IA, de nouveaux modèles devront inévitablement s'entraîner sur des données produites par l'IA. Ce processus d'auto-référence est semblable à la consanguinité entre proches de l'IA.
Les données générées par l'humanité en 2026 seront entièrement apprises par l'IA.
Les universités d'Oxford et de Cambridge, ainsi que plusieurs instituts de recherche, ont publié en avril 2024 un article intitulé « The Curse of Recursion: Training on Generated Data Makes Models Forget » qui révèle ce phénomène.
Ils ont découvert que lorsque les modèles génératifs utilisent de manière répétée les données qu'ils produisent eux-mêmes pour s'entraîner, même dans des conditions idéales, le modèle finit par oublier progressivement la réalité et tombe finalement dans la dégradation. L'équipe de recherche a indiqué, après avoir expérimenté avec plusieurs architectures telles que les modèles de langage, les autoencodeurs variationnels (VAE) et les modèles de mélange gaussien (GMM), que chaque nouvelle formation est comme une photocopieuse qui réimprime un document : les détails disparaissent progressivement et les événements rares sont les premiers à être oubliés. Après quelques générations, le modèle ne conserve que la moyenne et l'apparence dominante, devenant finalement banal, uniforme, voire erroné.
Ce processus ressemble à une intoxication des données auto-initiée par le modèle (self-poisoning). Le résultat final est que le modèle ne comprend plus la langue ni la réalité, et la sortie devient un bavardage répétitif.
Article de Stanford : Avec des données réelles et une participation continue, l'IA ne s'effondrera pas.
Cependant, le document publié par l'Université de Stanford et l'équipe Constellation en avril 2024, intitulé <Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data>, apporte une réponse plus optimiste. Ils ont reproduit l'expérience de l'équipe d'Oxford, mais ont proposé une nouvelle stratégie d'entraînement : accumuler les données plutôt que de les remplacer. En d'autres termes, la nouvelle génération d'IA ne jette pas les anciennes données humaines, mais continue de superposer et de fusionner le contenu humain et celui généré par l'IA.
Les résultats montrent que si chaque fois que l'entraînement remplace les anciennes données par de nouvelles données synthétiques, la performance du modèle se dégrade linéairement. Mais si les données originales sont conservées et continuellement accumulées, l'erreur du modèle tend à se stabiliser progressivement, voire à cesser de se dégrader. Ils ont vérifié à plusieurs reprises sur les modèles de langage (GPT-2, Llama 2), la génération d'images (VAE), ainsi que la génération de molécules (Diffusion model), et ont tous obtenu la même conclusion : tant que les données réelles continuent à participer, l'IA ne s'effondrera pas.
Les chercheurs ont également prouvé théoriquement que lorsque les données s'accumulent, la limite supérieure de l'erreur du modèle est finie et ne s'étendra pas indéfiniment. Cela signifie que la “consanguinité” de l'IA n'est pas inévitable tant que nous ne rompons pas le lien avec les données réelles humaines.
L'IA a également le phénomène des Habsbourg, un cycle d'auto-référence semblable à la consanguinité.
Le fondateur d'iKala, Cheng Shijia, ancien ingénieur logiciel chez Google, utilise la célèbre famille des Habsbourg dans l'histoire humaine pour décrire ce phénomène. La célèbre dynastie des Habsbourg en Europe, pour préserver la pureté de leur sang, a verrouillé richesse et pouvoir au sein de la famille par le biais de mariages consanguins. Le résultat a été le fameux « menton des Habsbourg », mais cela n'est qu'une partie émergée de l'iceberg des problèmes génétiques. Diverses maladies héréditaires, épilepsie, déficiences intellectuelles et même un taux de mortalité infantile élevé sont la malédiction de la famille Habsbourg, et le dernier roi, Charles II, a souffert de plusieurs maladies, vivant sans descendance.
Cheng Shijia utilise des exemples plus concrets pour expliquer qu'à l'origine, c'était une peinture de paysage remplie de détails, voire de petites imperfections. Le style de l'artiste, les détails, les coups de pinceau, les imperfections, etc. représentent en réalité la diversité génétique. Lors de la première impression, l'IA a généré une copie ( avec des données synthétiques ). À ce moment-là, la copie était à 99,9 % proche de l'original. Cependant, l'IA est un modèle qui prend la moyenne, lissant les imperfections ( représentant des connaissances rares ), et renforçant légèrement les caractéristiques les plus courantes ( représentant les opinions dominantes ). La génération suivante apprend de cela et prend à nouveau la moyenne, c'est ce qu'on appelle le cycle d'auto-référence.
Cet article de recherche de Cambridge : d'ici 2026, les données humaines seront presque entièrement apprises par les LLM, et l'IA pourrait s'effondrer en raison du “phénomène des Habsbourg”. Publié pour la première fois dans Chain News ABMedia.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Étude de Cambridge : Les données humaines de 2026 seront épuisées par l'apprentissage des LLM, l'IA pourrait s'effondrer en raison du « phénomène des Habsbourg ».
À l'ère de l'IA générative, les modèles de géants tels qu'OpenAI, Google et Anthropic ont presque épuisé toutes les données publiques disponibles sur le net. Cependant, selon des recherches de l'Université d'Oxford et de plusieurs institutions, d'ici 2026 à 2028, les données publiques de haute qualité que les humains peuvent fournir à l'IA seront sur le point de s'épuiser. Lorsque le web sera inondé de contenus générés par l'IA, de nouveaux modèles devront inévitablement s'entraîner sur des données produites par l'IA. Ce processus d'auto-référence est semblable à la consanguinité entre proches de l'IA.
Les données générées par l'humanité en 2026 seront entièrement apprises par l'IA.
Les universités d'Oxford et de Cambridge, ainsi que plusieurs instituts de recherche, ont publié en avril 2024 un article intitulé « The Curse of Recursion: Training on Generated Data Makes Models Forget » qui révèle ce phénomène.
Ils ont découvert que lorsque les modèles génératifs utilisent de manière répétée les données qu'ils produisent eux-mêmes pour s'entraîner, même dans des conditions idéales, le modèle finit par oublier progressivement la réalité et tombe finalement dans la dégradation. L'équipe de recherche a indiqué, après avoir expérimenté avec plusieurs architectures telles que les modèles de langage, les autoencodeurs variationnels (VAE) et les modèles de mélange gaussien (GMM), que chaque nouvelle formation est comme une photocopieuse qui réimprime un document : les détails disparaissent progressivement et les événements rares sont les premiers à être oubliés. Après quelques générations, le modèle ne conserve que la moyenne et l'apparence dominante, devenant finalement banal, uniforme, voire erroné.
Ce processus ressemble à une intoxication des données auto-initiée par le modèle (self-poisoning). Le résultat final est que le modèle ne comprend plus la langue ni la réalité, et la sortie devient un bavardage répétitif.
Article de Stanford : Avec des données réelles et une participation continue, l'IA ne s'effondrera pas.
Cependant, le document publié par l'Université de Stanford et l'équipe Constellation en avril 2024, intitulé <Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data>, apporte une réponse plus optimiste. Ils ont reproduit l'expérience de l'équipe d'Oxford, mais ont proposé une nouvelle stratégie d'entraînement : accumuler les données plutôt que de les remplacer. En d'autres termes, la nouvelle génération d'IA ne jette pas les anciennes données humaines, mais continue de superposer et de fusionner le contenu humain et celui généré par l'IA.
Les résultats montrent que si chaque fois que l'entraînement remplace les anciennes données par de nouvelles données synthétiques, la performance du modèle se dégrade linéairement. Mais si les données originales sont conservées et continuellement accumulées, l'erreur du modèle tend à se stabiliser progressivement, voire à cesser de se dégrader. Ils ont vérifié à plusieurs reprises sur les modèles de langage (GPT-2, Llama 2), la génération d'images (VAE), ainsi que la génération de molécules (Diffusion model), et ont tous obtenu la même conclusion : tant que les données réelles continuent à participer, l'IA ne s'effondrera pas.
Les chercheurs ont également prouvé théoriquement que lorsque les données s'accumulent, la limite supérieure de l'erreur du modèle est finie et ne s'étendra pas indéfiniment. Cela signifie que la “consanguinité” de l'IA n'est pas inévitable tant que nous ne rompons pas le lien avec les données réelles humaines.
L'IA a également le phénomène des Habsbourg, un cycle d'auto-référence semblable à la consanguinité.
Le fondateur d'iKala, Cheng Shijia, ancien ingénieur logiciel chez Google, utilise la célèbre famille des Habsbourg dans l'histoire humaine pour décrire ce phénomène. La célèbre dynastie des Habsbourg en Europe, pour préserver la pureté de leur sang, a verrouillé richesse et pouvoir au sein de la famille par le biais de mariages consanguins. Le résultat a été le fameux « menton des Habsbourg », mais cela n'est qu'une partie émergée de l'iceberg des problèmes génétiques. Diverses maladies héréditaires, épilepsie, déficiences intellectuelles et même un taux de mortalité infantile élevé sont la malédiction de la famille Habsbourg, et le dernier roi, Charles II, a souffert de plusieurs maladies, vivant sans descendance.
Cheng Shijia utilise des exemples plus concrets pour expliquer qu'à l'origine, c'était une peinture de paysage remplie de détails, voire de petites imperfections. Le style de l'artiste, les détails, les coups de pinceau, les imperfections, etc. représentent en réalité la diversité génétique. Lors de la première impression, l'IA a généré une copie ( avec des données synthétiques ). À ce moment-là, la copie était à 99,9 % proche de l'original. Cependant, l'IA est un modèle qui prend la moyenne, lissant les imperfections ( représentant des connaissances rares ), et renforçant légèrement les caractéristiques les plus courantes ( représentant les opinions dominantes ). La génération suivante apprend de cela et prend à nouveau la moyenne, c'est ce qu'on appelle le cycle d'auto-référence.
Cet article de recherche de Cambridge : d'ici 2026, les données humaines seront presque entièrement apprises par les LLM, et l'IA pourrait s'effondrer en raison du “phénomène des Habsbourg”. Publié pour la première fois dans Chain News ABMedia.