Estudo de Cambridge: Em 2026, os dados humanos serão quase totalmente aprendidos por LLM, e a IA poderá entrar em colapso devido ao "fenómeno Habsburgo".
Na era da IA generativa, os modelos de gigantes como OpenAI, Google e Anthropic praticamente consumiram todos os dados públicos disponíveis na internet. Mas, de acordo com uma pesquisa da Universidade de Oxford e várias instituições, até 2026 a 2028, os dados públicos de alta qualidade que a humanidade pode fornecer à IA estão prestes a se esgotar. Quando a internet for inundada por conteúdos gerados por IA, novos modelos terão que treinar-se utilizando dados gerados por IA. Este processo de autorreferência é semelhante ao incesto entre parentes próximos da IA.
Em 2026, os dados gerados pela humanidade serão completamente aprendidos pela IA.
As universidades de Oxford e Cambridge, juntamente com várias instituições de pesquisa, publicaram em abril de 2024 o artigo intitulado 〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉, que revela este fenômeno.
Eles descobriram que, quando modelos generativos usam repetidamente seus próprios dados para treinamento, mesmo em condições ideais, o modelo gradualmente esquece a realidade e acaba entrando em degradação. A equipe de pesquisa, após experimentar com várias arquiteturas, como modelos de linguagem, variational autoencoders (VAE) e modelos de mistura gaussiana (GMM), apontou que cada re-treinamento é como uma impressora que reimprime uma cópia: os detalhes desaparecem gradualmente, e eventos raros são os primeiros a serem esquecidos. Após algumas gerações, o modelo se reduz a uma média e a uma aparência mainstream, tornando-se, em última análise, medíocre, monótono e até errado.
Este processo é como uma contaminação de dados autoinduzida pelo modelo (self-poisoning). O resultado final é que o modelo deixa de entender a linguagem e a realidade, e a saída torna-se um discurso repetitivo e sem sentido.
Stanford Paper: A participação contínua de dados reais impede que a IA entre em colapso
No entanto, o artigo publicado em abril de 2024 pela Universidade de Stanford e pela equipe da Constellation, intitulado 〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉, trouxe uma resposta mais otimista. Eles reproduziram os experimentos da equipe de Oxford, mas propuseram uma nova estratégia de treinamento: acumular dados em vez de substituir. Ou seja, a nova geração de IA não descarta os dados humanos antigos, mas continua a sobrepor e fundir conteúdos gerados por humanos e pela IA.
Os resultados mostram que se, a cada treino, os novos dados sintéticos substituírem os dados antigos, o desempenho do modelo irá deteriorar-se linearmente. Mas se os dados originais forem mantidos e acumulados continuamente, o erro do modelo tenderá a estabilizar-se e até pode parar de se deteriorar. Eles validaram repetidamente isso nos modelos de linguagem (GPT-2, Llama 2), geração de imagens (VAE), e modelos de geração molecular (Diffusion model), chegando a uma conclusão consistente: desde que os dados reais continuem a participar, a IA não irá colapsar.
Os pesquisadores também provaram teoricamente: quando os dados se acumulam, o limite do erro do modelo é finito e não se expande indefinidamente. Isso significa que o “incesto” da IA não é um destino inevitável, contanto que não cortemos a ligação com os dados reais humanos.
A IA também tem o fenômeno dos Habsburgo, o ciclo de autorreferência é como o casamento entre parentes próximos.
O fundador da iKala, Cheng Shijia, que foi engenheiro de software do Google, usou a famosa família Habsburgo da história humana para descrever esse fenômeno. A famosa dinastia Habsburgo da história europeia, para manter a pureza do sangue, usou casamentos entre parentes para manter a riqueza e o poder dentro da família. O resultado foi a famosa “mandíbula Habsburgo”, mas isso é apenas a ponta do iceberg dos problemas genéticos. Várias doenças genéticas, epilepsia, deficiências intelectuais e até altas taxas de mortalidade infantil são a maldição da família Habsburgo, e o último rei Carlos II, por isso, padeceu de várias doenças e morreu sem deixar herdeiros.
Cheng Shijia usou exemplos mais concretos para explicar que originalmente era uma paisagem repleta de detalhes, com até pequenas imperfeições. O estilo do artista, detalhes, pinceladas, imperfeições, etc., na verdade representam a diversidade genética. Na primeira impressão, a IA gerou uma cópia ( com dados sintetizados ). Neste momento, a cópia estava a 99,9% próxima do original. No entanto, a IA é um modelo que tira a média, suaviza as imperfeições ( que representam conhecimentos raros ), e reforça ligeiramente as características mais comuns ( que são pontos de vista predominantes ). A próxima geração aprende com isso, tirando novamente a média, e esse é o ciclo de auto-referência.
Este artigo da pesquisa de Cambridge: em 2026, os dados humanos serão aprendidos quase completamente pelos LLMs, e a IA poderá entrar em colapso devido ao “fenômeno Habsburgo”, apareceu pela primeira vez na Chain News ABMedia.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Estudo de Cambridge: Em 2026, os dados humanos serão quase totalmente aprendidos por LLM, e a IA poderá entrar em colapso devido ao "fenómeno Habsburgo".
Na era da IA generativa, os modelos de gigantes como OpenAI, Google e Anthropic praticamente consumiram todos os dados públicos disponíveis na internet. Mas, de acordo com uma pesquisa da Universidade de Oxford e várias instituições, até 2026 a 2028, os dados públicos de alta qualidade que a humanidade pode fornecer à IA estão prestes a se esgotar. Quando a internet for inundada por conteúdos gerados por IA, novos modelos terão que treinar-se utilizando dados gerados por IA. Este processo de autorreferência é semelhante ao incesto entre parentes próximos da IA.
Em 2026, os dados gerados pela humanidade serão completamente aprendidos pela IA.
As universidades de Oxford e Cambridge, juntamente com várias instituições de pesquisa, publicaram em abril de 2024 o artigo intitulado 〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉, que revela este fenômeno.
Eles descobriram que, quando modelos generativos usam repetidamente seus próprios dados para treinamento, mesmo em condições ideais, o modelo gradualmente esquece a realidade e acaba entrando em degradação. A equipe de pesquisa, após experimentar com várias arquiteturas, como modelos de linguagem, variational autoencoders (VAE) e modelos de mistura gaussiana (GMM), apontou que cada re-treinamento é como uma impressora que reimprime uma cópia: os detalhes desaparecem gradualmente, e eventos raros são os primeiros a serem esquecidos. Após algumas gerações, o modelo se reduz a uma média e a uma aparência mainstream, tornando-se, em última análise, medíocre, monótono e até errado.
Este processo é como uma contaminação de dados autoinduzida pelo modelo (self-poisoning). O resultado final é que o modelo deixa de entender a linguagem e a realidade, e a saída torna-se um discurso repetitivo e sem sentido.
Stanford Paper: A participação contínua de dados reais impede que a IA entre em colapso
No entanto, o artigo publicado em abril de 2024 pela Universidade de Stanford e pela equipe da Constellation, intitulado 〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉, trouxe uma resposta mais otimista. Eles reproduziram os experimentos da equipe de Oxford, mas propuseram uma nova estratégia de treinamento: acumular dados em vez de substituir. Ou seja, a nova geração de IA não descarta os dados humanos antigos, mas continua a sobrepor e fundir conteúdos gerados por humanos e pela IA.
Os resultados mostram que se, a cada treino, os novos dados sintéticos substituírem os dados antigos, o desempenho do modelo irá deteriorar-se linearmente. Mas se os dados originais forem mantidos e acumulados continuamente, o erro do modelo tenderá a estabilizar-se e até pode parar de se deteriorar. Eles validaram repetidamente isso nos modelos de linguagem (GPT-2, Llama 2), geração de imagens (VAE), e modelos de geração molecular (Diffusion model), chegando a uma conclusão consistente: desde que os dados reais continuem a participar, a IA não irá colapsar.
Os pesquisadores também provaram teoricamente: quando os dados se acumulam, o limite do erro do modelo é finito e não se expande indefinidamente. Isso significa que o “incesto” da IA não é um destino inevitável, contanto que não cortemos a ligação com os dados reais humanos.
A IA também tem o fenômeno dos Habsburgo, o ciclo de autorreferência é como o casamento entre parentes próximos.
O fundador da iKala, Cheng Shijia, que foi engenheiro de software do Google, usou a famosa família Habsburgo da história humana para descrever esse fenômeno. A famosa dinastia Habsburgo da história europeia, para manter a pureza do sangue, usou casamentos entre parentes para manter a riqueza e o poder dentro da família. O resultado foi a famosa “mandíbula Habsburgo”, mas isso é apenas a ponta do iceberg dos problemas genéticos. Várias doenças genéticas, epilepsia, deficiências intelectuais e até altas taxas de mortalidade infantil são a maldição da família Habsburgo, e o último rei Carlos II, por isso, padeceu de várias doenças e morreu sem deixar herdeiros.
Cheng Shijia usou exemplos mais concretos para explicar que originalmente era uma paisagem repleta de detalhes, com até pequenas imperfeições. O estilo do artista, detalhes, pinceladas, imperfeições, etc., na verdade representam a diversidade genética. Na primeira impressão, a IA gerou uma cópia ( com dados sintetizados ). Neste momento, a cópia estava a 99,9% próxima do original. No entanto, a IA é um modelo que tira a média, suaviza as imperfeições ( que representam conhecimentos raros ), e reforça ligeiramente as características mais comuns ( que são pontos de vista predominantes ). A próxima geração aprende com isso, tirando novamente a média, e esse é o ciclo de auto-referência.
Este artigo da pesquisa de Cambridge: em 2026, os dados humanos serão aprendidos quase completamente pelos LLMs, e a IA poderá entrar em colapso devido ao “fenômeno Habsburgo”, apareceu pela primeira vez na Chain News ABMedia.