Investigación de Cambridge: para 2026, los datos humanos serán casi completamente aprendidos por LLM, la IA podría colapsar debido al "fenómeno de los Habsburgo".
En la era de la IA generativa, los modelos de gigantes como OpenAI, Google y Anthropic casi han consumido todos los datos públicos disponibles en la red. Sin embargo, según investigaciones de la Universidad de Oxford y varias instituciones, para 2026 a 2028, los datos públicos de alta calidad que la humanidad puede proporcionar a la IA estarán casi agotados. Cuando la red esté inundada de contenido generado por IA, los nuevos modelos inevitablemente tendrán que entrenarse con datos generados por IA. Este proceso de autorreferencia es como la endogamia entre parientes cercanos de la IA.
Los datos generados por la humanidad en 2026 serán aprendidos por la IA hasta el agotamiento.
Las universidades de Oxford y Cambridge, junto con varias instituciones de investigación, publicaron en abril de 2024 el artículo titulado 〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉 que revela este fenómeno.
Ellos descubrieron que, cuando los modelos generativos utilizan repetidamente los datos que ellos mismos producen para entrenarse, incluso en condiciones ideales, el modelo gradualmente olvida la realidad y finalmente cae en la degradación. El equipo de investigación señaló, después de experimentar con diversas arquitecturas como modelos de lenguaje, autoencoders variacionales (VAE) y modelos de mezcla gaussiana (GMM), que cada reentrenamiento es como una fotocopiadora que vuelve a imprimir una copia: los detalles desaparecen gradualmente, y los eventos raros son los primeros en olvidarse. Después de unas cuantas generaciones, el modelo solo conserva el promedio y la apariencia dominante, volviéndose finalmente mediocre, uniforme e incluso erróneo.
Este proceso es como una intoxicación de datos iniciada por el modelo mismo (self-poisoning). El resultado final es que el modelo ya no entiende el lenguaje ni la realidad, y la salida se convierte en un discurso repetitivo y sin sentido.
Artículo de Stanford: La participación continua de datos reales evita que la IA colapse
Sin embargo, el artículo publicado en abril de 2024 por la Universidad de Stanford y el equipo de Constellation titulado 〈¿Es Inevitable el Colapso del Modelo? Rompiendo la Maldición de la Recursión Acumulando Datos Reales y Sintéticos〉 presenta una respuesta más optimista. Reprodujeron el experimento del equipo de Oxford, pero propusieron una nueva estrategia de entrenamiento: acumular datos en lugar de reemplazarlos. Es decir, la nueva generación de IA no descarta los antiguos datos humanos, sino que continúa superponiendo y fusionando contenido generado por humanos y por IA.
Los resultados muestran que si en cada entrenamiento se reemplaza la información antigua con nuevos datos sintetizados, el rendimiento del modelo se deteriorará linealmente. Sin embargo, si se conserva la información original y se acumula de manera continua, el error del modelo tenderá a estabilizarse gradualmente e incluso dejará de deteriorarse. Ellos confirmaron repetidamente en los modelos de lenguaje (GPT-2, Llama 2), generación de imágenes (VAE), y modelos de generación de moléculas (Diffusion model), llegando a la misma conclusión: mientras los datos reales sigan participando, la IA no colapsará.
Los investigadores también han demostrado teóricamente que, a medida que se acumulan datos, el límite superior del error del modelo es finito y no se expandirá indefinidamente. Esto significa que el “incesto” de la IA no está destinado a suceder, siempre que no cortemos la conexión con los datos reales de los humanos.
La IA también tiene el fenómeno de los Habsburgo, el bucle de autorreferencia es como la endogamia.
El fundador de iKala, Cheng Shijia, quien fue ingeniero de software en Google, utiliza la famosa familia Habsburgo de la historia humana para describir este fenómeno. La conocida dinastía Habsburgo de la historia europea, para mantener la pureza de su linaje, encerró la riqueza y el poder dentro de la familia mediante matrimonios consanguíneos. El resultado fue la famosa “mandíbula de Habsburgo”, pero esto es solo la punta del iceberg de los problemas genéticos. Diversas enfermedades hereditarias, epilepsia, déficits intelectuales e incluso altas tasas de mortalidad infantil son la maldición de la familia Habsburgo, y el último rey, Carlos II, padeció múltiples enfermedades y murió sin descendencia.
Cheng Shijia utiliza un caso más concreto para explicar que originalmente era una pintura de paisaje llena de detalles, incluso con pequeñas imperfecciones. El estilo del pintor, los detalles, las pinceladas y las imperfecciones representan en realidad la diversidad genética. En la primera impresión, la IA generó una copia ( con datos sintetizados ). En este momento, la copia estaba al 99.9% cerca del original. Sin embargo, la IA es un modelo que toma el promedio, suaviza las imperfecciones ( que representan conocimientos raros ) y refuerza ligeramente las características más comunes ( que son las opiniones predominantes ). La siguiente generación aprende de esto y también toma el promedio, este es el ciclo de auto-referencia.
Este artículo de la investigación de Cambridge: En 2026, los datos humanos serán prácticamente aprendidos por LLM, y la IA podría colapsar debido al “fenómeno de Habsburgo”. Apareció por primera vez en Chain News ABMedia.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Investigación de Cambridge: para 2026, los datos humanos serán casi completamente aprendidos por LLM, la IA podría colapsar debido al "fenómeno de los Habsburgo".
En la era de la IA generativa, los modelos de gigantes como OpenAI, Google y Anthropic casi han consumido todos los datos públicos disponibles en la red. Sin embargo, según investigaciones de la Universidad de Oxford y varias instituciones, para 2026 a 2028, los datos públicos de alta calidad que la humanidad puede proporcionar a la IA estarán casi agotados. Cuando la red esté inundada de contenido generado por IA, los nuevos modelos inevitablemente tendrán que entrenarse con datos generados por IA. Este proceso de autorreferencia es como la endogamia entre parientes cercanos de la IA.
Los datos generados por la humanidad en 2026 serán aprendidos por la IA hasta el agotamiento.
Las universidades de Oxford y Cambridge, junto con varias instituciones de investigación, publicaron en abril de 2024 el artículo titulado 〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉 que revela este fenómeno.
Ellos descubrieron que, cuando los modelos generativos utilizan repetidamente los datos que ellos mismos producen para entrenarse, incluso en condiciones ideales, el modelo gradualmente olvida la realidad y finalmente cae en la degradación. El equipo de investigación señaló, después de experimentar con diversas arquitecturas como modelos de lenguaje, autoencoders variacionales (VAE) y modelos de mezcla gaussiana (GMM), que cada reentrenamiento es como una fotocopiadora que vuelve a imprimir una copia: los detalles desaparecen gradualmente, y los eventos raros son los primeros en olvidarse. Después de unas cuantas generaciones, el modelo solo conserva el promedio y la apariencia dominante, volviéndose finalmente mediocre, uniforme e incluso erróneo.
Este proceso es como una intoxicación de datos iniciada por el modelo mismo (self-poisoning). El resultado final es que el modelo ya no entiende el lenguaje ni la realidad, y la salida se convierte en un discurso repetitivo y sin sentido.
Artículo de Stanford: La participación continua de datos reales evita que la IA colapse
Sin embargo, el artículo publicado en abril de 2024 por la Universidad de Stanford y el equipo de Constellation titulado 〈¿Es Inevitable el Colapso del Modelo? Rompiendo la Maldición de la Recursión Acumulando Datos Reales y Sintéticos〉 presenta una respuesta más optimista. Reprodujeron el experimento del equipo de Oxford, pero propusieron una nueva estrategia de entrenamiento: acumular datos en lugar de reemplazarlos. Es decir, la nueva generación de IA no descarta los antiguos datos humanos, sino que continúa superponiendo y fusionando contenido generado por humanos y por IA.
Los resultados muestran que si en cada entrenamiento se reemplaza la información antigua con nuevos datos sintetizados, el rendimiento del modelo se deteriorará linealmente. Sin embargo, si se conserva la información original y se acumula de manera continua, el error del modelo tenderá a estabilizarse gradualmente e incluso dejará de deteriorarse. Ellos confirmaron repetidamente en los modelos de lenguaje (GPT-2, Llama 2), generación de imágenes (VAE), y modelos de generación de moléculas (Diffusion model), llegando a la misma conclusión: mientras los datos reales sigan participando, la IA no colapsará.
Los investigadores también han demostrado teóricamente que, a medida que se acumulan datos, el límite superior del error del modelo es finito y no se expandirá indefinidamente. Esto significa que el “incesto” de la IA no está destinado a suceder, siempre que no cortemos la conexión con los datos reales de los humanos.
La IA también tiene el fenómeno de los Habsburgo, el bucle de autorreferencia es como la endogamia.
El fundador de iKala, Cheng Shijia, quien fue ingeniero de software en Google, utiliza la famosa familia Habsburgo de la historia humana para describir este fenómeno. La conocida dinastía Habsburgo de la historia europea, para mantener la pureza de su linaje, encerró la riqueza y el poder dentro de la familia mediante matrimonios consanguíneos. El resultado fue la famosa “mandíbula de Habsburgo”, pero esto es solo la punta del iceberg de los problemas genéticos. Diversas enfermedades hereditarias, epilepsia, déficits intelectuales e incluso altas tasas de mortalidad infantil son la maldición de la familia Habsburgo, y el último rey, Carlos II, padeció múltiples enfermedades y murió sin descendencia.
Cheng Shijia utiliza un caso más concreto para explicar que originalmente era una pintura de paisaje llena de detalles, incluso con pequeñas imperfecciones. El estilo del pintor, los detalles, las pinceladas y las imperfecciones representan en realidad la diversidad genética. En la primera impresión, la IA generó una copia ( con datos sintetizados ). En este momento, la copia estaba al 99.9% cerca del original. Sin embargo, la IA es un modelo que toma el promedio, suaviza las imperfecciones ( que representan conocimientos raros ) y refuerza ligeramente las características más comunes ( que son las opiniones predominantes ). La siguiente generación aprende de esto y también toma el promedio, este es el ciclo de auto-referencia.
Este artículo de la investigación de Cambridge: En 2026, los datos humanos serán prácticamente aprendidos por LLM, y la IA podría colapsar debido al “fenómeno de Habsburgo”. Apareció por primera vez en Chain News ABMedia.