Di era AI generatif, model-model dari raksasa seperti OpenAI, Google, dan Anthropic hampir menghabiskan semua data publik yang tersedia di internet. Namun, menurut penelitian dari Universitas Oxford dan beberapa lembaga, diperkirakan bahwa pada tahun 2026 hingga 2028, data publik berkualitas tinggi yang dapat diberikan manusia kepada AI akan segera habis. Ketika internet dibanjiri oleh konten yang dihasilkan oleh AI, model-model baru pasti akan dilatih menggunakan data yang dihasilkan oleh AI. Proses referensi diri ini, mirip dengan perkawinan sedarah AI.
Data yang dihasilkan manusia pada tahun 2026 akan dipelajari habis oleh AI.
Universitas Oxford, Universitas Cambridge, dan beberapa lembaga penelitian menerbitkan makalah berjudul 〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉 pada April 2024 yang mengungkap fenomena ini.
Mereka menemukan bahwa ketika model generatif menggunakan kembali data yang dihasilkan sendiri untuk pelatihan, bahkan dalam kondisi ideal, model akan secara bertahap melupakan kenyataan dan akhirnya terjerumus ke dalam penurunan. Tim penelitian menunjukkan setelah bereksperimen dengan berbagai arsitektur seperti model bahasa, variational autoencoder (VAE), dan Gaussian mixture model (GMM), bahwa setiap kali pelatihan ulang seperti mesin fotokopi yang mencetak ulang salinan: detail secara bertahap menghilang, dan peristiwa langka adalah yang pertama dilupakan. Setelah beberapa generasi, model hanya tersisa rata-rata dan penampilan arus utama, akhirnya menjadi biasa, tunggal, bahkan salah.
Proses ini seperti keracunan data yang dipicu oleh model itu sendiri (self-poisoning). Hasil akhirnya adalah model tidak lagi memahami bahasa dan realitas, dan outputnya berubah menjadi omongan kosong yang berulang.
Paper Stanford: Data nyata yang terus berpartisipasi, AI tidak akan runtuh
Namun, pada April 2024, makalah yang diterbitkan oleh Universitas Stanford dan tim Constellation berjudul 〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉, memberikan jawaban yang lebih optimis. Mereka mereproduksi eksperimen tim Oxford, tetapi mengusulkan strategi pelatihan baru: mengakumulasi data daripada menggantinya. Dengan kata lain, generasi AI baru tidak membuang data manusia lama, melainkan terus menumpuk dan menggabungkan konten yang dihasilkan oleh manusia dan AI.
Hasil menunjukkan bahwa jika setiap pelatihan menggunakan data sintetik baru untuk menggantikan data lama, kinerja model akan memburuk secara linier. Namun, jika data asli dipertahankan dan terus diakumulasi, kesalahan model akan cenderung stabil, bahkan berhenti memburuk. Mereka telah memverifikasi secara berulang pada model bahasa (GPT-2, Llama 2), generasi gambar (VAE), serta generasi molekul (Diffusion model), dan semua memperoleh kesimpulan yang konsisten: selama data nyata terus berpartisipasi, AI tidak akan runtuh.
Para peneliti secara teori juga membuktikan: ketika data terakumulasi, batas kesalahan model adalah terbatas, tidak akan membengkak tanpa batas. Ini berarti “pernikahan dekat” AI tidak ditakdirkan, selama kita tidak memutuskan hubungan dengan data manusia yang sebenarnya.
AI juga memiliki fenomena Habsburg, siklus referensi diri seperti perkawinan sedarah.
Pendiri iKala, Cheng Shijia, yang pernah menjabat sebagai insinyur perangkat lunak di Google, menggunakan keluarga Habsburg yang terkenal dalam sejarah manusia untuk menggambarkan fenomena ini. Dinasti Habsburg yang terkenal dalam sejarah Eropa, untuk mempertahankan kemurnian darah, mengunci kekayaan dan kekuasaan di dalam keluarga melalui perkawinan sedarah. Hasilnya adalah munculnya “dagu Habsburg” yang terkenal, tetapi ini hanya puncak gunung es dari masalah genetik. Berbagai penyakit genetik, epilepsi, kecacatan intelektual, bahkan tingkat kematian tinggi adalah kutukan keluarga Habsburg, dan raja terakhir Carlos II karena itu menderita berbagai penyakit dan tidak memiliki keturunan seumur hidup.
Cheng Shijia menggunakan contoh yang lebih konkret untuk menjelaskan, awalnya adalah sebuah lukisan pemandangan yang penuh dengan detail, bahkan dengan sedikit cacat. Gaya, detail, sapuan kuas, dan cacat si pelukis sebenarnya mewakili keragaman genetik. Saat pertama kali dicetak, AI menghasilkan salinan ( data sintetis ). Pada saat ini, salinan tersebut 99,9% mendekati versi asli. Namun, AI adalah sebuah model, ia akan mengambil rata-rata dari situasi tersebut, memuluskan cacat ( yang mewakili pengetahuan langka ), dan sedikit memperkuat fitur yang paling umum ( pandangan arus utama ). Generasi berikutnya belajar dari situasi tersebut, dan mengambil rata-rata lagi, inilah yang disebut siklus referensi diri.
Artikel ini Cambridge Research: Data manusia 2026 akan dipelajari habis oleh LLM, AI mungkin akan runtuh karena “Fenomena Habsburg” yang pertama kali muncul di Chain News ABMedia.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Penelitian Cambridge: Data manusia pada tahun 2026 akan habis dipelajari oleh LLM, AI mungkin akan runtuh karena "fenomena Habsburg"
Di era AI generatif, model-model dari raksasa seperti OpenAI, Google, dan Anthropic hampir menghabiskan semua data publik yang tersedia di internet. Namun, menurut penelitian dari Universitas Oxford dan beberapa lembaga, diperkirakan bahwa pada tahun 2026 hingga 2028, data publik berkualitas tinggi yang dapat diberikan manusia kepada AI akan segera habis. Ketika internet dibanjiri oleh konten yang dihasilkan oleh AI, model-model baru pasti akan dilatih menggunakan data yang dihasilkan oleh AI. Proses referensi diri ini, mirip dengan perkawinan sedarah AI.
Data yang dihasilkan manusia pada tahun 2026 akan dipelajari habis oleh AI.
Universitas Oxford, Universitas Cambridge, dan beberapa lembaga penelitian menerbitkan makalah berjudul 〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉 pada April 2024 yang mengungkap fenomena ini.
Mereka menemukan bahwa ketika model generatif menggunakan kembali data yang dihasilkan sendiri untuk pelatihan, bahkan dalam kondisi ideal, model akan secara bertahap melupakan kenyataan dan akhirnya terjerumus ke dalam penurunan. Tim penelitian menunjukkan setelah bereksperimen dengan berbagai arsitektur seperti model bahasa, variational autoencoder (VAE), dan Gaussian mixture model (GMM), bahwa setiap kali pelatihan ulang seperti mesin fotokopi yang mencetak ulang salinan: detail secara bertahap menghilang, dan peristiwa langka adalah yang pertama dilupakan. Setelah beberapa generasi, model hanya tersisa rata-rata dan penampilan arus utama, akhirnya menjadi biasa, tunggal, bahkan salah.
Proses ini seperti keracunan data yang dipicu oleh model itu sendiri (self-poisoning). Hasil akhirnya adalah model tidak lagi memahami bahasa dan realitas, dan outputnya berubah menjadi omongan kosong yang berulang.
Paper Stanford: Data nyata yang terus berpartisipasi, AI tidak akan runtuh
Namun, pada April 2024, makalah yang diterbitkan oleh Universitas Stanford dan tim Constellation berjudul 〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉, memberikan jawaban yang lebih optimis. Mereka mereproduksi eksperimen tim Oxford, tetapi mengusulkan strategi pelatihan baru: mengakumulasi data daripada menggantinya. Dengan kata lain, generasi AI baru tidak membuang data manusia lama, melainkan terus menumpuk dan menggabungkan konten yang dihasilkan oleh manusia dan AI.
Hasil menunjukkan bahwa jika setiap pelatihan menggunakan data sintetik baru untuk menggantikan data lama, kinerja model akan memburuk secara linier. Namun, jika data asli dipertahankan dan terus diakumulasi, kesalahan model akan cenderung stabil, bahkan berhenti memburuk. Mereka telah memverifikasi secara berulang pada model bahasa (GPT-2, Llama 2), generasi gambar (VAE), serta generasi molekul (Diffusion model), dan semua memperoleh kesimpulan yang konsisten: selama data nyata terus berpartisipasi, AI tidak akan runtuh.
Para peneliti secara teori juga membuktikan: ketika data terakumulasi, batas kesalahan model adalah terbatas, tidak akan membengkak tanpa batas. Ini berarti “pernikahan dekat” AI tidak ditakdirkan, selama kita tidak memutuskan hubungan dengan data manusia yang sebenarnya.
AI juga memiliki fenomena Habsburg, siklus referensi diri seperti perkawinan sedarah.
Pendiri iKala, Cheng Shijia, yang pernah menjabat sebagai insinyur perangkat lunak di Google, menggunakan keluarga Habsburg yang terkenal dalam sejarah manusia untuk menggambarkan fenomena ini. Dinasti Habsburg yang terkenal dalam sejarah Eropa, untuk mempertahankan kemurnian darah, mengunci kekayaan dan kekuasaan di dalam keluarga melalui perkawinan sedarah. Hasilnya adalah munculnya “dagu Habsburg” yang terkenal, tetapi ini hanya puncak gunung es dari masalah genetik. Berbagai penyakit genetik, epilepsi, kecacatan intelektual, bahkan tingkat kematian tinggi adalah kutukan keluarga Habsburg, dan raja terakhir Carlos II karena itu menderita berbagai penyakit dan tidak memiliki keturunan seumur hidup.
Cheng Shijia menggunakan contoh yang lebih konkret untuk menjelaskan, awalnya adalah sebuah lukisan pemandangan yang penuh dengan detail, bahkan dengan sedikit cacat. Gaya, detail, sapuan kuas, dan cacat si pelukis sebenarnya mewakili keragaman genetik. Saat pertama kali dicetak, AI menghasilkan salinan ( data sintetis ). Pada saat ini, salinan tersebut 99,9% mendekati versi asli. Namun, AI adalah sebuah model, ia akan mengambil rata-rata dari situasi tersebut, memuluskan cacat ( yang mewakili pengetahuan langka ), dan sedikit memperkuat fitur yang paling umum ( pandangan arus utama ). Generasi berikutnya belajar dari situasi tersebut, dan mengambil rata-rata lagi, inilah yang disebut siklus referensi diri.
Artikel ini Cambridge Research: Data manusia 2026 akan dipelajari habis oleh LLM, AI mungkin akan runtuh karena “Fenomena Habsburg” yang pertama kali muncul di Chain News ABMedia.