Yapay Zeka tükendi

robot
Abstract generation in progress

Üretken AI çağında, OpenAI, Google, Anthropic gibi devlerin modelleri neredeyse tüm ağdaki kamu verilerini tüketmiş durumda. Ancak Oxford Üniversitesi ve birçok kurumun araştırmalarına göre, 2026 ile 2028 yılları arasında insanlığın AI'ya sağlayabileceği yüksek kaliteli kamu verileri tükenmek üzere. İnternet AI tarafından üretilen içeriklerle boğulduğunda, yeni modeller kesinlikle AI tarafından üretilen verilerle kendilerini eğitmek zorunda kalacaklar. Bu öz-yetkili süreç, AI'nın akraba evliliği gibi.

2026 yılında insan tarafından üretilen veriler, AI tarafından öğrenilecek.

Oxford Üniversitesi, Cambridge Üniversitesi ve birçok araştırma kuruluşunun 2024 Nisan ayında yayımladığı “The Curse of Recursion: Training on Generated Data Makes Models Forget” başlıklı makalede bu fenomen ortaya konulmuştur.

Onlar şunu keşfettiler: Üretken modeller, ürettikleri verileri tekrar tekrar kullanarak eğitim yaptıklarında, ideal koşullarda bile model yavaş yavaş gerçeği unutur ve nihayetinde bozulmaya uğrar. Araştırma ekibi, dil modeli, değişken otomatik kodlayıcı (VAE) ve Gauss karışım modeli (GMM) gibi çeşitli yapılar üzerinde deneyler yaptıktan sonra, her yeniden eğitim sürecinin bir fotokopi makinesinin fotokopiyi yeniden basması gibi olduğunu belirtti: Ayrıntılar yavaş yavaş kaybolur, nadir olaylar ilk önce unutulur. Birkaç nesil sonra, model yalnızca ortalamalar ve ana akım görünümle kalır, nihayetinde sıradan, tekdüze ve hatta hatalı hale gelir.

Bu süreç, modelin kendi kendine başlattığı bir veri zehirlenmesi (self-poisoning) gibidir. Nihai sonuç, modelin dil ve gerçekliği anlamamaya başlaması ve çıktının tekrarlayan saçmalıklara dönüşmesidir.

Stanford Makalesi: Gerçek Veriler Sürekli Katılımda Olursa, AI Çökmeyecek

Ancak, 2024 Nisan ayında Stanford Üniversitesi ve Constellation ekibi tarafından yayımlanan “Model Çöküşü Kaçınılmaz mı? Gerçek ve Sentetik Verileri Biriktirerek Rekürsiyon Lanetini Kırmak” başlıklı makale daha iyimser bir cevap sundu. Oxford ekibinin deneylerini yeniden ürettiler, ancak yeni bir eğitim stratejisi önerdiler: verilerin birikmesine izin vermek yerine değiştirilmesi. Yani, yeni nesil AI eski insan verilerini atmak yerine, insan ve AI tarafından üretilen içerikleri sürekli olarak birikim yaparak ve harmanlayarak devam ettiriyor.

Sonuçlar, her seferinde yeni sentezlenmiş verilerin eski verilerin yerini alması durumunda, modelin performansının lineer bir şekilde kötüleşeceğini göstermektedir. Ancak, orijinal verilerin saklanması ve sürekli birikmesi durumunda, model hatası giderek istikrara kavuşmakta ve hatta kötüleşmeyi durdurmaktadır. Onlar, dil modeli (GPT-2, Llama 2), görüntü üretimi (VAE) ve molekül üretimi (Diffusion model) üzerinde tekrar tekrar doğrulama yapmışlar ve her seferinde tutarlı bir sonuca ulaşmışlardır: Gerçek veriler sürekli bir şekilde dahil olduğu sürece, AI çökmez.

Araştırmacılar teorik olarak kanıtlamıştır ki: Veri birikimi olduğunda, model hatasının üst sınırı sınırlıdır, sonsuz bir şekilde büyümez. Bu, AI'nın "yakın akraba evliliği"nin kader olmadığını, insan gerçek verileriyle bağlantıyı kesmediğimiz sürece geçerli olduğunu gösterir.

AI'nin de Habsburg fenomeni vardır, AI'nin kendine referansı akraba evliliği gibidir.

Google yazılım mühendisliği yapmış iKala kurucusu Cheng Shijia, insanlık tarihinin tanınmış Habsburg ailesini bu fenomeni tanımlamak için kullanıyor. Avrupa tarihinin ünlü Habsburg hanedanı, kan temizliğini korumak amacıyla yakın akraba evlilikleri ile serveti ve gücü aile içinde kilitledi. Sonuç olarak, ünlü “Habsburg çenesi” ortaya çıktı, ancak bu yalnızca genetik sorunların buzdağının görünen kısmı. Çeşitli genetik hastalıklar, epilepsi, zeka geriliği ve hatta yüksek ölüm oranları Habsburg ailesinin laneti olarak kabul ediliyor; son kral II. Carlos da bu sebepten dolayı birden fazla hastalığa yakalandı ve ömür boyu çocuk sahibi olamadı.

Cheng Shijia, daha somut bir örnekle açıklamak gerekirse, aslında birçok detayla dolu, hatta küçük kusurlar içeren bir manzara tablosuydu. Ressamın tarzı, detayları, fırça darbeleri ve kusurlar aslında genetik çeşitliliği temsil eder. İlk kopyalama işlemi sırasında, AI ( numaralı kopyayı oluşturdu ve verileri ) olarak sentezledi. Bu aşamada kopya, orijinaline %99.9 oranında yakındı. Ancak, AI bir modeldir; ortalama alır, kusurları düzeltir ( nadir bilgiyi ) temsil eder ve en yaygın özellikleri ( ana akım görüşü ) biraz güçlendirir. Bir sonraki nesil buradan öğrenir ve tekrar ortalama alır, işte bu kendine referans döngüsüdür.

Bu makale AI'nin sonuna geldi, ilk olarak Chain News ABMedia'da yayınlandı.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)