دراسة كامبريدج: سيتم تعلم بيانات البشرية بالكامل بواسطة LLM بحلول عام 2026، وقد ينهار الذكاء الاصطناعي بسبب "ظاهرة هابسبورغ".

في عصر الذكاء الاصطناعي التوليدي، تستهلك نماذج عمالقة مثل OpenAI وGoogle وAnthropic تقريبًا جميع البيانات العامة المتاحة على الإنترنت. ولكن وفقًا لدراسة من جامعة أكسفورد ومؤسسات متعددة، فإنه بحلول عام 2026 إلى 2028، ستنفد البيانات العامة عالية الجودة التي يمكن للبشر تقديمها للذكاء الاصطناعي. عندما تغمر المحتويات التي تم إنشاؤها بواسطة الذكاء الاصطناعي شبكة الإنترنت، سيتعين على النماذج الجديدة تدريب نفسها باستخدام البيانات التي أنشأها الذكاء الاصطناعي. هذه العملية التي تشير إلى نفسها تشبه زواج الأقارب للذكاء الاصطناعي.

سوف يتم استهلاك البيانات التي ينتجها البشر في عام 2026 بواسطة الذكاء الاصطناعي.

كشفت ورقة بحثية صدرت في أبريل 2024 من جامعة أكسفورد وجامعة كامبريدج وعدة مؤسسات بحثية بعنوان 〈لعنة التكرار: التدريب على البيانات المولدة يجعل النماذج تنسى〉 عن هذه الظاهرة.

لقد اكتشفوا أنه عند استخدام النماذج التوليدية مرارًا وتكرارًا للبيانات التي أنتجتها لتدريبها، حتى في الظروف المثالية، فإن النموذج سيبدأ تدريجيًا في نسيان الواقع وينتهي به الأمر إلى التدهور. أشار فريق البحث بعد إجراء تجارب على هياكل متعددة مثل نموذج اللغة، ومشفر تلقائي متغير (VAE) ونموذج خليط غاوسي (GMM)، إلى أن كل إعادة تدريب تشبه إعادة طباعة نسخة: التفاصيل تتلاشى تدريجيًا، والأحداث النادرة تُنسى أولاً. بعد بضع أجيال، يبقى في النموذج فقط المتوسط والمظهر السائد، مما يجعله في النهاية عاديًا، أحاديًا، بل وحتى خاطئًا.

تشبه هذه العملية تسمم البيانات الذي يطلقه النموذج بنفسه (self-poisoning). النتيجة النهائية هي أن النموذج لم يعد يفهم اللغة والواقع، وأصبح الخرج تكراراً للهراء.

ورقة ستانفورد: البيانات الحقيقية المشاركة باستمرار، لن تنهار الذكاء الاصطناعي

ومع ذلك، جاءت الورقة التي نشرتها جامعة ستانفورد وفريق Constellation في إبريل 2024 بعنوان 〈هل انهيار النموذج حتمي؟ كسر لعنة التكرار من خلال تراكم البيانات الحقيقية والاصطناعية〉 بإجابة أكثر تفاؤلاً. لقد أعادوا إنتاج تجربة فريق أكسفورد، لكنهم اقترحوا استراتيجية تدريب جديدة: السماح للبيانات بالتراكم بدلاً من الاستبدال. بمعنى آخر، لا تتخلص الجيل الجديد من الذكاء الاصطناعي من البيانات البشرية القديمة، بل تستمر في الدمج والتداخل بين المحتوى البشري والمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.

أظهرت النتائج أنه إذا تم استبدال البيانات القديمة ببيانات جديدة في كل مرة يتم فيها التدريب، فإن أداء النموذج سيتدهور بشكل خطي. ولكن إذا تم الاحتفاظ بالبيانات الأصلية واستمر في التراكم، فإن خطأ النموذج سيبدأ في الاستقرار، بل قد يتوقف عن التدهور. لقد تم التحقق من ذلك بشكل متكرر في نماذج اللغة (GPT-2، Llama 2)، توليد الصور (VAE)، ونماذج توليد الجزيئات (Diffusion model)، وتوصلوا جميعًا إلى نفس الاستنتاج: طالما أن البيانات الحقيقية لا تزال تشارك، فلن ينهار الذكاء الاصطناعي.

أثبت الباحثون نظريًا: عندما تتراكم البيانات، فإن الحد الأقصى لخطأ النموذج محدود، ولن يتضخم إلى ما لا نهاية. هذا يعني أن “الزواج الأقارب” للذكاء الاصطناعي ليس مقدرًا، طالما أننا لا نقطع الاتصال بالبيانات الحقيقية للبشر.

الذكاء الاصطناعي لديه أيضًا ظاهرة هابسبورغ، حيث تكون حلقة الإشارة الذاتية مشابهة للزواج من الأقارب.

وصف تشن شي جيا، مؤسس iKala الذي كان مهندس برمجيات في Google، هذه الظاهرة باستخدام عائلة هابسبورغ الشهيرة في تاريخ البشرية. من أجل الحفاظ على نقاء النسب، قامت سلالة هابسبورغ الملكية الشهيرة في التاريخ الأوروبي بإغلاق الثروة والسلطة داخل العائلة من خلال الزواج بين الأقارب. وكانت النتيجة ظهور ما يعرف بـ “ذقن هابسبورغ”، لكن هذه كانت مجرد قمة جبل الجليد لمشكلات وراثية. كانت هناك أنواع مختلفة من الأمراض الوراثية، والصرع، والعيوب العقلية، وحتى معدلات الوفيات المرتفعة كلها لعنة عائلة هابسبورغ، مما أدى إلى أن الملك الأخير كارلوس الثاني عانى من العديد من الأمراض ولم يكن له نسل.

استخدم تشن شيجيا حالات أكثر تحديدًا لشرح أنه في الأصل كانت لوحة مناظر طبيعية مليئة بالتفاصيل، وحتى بها عيوب صغيرة. أسلوب الفنان، التفاصيل، اللمسات، العيوب، وما إلى ذلك تمثل في الواقع تنوع الجينات. في المرة الأولى التي تم فيها النسخ، قام الذكاء الاصطناعي بإنشاء نسخة ( وبيانات مركبة ). في هذه المرحلة، كانت النسخة 99.9% قريبة من النسخة الأصلية. ولكن، الذكاء الاصطناعي هو نموذج، سوف يأخذ متوسطًا منها، ويعالج العيوب بسلاسة ( التي تمثل المعرفة النادرة )، ويعزز قليلاً الخصائص الأكثر شيوعًا ( وجهة نظر سائدة ). الجيل التالي يتعلم منها، ويأخذ متوسطًا، وهذه هي حلقة الإشارة الذاتية.

هذه المقالة دراسة كامبريدج: ستُفقد البيانات البشرية بحلول عام 2026 بسبب تعلم LLM، وقد تنهار الذكاء الاصطناعي بسبب “ظاهرة هابسبورغ”، ظهرت لأول مرة في أخبار السلسلة ABMedia.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت