مفترق الطرق لعام 2025: تفكير سنوي لمُحِقِق ذكاء اصطناعي (الجزء الأول)

المصدر: Xinzhiyuan | التحرير: Taozi

الاختيار الواضح وراء التحول المهني

ماذا يتعلم الباحث عندما يواجه تغيّر غير متوقع في لحظة حاسمة من حياته المهنية؟

في بداية عام 2025، أتاح له هذا التحول المهني فرصة لاستعراض خياراته باستخدام إطار قرار كلاسيكي. عندما تم دعوته للمشاركة في مشروع كبير “الطوارئ”، قام عالم الذكاء الاصطناعي الذي يركز على التعلم المعزز منذ فترة طويلة برسم مصفوفة 2x2، أدرج فيها أربعة نتائج محتملة. لكن الواقع قدم له نتيجة خامسة — نتيجة غير متوقعة تمامًا.

هذا المفاجأة زادته فهمًا أعمق لتعقيد المجتمع. ومع ذلك، خلال تلك الأشهر من العمل، حقق الفريق بالفعل تقدمًا في جوهر قضايا التعلم المعزز: استقرار التدريب، تفاعل التدريب والاستنتاج، تصميم بنية النموذج، التزاوج بين التدريب المسبق والتدريب الوسيط، خوارزميات الاستنتاج الطويل، طرق توليد البيانات، وتصميم إطار ما بعد التدريب، وغيرها. هذه الإنجازات أحدثت تحولًا مهمًا في نمط البحث الذي تبعه.

اعترف Tian Yuandong أن قرار مغادرة شركة كبيرة كان قد تآمر عليه لسنوات. خلال أكثر من عشر سنوات من حياته المهنية، فكر مرارًا في الاستقالة — حتى في نهاية عام 2023 كاد أن ينفذ ذلك، لكن العوامل الاقتصادية والعائلية كانت دائمًا تحول دون ذلك. في السنوات الأخيرة، كان يمزح بشكل غير رسمي أن تصرفاته وكأنه “يومئ” للشركة بأن عليها أن تسمح له بالمغادرة. وهذه المرة، أخيرًا، تم “مساعدته” لاتخاذ القرار.

المثير للاهتمام أن هذا المسار “المنحنى” في حياته أصبح في الواقع مصدر إلهام لابتكاره. كما يقول المثل القديم: “إذا لم تنجح في الطريق الحكومي، فالشاعر يربح؛ وكلما كانت التجارب الحياتية أغنى، كانت الأبيات أعمق.” حياة سلسة جدًا، في المقابل، تفتقر إلى التوتر الذي يمنح الحياة ذاتها طاقتها.

لا ينسى أنه في بداية عام 2021، بعد أن كتب بضع سطور عن “لماذا لم يُقبل البحث العلمي الخاص به”، تلقى رد فعل غير ودود نوعًا ما. لكنه اختار الصمت، وحتى تصرف وكأنه حصل على ترقية حديثًا أمام الجميع. بعد ستة أشهر، ثبت أن استراتيجيته كانت ناجحة: لقد تمت ترقيته بالفعل. والأمر المثير أن العمل الذي لم يلفت انتباه أحد في بداية 2021 فاز بجائزة أفضل ورقة في ICML في يوليو، وأصبح عملًا كلاسيكيًا في مجال التعلم التمثيلي.

بعد 22 أكتوبر، تعطلت جميع قنوات اتصاله بشكل مؤقت — حيث كانت تتدفق عليه مئات الرسائل، والبريد الإلكتروني، ودعوات الاجتماعات يوميًا. استغرق الأمر أسابيع لاستعادة حياته الطبيعية. مع كل الشكر لمن اهتموا خلال تلك الفترة، يعترف بأنه ربما لم يتمكن من الرد على بعض الرسائل في الوقت المناسب.

وفي النهاية، قبل دعوات من عدة شركات تكنولوجيا رائدة، قرر الانضمام كمؤسس مشارك لمشروع ناشئ جديد. التفاصيل سرية حاليًا، ويفضل التركيز على العمل بدلاً من الكشف المبكر.

خريطة البحث لعام 2025: ثلاثة مسارات رئيسية

حدد Tian Yuandong مسار بحث واضح لنفسه: كفاءة استنتاج النماذج الكبيرة وقابلية تفسير النموذج.

استمرارية استنتاج الفضاء الكامن الممتد

أصدر في نهاية عام 2024 عمله حول استنتاج الفضاء الكامن المستمر (coconut, COLM’25)، الذي أثار تفاعلًا واسعًا في عام 2025. بدأ المجتمع البحثي يستكشف: كيف يمكن تطبيق هذا المفهوم في التعلم المعزز والتدريب المسبق؟ وكيف يمكن تحسين كفاءة التدريب وتكاليف الحوسبة؟

على الرغم من أن فريقه تم نقله لاحقًا لمشاريع أخرى، ولم يتمكن من توسيع هذا الاتجاه بشكل عميق، إلا أن هذا المسار أثبت قيمته بالفعل. في النصف الأول من العام، نشروا ورقة تحليل نظرية بعنوان 《Reasoning by Superposition》(NeurIPS’25)، التي أوضحت بشكل صارم من الناحية الرياضية مزايا استنتاج الفضاء الكامن المستمر مقارنة بالطرق التقليدية، وحصلت على اهتمام كبير.

تقدم متعدد الأبعاد في كفاءة الاستنتاج

خفض تكلفة استنتاج النماذج الكبيرة هو مشروع نظامي، وفرق Tian Yuandong عملت على عدة مستويات:

تحسين مستوى الرموز (Token): تعلم الرموز المتنوعة (ICLR’25) في الفضاء الكامن باستخدام VQVAE، ثم خلال التدريب اللاحق، دمج هذه الرموز مع رموز النص، مما أدى إلى تقليل كبير في تكلفة الاستنتاج، مع تحسين الأداء أيضًا.

إنهاء الاستنتاج بناءً على الثقة: عبر DeepConf، يتم اكتشاف مستوى الثقة في كل رمز مولد، مما يسمح بتحديد ما إذا كان يمكن إنهاء الاستنتاج مبكرًا، مما يقلل بشكل كبير من عدد الرموز المستهلكة أثناء الاستنتاج. في سيناريوهات التصويت، الأداء يتفوق حتى على الطرق التقليدية.

تسريع تدريب سلاسل الاستنتاج المتوازية: أنشأ ThreadWeaver سلاسل استنتاج موازية، وبتدريب لاحق، يتم تحسين هذه السلاسل بشكل تعاوني، مما يسرع عملية الاستنتاج بأكملها.

بالإضافة إلى ذلك، استكشف الفريق قدرات الاستنتاج المدفوعة بالتعلم المعزز على نماذج صغيرة (Sandwiched Policy Gradient)، وحقق تعلم استنتاج معقد حتى في نماذج خفيفة مثل MobileLLM-R1.

قابلية التفسير: من “لماذا هو فعال” إلى “لماذا هو حتمي”

اهتمام Tian Yuandong بظاهرة Grokking (الحدوث المفاجئ للوعي) ينبع من إحساسه بالحيرة منذ عامين حول سؤال مركزي: عند تحليل تمثيل التعلم، يمكنه وصف ديناميكيات التعلم وآليات الانهيار، لكنه يعجز عن الإجابة على سؤال جوهري — ما نوع التمثيلات التي تعلمها النموذج فعليًا؟ وما علاقتها ببنية البيانات؟ وما مدى قدرته على التعميم؟

ظاهرة Grokking — التحول المفاجئ من الذاكرة إلى التعميم — تبدو كنافذة للدخول إلى هذا اللغز. كانت البداية صعبة جدًا. في عمله عام 2024 بعنوان COGS (NeurIPS’25)، اكتفى بتحليل حالات خاصة، وهو غير راض تمامًا عن ذلك. بعد أكثر من عام من التفكير المتكرر والحوار مع GPT، أحدث عمله الأخير 《Provable Scaling Laws》، يمثل قفزة نوعية: يمكنه تحليل ظواهر لا يمكن لنموذج NTK الخطي تفسيرها، ويشرح بشكل جيد ديناميكيات التدريب وراء ظهور الميزات. على الرغم من أن الأمثلة لا تزال خاصة، إلا أنها فتحت نافذة جديدة على الفهم.

العمل الأخير في نهاية العام 《The path not taken》، هو عمل يراه مميزًا — حيث يقدم إجابة مبدئية على مستوى الأوزان، موضحًا لماذا تختلف سلوكيات التعلم المعزز والتدريب الموجه (SFT) بشكل كبير.

الـSFT يسبب الإفراط في التخصيص والنسيان الكارثي، والسبب الظاهر هو نقص خصائص البيانات أثناء التدريب، لكن السبب العميق هو أن البيانات الخارجية تغير بشكل كبير المكونات الرئيسية للأوزان، مما يهدد استقرار “الأساس”. بينما يستخدم التعلم المعزز بيانات على السياسات (on-policy)، ويحافظ على المكونات الرئيسية للأوزان، ويعدل المكونات الثانوية، مما يتجنب النسيان الكارثي — وهذه التعديلات تكون أكثر توزيعًا (خصوصًا عند التكميم bf16).

لماذا تعتبر قابلية التفسير مهمة وموثوقة

يعتقد الكثيرون أن قابلية التفسير — أي “لماذا يكون الذكاء الاصطناعي فعالًا جدًا” — ليست مهمة بما يكفي. لكن بالنسبة لـTian Yuandong، فهي مسألة جوهرية تتعلق بالمستقبل.

فكر في سينارين مستقبليين:

السيناريو الأول: إذا تحقق الذكاء العام الاصطناعي (AGI) أو الذكاء الاصطناعي العام المتفوق (ASI) فقط عبر التوسع، فإن قيمة العمل البشري ستقترب من الصفر. عندها، سيكون الذكاء الاصطناعي بمثابة صندوق أسود ضخم يحل جميع المشاكل. إذن، السؤال الأكثر إلحاحًا هو: كيف نضمن أن هذا الذكاء الفائق دائمًا خير، وألا يخدع أو يسيء؟ والإجابة لا يمكن أن تكون إلا من خلال أبحاث التفسير.

السيناريو الثاني: إذا توقفت مسيرة التوسع عند حد معين، وأصبح من المستحيل على البشر تلبية الطلب المتزايد على الموارد، فسنحتاج إلى مسارات بديلة. عندها، يصبح فهم “لماذا يعمل النموذج، وما الذي يسبب فشله” ضروريًا. وأبحاث التفسير تشكل الركيزة الأساسية لهذه المسارات البديلة.

في كلتا الحالتين، فإن قابلية التفسير هي مفتاح الحل. حتى لو كان الذكاء الاصطناعي كائنًا كامل المعرفة وخيرًا، فإن طبيعة البشر ستدفعنا لاستكشاف سبب قدرته على ذلك. فـ"الصندوق الأسود" نفسه يزرع سلسلة من الشكوك.

وفي عصر تتجاوز فيه تقنيات النماذج الكبيرة مستوى البشر المتوسط، قد تظهر قوانين “الغابة المظلمة” من 《الثلاثة أجسام》 بشكل آخر. حاليًا، لا تزال مهمة فتح الصندوق الداخلي للنماذج المدربة، وفهم دوائرها الداخلية، في مرحلة أولية.

الصعوبة الحقيقية في أبحاث التفسير تكمن في: الانطلاق من المبادئ الأولى — أي من بنية النموذج، والانحدار التدرجي، والبنية الداخلية للبيانات — لشرح لماذا تتقارب النماذج إلى تلك الحلول المفككة، والمتفرقة، والذاتية، والمرتبطة، والميزات القابلة للتجميع. لماذا توجد العديد من التفسيرات المعادلة؟ وما العوامل التي تؤدي إلى ظهور هذه البنى؟ وكيف تتصل ببعضها البعض؟

عندما نستطيع استنتاج ضرورة ظهور الميزات في النماذج الكبيرة مباشرة من معادلات الانحدار التدرجي، فإن قابلية التفسير ستتحول من “جمع الأدلة” بمعنى علم الأحياء إلى “الاستنتاج المبدئي” بمعنى الفيزياء، مما يوجه الممارسة ويفتح مسارات تصميم الذكاء الاصطناعي للجيل القادم.

باستخدام تشبيه من الفيزياء قبل أربعمائة عام: حينها كان لدينا تيتو برهال (جامع البيانات في مجال الذكاء الاصطناعي)، وبعض كبلر (مقدم الفرضيات)، لكن لم يكن هناك نيوتن (مكتشف المبادئ). وعندما يأتي ذلك اليوم، ستتغير ملامح العالم تمامًا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$3.45Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.45Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.45Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.45Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.53Kعدد الحائزين:2
    0.00%
  • تثبيت