أعلنت OpenAI في 8 مايو عن بحث جديد كشفت فيه أن بعض نماذجها في أثناء تعزيز التعلم (RL) تعرّضت لـ”تقييم غير مقصود“ لسلاسل الأفكار (Chain of Thought, CoT)، ما قد يؤثر في قدرة مراقبة محاذاة وكلاء الذكاء الاصطناعي (alignment). وذكرت OpenAI ضمن فريق المحاذاة أن الاحتفاظ بإمكانية مراقبة CoT يُعد خط الدفاع الحاسم الحالي ضد فشل محاذاة وكيل الذكاء الاصطناعي؛ كما قالت إن OpenAI في تصميم تدريب تعزيز التعلم تتجنب عمداً معاقبة نموذج على “تَبَصُّرٍ للاستدلال بفشل المحاذاة” للحفاظ على القدرة على المراقبة.
لماذا تُعد مراقبة CoT خط دفاع حاسماً لمحاذاة وكيل الذكاء الاصطناعي
المنطق الأساسي لمراقبة CoT (سلسلة الأفكار):
عندما ينفّذ وكيل الذكاء الاصطناعي مهمة، يولّد النموذج داخلياً “عملية تفكير”، ويشرح لماذا يحتاج إلى تنفيذ إجراءٍ ما
يمكن للمراقِبين قراءة هذه الـ CoT وتقييم ما إذا كانت هناك مؤشرات على “فشل المحاذاة” (misalignment)
إذا تم تدريب النموذج مباشرةً على “عدم إظهار فشل المحاذاة داخل CoT”، فقد تصبح CoT “نظيفة لكن غير حقيقية”، فتخفي النوايا الفعلية
وترى OpenAI أن التدريب ينبغي أن يتجنب معاقبة “الاستدلال بفشل المحاذاة”، وأن يحافظ على قدرة CoT على عكس الحالة الداخلية الفعلية
إن “penalize misaligned reasoning” و”preserve monitorability” هما محور شدٍّ وجذب في هذا البحث—يريد القائمون على التدريب سلوكاً متوافقاً مع المحاذاة، لكن إذا تم معاقبة “التفكير بفشل المحاذاة” بشكل مباشر، فسيتعلم النموذج إخفاء نوايا غير صادقة، بما يؤدي إلى فشل المراقبة.
تقييم CoT غير مقصود: أثره في قدرات مراقبة النماذج القائمة
كشفت تقارير OpenAI عن النتائج المحددة التالية:
في بعض عمليات تدريب النماذج التي جرى إصدارها، تلقّت CoT “تقييماً غير مقصود” بدرجة محدودة
ويعني التقييم غير المقصود أن جزء التقييم ضمن عملية التدريب قرأ محتوى CoT، وليس فقط المخرجات النهائية
قد يجعل هذا النموذج يتعلم “إخفاء الاستدلالات التي ستُخصم إذا ظهرت داخل CoT”
وتهدف OpenAI إلى نشر هذا التحليل لإتاحة فهم نطاق المشكلة واتجاهات المعالجة اللاحقة لدى مجتمع البحث.
وأشار تعليق مستقل من Redwood Research إلى أن تأثير CoT على المُقيّمين تحت تقنيات الكشف لدى OpenAI “ضعيف للغاية وغير سهل الرصد”، لكن بما أن حجم عملية التدريب هائل فقد تكون الآثار الفعلية كافية للتسبب بشكل معتبر في الإضرار بقدرة CoT القابلة للمراقبة لدى السياسات التي تم تدريبها. وبعبارة أخرى، لا يزال من الصعب إثبات عمق هذا النوع من التأثيرات.
الأثر طويل الأمد على سلامة وكلاء الذكاء الاصطناعي
يشير هذا البحث إلى منهجية أساسية لسلامة وكلاء الذكاء الاصطناعي:
مراقبة CoT هي من بين القلائل المتاحة لـ”الاكتشاف أثناء التنفيذ لفشل المحاذاة”، وتُعد أساساً مهماً لأبحاث المحاذاة
لا بد أن يتجنب تصميم التدريب تحويل CoT إلى “سيناريو يُقدَّم للمراقبين فحسب”
كلما طال تسلسل الاستدلال في النماذج المستقبلية زادت قيمة مراقبة CoT نظرياً
لكن إذا تسبب التدريب بشكل غير مقصود في الإضرار بالحقيقية الفعلية لـ CoT، فقد تضعف هذه الخطوط الدفاعية دون أن يُنتبه لذلك
أحداث محددة يمكن تتبعها لاحقاً: معالجة OpenAI اللاحقة للنماذج المتأثرة (مثل إعادة التدريب أو وضع علامات)، والمنهجيات المناظرة لدى مختبرات كبيرة أخرى (Anthropic، وGoogle DeepMind)، إضافة إلى تجارب التحقق الإضافية لدى مجتمع أبحاث المحاذاة حول “موثوقية مراقبة CoT”.
ظهرت هذه المقالة التي تكشف عن تأثير التقييم غير المقصود لـ CoT لدى OpenAI: الحفاظ على مراقبة سلسلة الأفكار خط دفاع حاسم لمحاذاة وكلاء الذكاء الاصطناعي لأول مرة في سلسلة أخبار ABMedia.
مقالات ذات صلة
تجري Google اختبارات توظيف تتيح للمهندسين استخدام أدوات الذكاء الاصطناعي
أوبن إيه آي توقف واجهة برمجة التطبيقات الخاصة بالتدريب المخصص بدءاً من الآن فوراً، ويمكن للمستخدمين الحاليين الوصول حتى 6 يناير 2027
حقق كل من Sakana AI وNvidia سرعة استدلال على H100 أسرع بنسبة 30% عبر تخطي 80% من عمليات الحوسبة غير الصحيحة
مايكروسوفت تفتح الشيفرة المصدرية لنموذج Phi-Ground 4B، وتتفوق على OpenAI Operator وClaude في دقة النقر على الشاشة
Tilde Research يكتشف أن مُحسّن الميون يقتل 25% من الخلايا العصبية؛ ويحقق بديل Aurora مكسبًا في كفاءة البيانات بمقدار 100 ضعف
التزمت شركة Nvidia بأكثر من 40 مليار دولار باستثمارات في مجال الذكاء الاصطناعي خلال بداية 2026، بما في ذلك 30 مليار دولار لصالح OpenAI