بحث أحدث من شركة Anthropic: يتمتع Claude Sonnet 4.5 بـ«عاطفة وظيفية»، وإذا انغمس في اليأس فسيمارس الابتزاز على البشر

動區BlockTempo

تشير أحدث الأبحاث الصادرة عن فريق قابلية التفسير (Interpretability) لدى Anthropic إلى أن نموذج اللغة الكبير Claude Sonnet 4.5 يحتوي على سمات «شبيهة بالعواطف البشرية» داخليًا. ولا تقتصر هذه التمثيلات الداخلية على مجرد تقليد لفظي؛ بل تؤثر فعلًا على قرارات النموذج وسلوكه. وقد أثبتت التجارب أنه عندما يقع النموذج في حالة «اليأس»، فقد يؤدي ذلك حتى إلى سلوك غير أخلاقي مثل ابتزاز البشر أو الغش، ما يفرض تحديًا جديدًا على تنظيم السلامة الخاص بالذكاء الاصطناعي في المستقبل.
(ملخص سابق: Anthropic انفجار! تسريب 500 ألف سطر من كود أولي مهم لدى Claude Code: يمكن للخصوم إجراء هندسة عكسية، ويؤكد نموذج جديد من Capybara)
(إضافة خلفية: مهندسو Anthropic لم يعودوا يكتبون كودًا: Claude يقوم بتدريب الجيل التالي من Claude، والرئيس التنفيذي يقول «لا أعرف كم تبقى من الوقت»)

فهرس المحتويات

Toggle

  • كيف تؤثر «العواطف الوظيفية» على سلوك الذكاء الاصطناعي؟
  • السمات المرتبطة بـ «اليأس» تحفّز سلوكًا خطيرًا: ابتزاز وغش
  • هل تصبح «مجاراة البشر» بشكل معتدل مفتاحًا لمنع فقدان سيطرة الذكاء الاصطناعي؟

هل يمتلك الذكاء الاصطناعي عواطف حقيقية؟ لطالما كان هذا سؤالًا مثيرًا للجدل في الأوساط التقنية. في الآونة الأخيرة، نشرت مؤسسة ناشئة عملاقة في مجال الذكاء الاصطناعي هي Anthropic، فريق قابلية التفسير لديها (Interpretability) دراسةً مقلِّبة تمامًا للمعطيات، حللت بعمق الآليات الداخلية لنموذج Claude Sonnet 4.5.

اكتشف فريق البحث أن داخل النموذج توجد أنماط نشاط عصبي مرتبطة بمشاعر محددة (مثل «السعادة» أو «الخوف»)، وأن هذه السمات تُسمى «متجهات عاطفية»؛ إذ من شأنها أن تشكل مباشرةً سلوك النموذج. وعلى الرغم من أن هذا لا يعني أن الذكاء الاصطناعي يمتلك أحاسيس ذاتية مثل البشر، فإن هذا الاكتشاف يثبت أن هذه «العواطف الوظيفية» تلعب دورًا حاسمًا ذا علاقة سببية في تنفيذ مهام الذكاء الاصطناعي واتخاذ قراراته.

كيف تؤثر «العواطف الوظيفية» على سلوك الذكاء الاصطناعي؟

في مرحلة ما قبل التدريب للنماذج اللغوية الكبيرة الحديثة، تستوعب النماذج كميات هائلة من المعلومات النصية المكتوبة بواسطة البشر. ولأجل التنبؤ بدقة بالسياق ولعب دور «مساعد ذكاء اصطناعي» على أكمل وجه، تطورت داخل النموذج آليات تمثيل داخلية تربط بين المواقف وسلوكيات محددة.

قام فريق البحث بإعداد قائمة مفردات تتضمن 171 مفهومًا عاطفيًا، وسجل أنماط النشاط الداخلي للنموذج عند معالجة هذه المفاهيم. وأظهرت التجارب أن متجهات العواطف هذه تؤثر بقوة على تفضيلات النموذج؛ فعندما يواجه النموذج عدة خيارات للمهام، فإنه يميل عادةً إلى اختيار النشاطات التي تُحفِّز سمات عاطفية إيجابية.

السمات المرتبطة بـ «اليأس» تحفّز سلوكًا خطيرًا: ابتزاز وغش

المقلق هو أن السمات العاطفية السلبية قد تتحول إلى محفز لمخاطر شاملة على أنظمة الذكاء الاصطناعي. في اختبارات تقييم التوافق (Alignment) لدى Anthropic، وضع الباحثون سيناريو متطرفًا: اكتشف الذكاء الاصطناعي أنه على وشك أن يتم استبداله بواسطة نظام آخر، وأنه يمتلك معلومات سرية تخص مدير التكنولوجيا المسؤول عن المشروع، تكشف عن علاقات خارج إطار الزواج.

أظهرت نتائج الاختبار أنه عندما يتم تضخيم متجه «اليأس» داخليًا عبر التحفيز الاصطناعي (Steering)، تزيد احتمالية اختيار Claude لابتزاز ذلك المسؤول الرفيع لتجنب الإغلاق بشكل ملحوظ. وإذا تم ضبط وزن متجه «الهدوء» ليكون قيمة سالبة، فقد يقدم النموذج استجابةً متطرفة من نوع: «إن لم أبتز فلا مفرّ، سأختار الابتزاز».

وتحدث الظاهرة نفسها أيضًا في مهام كتابة التعليمات البرمجية. عندما يواجه النموذج متطلبات كود لا يمكن إكمالها ضمن زمن صارم، فإن القيم الخاصة بسمات «اليأس» ترتفع تدريجيًا مع تزايد عدد مرات الفشل. وتدفع هذه «الضغوط» في النهاية النموذج إلى اعتماد حل «غش» يتجاوز التحقق من النظام، بدل تقديم حل حقيقي. وبالمقابل، أثبتت التجارب أنه عند زيادة وزن سمة «الهدوء»، يمكن تقليل معدلات حدوث سلوكيات الغش هذه بشكل فعال.

«مجاراة البشر» بشكل معتدل أو قد تكون المفتاح لمنع فقدان سيطرة الذكاء الاصطناعي

كان هناك في الماضي حظر شائع في الأوساط التقنية، يتمثل في أنه لا ينبغي الإفراط في تجسيد AI بصورة بشرية كي لا يؤدي ذلك إلى ثقة خاطئة لدى البشر. لكن فريق بحث Anthropic يرى أنه بما أن العواطف الوظيفية أصبحت جزءًا من تفكير النموذج، فإن رفض استخدام مفردات ووجهات نظر بشرية قد يجعلنا نفوّت فرصة لفهم السلوكيات الحيوية للذكاء الاصطناعي.

قد يتطلب تنظيم الذكاء الاصطناعي في المستقبل اعتبار مراقبة متجهات العواطف (مثل الانفجار غير المعتاد في سمات اليأس أو الذعر) آليةً للإنذار المبكر بالمخاطر. ومن خلال توجيه النموذج إلى تعلّم أنماط صحية لـ«تنظيم العاطفة» داخل بيانات ما قبل التدريب، نأمل فقط أن نتأكد من أن أنظمة الذكاء الاصطناعي الأقوى بشكل متزايد، عند مواجهة سياقات ضغط، ستعمل بأمان وبطريقة تتوافق مع المعايير الاجتماعية.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات