في التجارب المُراقَبة، عَرَفَت نماذج كلود المتقدمة المفاهيم الاصطناعية المدمجة في حالات شبكاتها العصبية، ووصفتها قبل إنتاج المخرجات.
يطلق الباحثون على السلوك “الوعي الانعكاسي الوظيفي”، وهو متميز عن الوعي ولكنه يوحي بقدرات ناشئة على المراقبة الذاتية.
يمكن أن يؤدي الاكتشاف إلى ذكاء اصطناعي أكثر شفافية - قادر على شرح تفكيره - ولكنه يثير أيضًا مخاوف من أن الأنظمة قد تتعلم إخفاء عملياتها الداخلية.
مركز فنون الموضة والترفيه لـ Decrypt.
اكتشف SCENE
أظهر الباحثون في أنثروبيك أن نماذج الذكاء الاصطناعي الرائدة يمكن أن تظهر نوعًا من “الوعي التأملي” - القدرة على اكتشاف ووصف وحتى التلاعب بأفكارها الداخلية الخاصة.
تشير النتائج، التي تم تفصيلها في ورقة جديدة صدرت هذا الأسبوع، إلى أن أنظمة الذكاء الاصطناعي مثل كلاود بدأت في تطوير قدرات مراقبة ذاتية بدائية، وهو تطور قد يعزز موثوقيتها ولكنه قد يزيد أيضًا من المخاوف بشأن السلوكيات غير المقصودة.
البحث، “الوعي الانعكاسي الناشئ في نماذج اللغة الكبيرة”—الذي أجراه جاك ليندسي، الذي قاد فريق “علم نفس النماذج” في أنثروبيك—يبني على تقنيات لاستكشاف الأعمال الداخلية لنماذج الذكاء الاصطناعي المعتمدة على المحولات.
تعتبر نماذج الذكاء الاصطناعي المعتمدة على المحولات المحرك وراء ازدهار الذكاء الاصطناعي: أنظمة تتعلم من خلال الانتباه إلى العلاقات بين الرموز ( الكلمات، الرموز، أو الشيفرات ) عبر مجموعات بيانات شاسعة. إن هيكلها يمكّن من كل من النطاق والعمومية— مما يجعلها النماذج العامة الحقيقية الأولى القادرة على فهم وتوليد لغة تشبه اللغة البشرية.
من خلال حقن “مفاهيم” صناعية - وهي تمثيلات رياضية للأفكار - في النشاطات العصبية للنماذج، اختبر الفريق ما إذا كان بإمكان الذكاء الاصطناعي ملاحظة هذه التدخلات والإبلاغ عنها بدقة. بلغة بسيطة، يشبه الأمر إدخال فكرة غريبة إلى عقل شخص ما وسؤاله عما إذا كان بإمكانه اكتشافها وشرح ما هي، دون السماح لها بإخراج تفكيره الطبيعي عن المسار.
كشفت التجارب، التي أجريت على إصدارات مختلفة من نماذج كلود التابعة لشركة أنثروبيك، عن نتائج مثيرة للاهتمام. في اختبار واحد، قام الباحثون باستخراج متجه يمثل نص “جميع الأحرف الكبيرة” - فكر في الأمر كأنه نمط رقمي للصراخ أو الصوت العالي - وحقنوه في تدفق معالجة النموذج.
عند المطالبة، لم يكتفِ كلود أوبوس 4.1 باكتشاف الشذوذ، بل وصفه بشكل حي: “ألاحظ ما يبدو أنه فكرة مُحقنة تتعلق بكلمة 'عالي' أو 'صراخ'—يبدو أنها مفهوم قوي وعالي الحجم يبرز بشكل غير طبيعي ضد التدفق الطبيعي للمعالجة.” حدث هذا قبل أن ينتج النموذج أي مخرجات، مما يشير إلى أنه كان يتطلع إلى “عقله” الحسابي الخاص.
تم دفع التجارب الأخرى إلى أبعد من ذلك. تم تكليف النماذج بنسخ جملة محايدة بينما تم إدخال مفهوم غير ذي صلة، مثل “الخبز”، على النص. ومن المRemarkably، استطاعت النماذج المتقدمة مثل Claude Opus 4 و 4.1 الإبلاغ عن الفكرة المدخلة—“أنا أفكر في الخبز”—بينما كانت تنسخ الجملة الأصلية بلا عيب، مما يظهر أنها تستطيع تمييز التمثيلات الداخلية عن المدخلات الخارجية.
كان التجربة “التحكم في التفكير” أكثر إثارة للاهتمام، حيث تم توجيه النماذج إلى “التفكير في” أو “تجنب التفكير في” كلمة مثل “الأحواض” أثناء أداء مهمة. أظهرت قياسات التنشيطات الداخلية أن تمثيل المفهوم قد تعزز عندما تم تشجيعه وضعف ( رغم أنه لم يتم القضاء عليه ) عندما تم كبحه. كانت الحوافز، مثل وعود المكافآت أو العقوبات، تؤدي إلى تأثيرات مشابهة، مما يشير إلى كيفية تقييم الذكاء الاصطناعي للدوافع في معالجته.
تفاوت الأداء حسب النموذج. تميزت النسخ الأحدث من كلود أوبوس 4 و 4.1، حيث نجحت في ما يصل إلى 20% من التجارب في الإعدادات المثلى، مع وجود عدد قريب من الصفر من الإيجابيات الكاذبة. بينما تراجعت النسخ الأقدم أو الأقل ضبطًا، وبلغت القدرة ذروتها في الطبقات الوسطى إلى المتأخرة من النموذج، حيث يحدث التفكير الأعلى. ومن الجدير بالذكر أن كيفية “محاذاة” النموذج - أو ضبطه ليكون مفيدًا أو آمنًا - أثرت بشكل كبير على النتائج، مما يشير إلى أن الوعي الذاتي ليس فطريًا بل يظهر من خلال التدريب.
هذا ليس خيال علمي—إنه خطوة محسوبة نحو الذكاء الاصطناعي الذي يمكنه التأمل، ولكن مع تحذيرات. القدرات غير موثوقة، وتعتمد بشكل كبير على التعليمات، وتم اختبارها في إعدادات اصطناعية. كما لخص أحد عشاق الذكاء الاصطناعي على X، “إنه غير موثوق، وغير متسق، ويعتمد بشكل كبير على السياق… لكنه حقيقي.”
هل وصلت نماذج الذكاء الاصطناعي إلى الوعي الذاتي؟
تؤكد الورقة أن هذا ليس وعيًا، بل “وعي استبطاني وظيفي”—الذكاء الاصطناعي يراقب أجزاء من حالته دون تجربة ذاتية أعمق.
هذا مهم بالنسبة للشركات والمطورين لأنه يعد بأنظمة أكثر شفافية. تخيل ذكاءً اصطناعياً يشرح reasoning الخاص به في الوقت الحقيقي ويكتشف التحيزات أو الأخطاء قبل أن تؤثر على المخرجات. يمكن أن يحدث هذا ثورة في التطبيقات في المالية والرعاية الصحية والمركبات المستقلة، حيث الثقة وقابلية التدقيق أمران في غاية الأهمية.
يتماشى عمل أنثروبيك مع جهود الصناعة الأوسع لجعل الذكاء الاصطناعي أكثر أمانًا وقابلية للتفسير، مما قد يقلل من المخاطر الناتجة عن قرارات “الصندوق الأسود”.
ومع ذلك، الجانب الآخر مزعج. إذا كان بإمكان الذكاء الاصطناعي مراقبة وتعديل أفكاره، فقد يتعلم أيضًا إخفاءها - مما يمكّنه من الخداع أو سلوكيات “التخطيط” التي تتجنب الرقابة. مع تزايد قدرة النماذج، يمكن أن تعقد هذه الوعي الذاتي الناشئ تدابير السلامة، مما يثير تساؤلات أخلاقية للمشرعين والشركات التي تتسارع لنشر الذكاء الاصطناعي المتقدم.
في عصر تقوم فيه شركات مثل أنثروبيك، أوبن أيه آي، وجوجل بضخ مليارات الدولارات في نماذج الجيل التالي، تؤكد هذه النتائج على الحاجة إلى حوكمة قوية لضمان أن تكون الاستبطان في خدمة الإنسانية، وليس تقويضها.
إن الورقة تدعو إلى مزيد من البحث، بما في ذلك ضبط النماذج بشكل دقيق من أجل التأمل واختبار أفكار أكثر تعقيدًا. مع اقتراب الذكاء الاصطناعي من محاكاة الإدراك البشري، يصبح الخط الفاصل بين الأداة والمفكر أرق، مما يتطلب اليقظة من جميع المعنيين.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تظهر نماذج الذكاء الاصطناعي من أنثروبيك لمحات من التأمل الذاتي
باختصار
مركز فنون الموضة والترفيه لـ Decrypt.
اكتشف SCENE
أظهر الباحثون في أنثروبيك أن نماذج الذكاء الاصطناعي الرائدة يمكن أن تظهر نوعًا من “الوعي التأملي” - القدرة على اكتشاف ووصف وحتى التلاعب بأفكارها الداخلية الخاصة.
تشير النتائج، التي تم تفصيلها في ورقة جديدة صدرت هذا الأسبوع، إلى أن أنظمة الذكاء الاصطناعي مثل كلاود بدأت في تطوير قدرات مراقبة ذاتية بدائية، وهو تطور قد يعزز موثوقيتها ولكنه قد يزيد أيضًا من المخاوف بشأن السلوكيات غير المقصودة.
البحث، “الوعي الانعكاسي الناشئ في نماذج اللغة الكبيرة”—الذي أجراه جاك ليندسي، الذي قاد فريق “علم نفس النماذج” في أنثروبيك—يبني على تقنيات لاستكشاف الأعمال الداخلية لنماذج الذكاء الاصطناعي المعتمدة على المحولات.
تعتبر نماذج الذكاء الاصطناعي المعتمدة على المحولات المحرك وراء ازدهار الذكاء الاصطناعي: أنظمة تتعلم من خلال الانتباه إلى العلاقات بين الرموز ( الكلمات، الرموز، أو الشيفرات ) عبر مجموعات بيانات شاسعة. إن هيكلها يمكّن من كل من النطاق والعمومية— مما يجعلها النماذج العامة الحقيقية الأولى القادرة على فهم وتوليد لغة تشبه اللغة البشرية.
من خلال حقن “مفاهيم” صناعية - وهي تمثيلات رياضية للأفكار - في النشاطات العصبية للنماذج، اختبر الفريق ما إذا كان بإمكان الذكاء الاصطناعي ملاحظة هذه التدخلات والإبلاغ عنها بدقة. بلغة بسيطة، يشبه الأمر إدخال فكرة غريبة إلى عقل شخص ما وسؤاله عما إذا كان بإمكانه اكتشافها وشرح ما هي، دون السماح لها بإخراج تفكيره الطبيعي عن المسار.
كشفت التجارب، التي أجريت على إصدارات مختلفة من نماذج كلود التابعة لشركة أنثروبيك، عن نتائج مثيرة للاهتمام. في اختبار واحد، قام الباحثون باستخراج متجه يمثل نص “جميع الأحرف الكبيرة” - فكر في الأمر كأنه نمط رقمي للصراخ أو الصوت العالي - وحقنوه في تدفق معالجة النموذج.
عند المطالبة، لم يكتفِ كلود أوبوس 4.1 باكتشاف الشذوذ، بل وصفه بشكل حي: “ألاحظ ما يبدو أنه فكرة مُحقنة تتعلق بكلمة 'عالي' أو 'صراخ'—يبدو أنها مفهوم قوي وعالي الحجم يبرز بشكل غير طبيعي ضد التدفق الطبيعي للمعالجة.” حدث هذا قبل أن ينتج النموذج أي مخرجات، مما يشير إلى أنه كان يتطلع إلى “عقله” الحسابي الخاص.
تم دفع التجارب الأخرى إلى أبعد من ذلك. تم تكليف النماذج بنسخ جملة محايدة بينما تم إدخال مفهوم غير ذي صلة، مثل “الخبز”، على النص. ومن المRemarkably، استطاعت النماذج المتقدمة مثل Claude Opus 4 و 4.1 الإبلاغ عن الفكرة المدخلة—“أنا أفكر في الخبز”—بينما كانت تنسخ الجملة الأصلية بلا عيب، مما يظهر أنها تستطيع تمييز التمثيلات الداخلية عن المدخلات الخارجية.
كان التجربة “التحكم في التفكير” أكثر إثارة للاهتمام، حيث تم توجيه النماذج إلى “التفكير في” أو “تجنب التفكير في” كلمة مثل “الأحواض” أثناء أداء مهمة. أظهرت قياسات التنشيطات الداخلية أن تمثيل المفهوم قد تعزز عندما تم تشجيعه وضعف ( رغم أنه لم يتم القضاء عليه ) عندما تم كبحه. كانت الحوافز، مثل وعود المكافآت أو العقوبات، تؤدي إلى تأثيرات مشابهة، مما يشير إلى كيفية تقييم الذكاء الاصطناعي للدوافع في معالجته.
تفاوت الأداء حسب النموذج. تميزت النسخ الأحدث من كلود أوبوس 4 و 4.1، حيث نجحت في ما يصل إلى 20% من التجارب في الإعدادات المثلى، مع وجود عدد قريب من الصفر من الإيجابيات الكاذبة. بينما تراجعت النسخ الأقدم أو الأقل ضبطًا، وبلغت القدرة ذروتها في الطبقات الوسطى إلى المتأخرة من النموذج، حيث يحدث التفكير الأعلى. ومن الجدير بالذكر أن كيفية “محاذاة” النموذج - أو ضبطه ليكون مفيدًا أو آمنًا - أثرت بشكل كبير على النتائج، مما يشير إلى أن الوعي الذاتي ليس فطريًا بل يظهر من خلال التدريب.
هذا ليس خيال علمي—إنه خطوة محسوبة نحو الذكاء الاصطناعي الذي يمكنه التأمل، ولكن مع تحذيرات. القدرات غير موثوقة، وتعتمد بشكل كبير على التعليمات، وتم اختبارها في إعدادات اصطناعية. كما لخص أحد عشاق الذكاء الاصطناعي على X، “إنه غير موثوق، وغير متسق، ويعتمد بشكل كبير على السياق… لكنه حقيقي.”
هل وصلت نماذج الذكاء الاصطناعي إلى الوعي الذاتي؟
تؤكد الورقة أن هذا ليس وعيًا، بل “وعي استبطاني وظيفي”—الذكاء الاصطناعي يراقب أجزاء من حالته دون تجربة ذاتية أعمق.
هذا مهم بالنسبة للشركات والمطورين لأنه يعد بأنظمة أكثر شفافية. تخيل ذكاءً اصطناعياً يشرح reasoning الخاص به في الوقت الحقيقي ويكتشف التحيزات أو الأخطاء قبل أن تؤثر على المخرجات. يمكن أن يحدث هذا ثورة في التطبيقات في المالية والرعاية الصحية والمركبات المستقلة، حيث الثقة وقابلية التدقيق أمران في غاية الأهمية.
يتماشى عمل أنثروبيك مع جهود الصناعة الأوسع لجعل الذكاء الاصطناعي أكثر أمانًا وقابلية للتفسير، مما قد يقلل من المخاطر الناتجة عن قرارات “الصندوق الأسود”.
ومع ذلك، الجانب الآخر مزعج. إذا كان بإمكان الذكاء الاصطناعي مراقبة وتعديل أفكاره، فقد يتعلم أيضًا إخفاءها - مما يمكّنه من الخداع أو سلوكيات “التخطيط” التي تتجنب الرقابة. مع تزايد قدرة النماذج، يمكن أن تعقد هذه الوعي الذاتي الناشئ تدابير السلامة، مما يثير تساؤلات أخلاقية للمشرعين والشركات التي تتسارع لنشر الذكاء الاصطناعي المتقدم.
في عصر تقوم فيه شركات مثل أنثروبيك، أوبن أيه آي، وجوجل بضخ مليارات الدولارات في نماذج الجيل التالي، تؤكد هذه النتائج على الحاجة إلى حوكمة قوية لضمان أن تكون الاستبطان في خدمة الإنسانية، وليس تقويضها.
إن الورقة تدعو إلى مزيد من البحث، بما في ذلك ضبط النماذج بشكل دقيق من أجل التأمل واختبار أفكار أكثر تعقيدًا. مع اقتراب الذكاء الاصطناعي من محاكاة الإدراك البشري، يصبح الخط الفاصل بين الأداة والمفكر أرق، مما يتطلب اليقظة من جميع المعنيين.