جروك 4.1 الجديد: خفض الوهم بالذكاء الاصطناعي بنسبة 3 مرات، فهم المشاعر وترقية الكتابة الإبداعية بشكل كامل

ChainNewsAbmedia

2025-11-18 13:24:04

أعلنت xAI في 17/11 أن النموذج الأحدث Grok 4.1 أصبح متاحًا رسميًا لجميع المستخدمين، بما في ذلك grok.com، تويتر (X) وتطبيقات iOS وAndroid. وذكرت xAI أن هذا التحديث يركز على “قابلية الاستخدام في العالم الحقيقي”، بما في ذلك فهم مشاعر أقوى، تعبير عن الشخصية بشكل أكثر طبيعية، إبداع أعلى ومعدل هلاوس أقل، مع الاحتفاظ بقدرات الاستدلال والثبات من Grok 4 السابق.

معدل نجاح الاختبار السري قريب من 65%، تم تأكيد إطلاق Grok 4.1 بشكل كامل

xAI ستجري اختبارًا سريًا لمدة أسبوعين من 11/1 إلى 11/14، حيث سيتم إدخال النسخة التجريبية Grok 4.1 بنسب صغيرة إلى حركة المرور الحقيقية على Grok.com وX وتطبيق الهاتف المحمول، من خلال “اختبار أعمى” لمقارنة مباشرة مع النسخة السابقة من النموذج Grok 4.

xAI تشير إلى أن مؤشر التفضيل لـ Grok 4.1 في اختبار العمى على حركة المرور الحقيقية هو 64.78%، متفوقًا بوضوح على Grok 4، وأعلنت أنه سيكون متاحًا رسميًا لجميع المستخدمين في 11/17. كما تشير إلى أنه بدءًا من الآن، يمكن لجميع المستخدمين استخدام Grok 4.1. بمجرد أن يقوم المستخدم بتفعيل وضع Auto، سيستخدم Grok 4.1 تلقائيًا، ويمكن للمستخدم أيضًا اختياره بنفسه من قائمة النماذج.

Grok 4.1 ثلاث ميزات تقنية رئيسية في لمحة واحدة

Grok 4.1 النقاط التقنية الرئيسية 1: هيكل تعلم معزز جديد، مما يجعل الردود أكثر طبيعية وفهمًا للبشر

ترقية جوهرية لـ Grok 4.1 تأتي من استخدام “البنية التحتية للتعلم المعزز على نطاق واسع” نفسها المستخدمة في Grok 4، ولكن هذه المرة تم إدخال طرق جديدة تسمح للنموذج بتحسين ردوده تلقائيًا على نطاق أوسع. وتركز هذه التدريب بشكل أساسي على جودة الردود غير القابلة للتحقق، مثل النبرة، اتساق الشخصية، التفاعل العاطفي، وفهم النوايا، وهذه كلها لا يمكن تقييمها مباشرة اعتمادًا على البيانات فقط.

لحل هذه المشكلة، استخدمت xAI “نموذج الاستدلال المتقدم” كنموذج مكافأة (Reward Model)، مما يسمح لهذه الذكاءات الاصطناعية ذات القدرة على الاستدلال العميق بتقييم ردود Grok 4.1 تلقائيًا، وتعلم ما هو أفضل وأكثر توافقًا مع توقعات البشر من خلال المقارنات العديدة، وإجراء التعديلات. لذلك، تم تحسين Grok 4.1 بشكل ملحوظ في النبرة، والشخصية، والعاطفة، وطبيعة التفاعل، مع الحفاظ في الوقت نفسه على قدراته الاستدلالية واستقراره الأصلي.

Grok 4.1 النقاط التقنية البارزة 2: اختبارات التجربة العمياء تتصدر بشكل كامل، وفهم المشاعر والإبداع قد تم ترقيته بشكل كبير

أعلنت xAI أيضًا عن نتائج اختبار متعددة، تظهر أن Grok 4.1 قد حقق تحسينًا واضحًا في العديد من اختبارات القدرات.

في منصة LMArena العالمية لاختبار المعارك العمياء:

Grok 4.1 تفكير برتبة 1483 إيلو في المرتبة الأولى عالمياً.

Grok 4.1 Non-Thinking يحتل المرتبة الثانية برصيد 1465 Elo، متجاوزًا حتى “نموذج الاستدلال الكامل” الخاص بالنماذج الأخرى.

اختبار فهم المشاعر (EQ-Bench 3): تم استخدام 45 سيناريو صعب و 3 جولات تفاعلية، تم تقييمها بواسطة Claude Sonnet 3.7. Grok 4.1 أظهر تحسنًا ملحوظًا في التعاطف، وفهم المشاعر، وفهم العلاقات بين الأشخاص.

قدرة الكتابة الإبداعية (Creative Writing v3): في اختبار الكتابة المكون من 32 سؤالًا × 3 جولات، حصل Grok 4.1 على درجات أعلى في أسلوب الإبداع، جودة السرد، وسلاسة القصة، وقد عرضت الجهات الرسمية العديد من نماذج الردود.

بشكل عام، لا يقتصر Grok 4.1 على تحسين القدرة على الاستدلال، بل شهد أيضًا ترقية ملحوظة في “التفاعل العاطفي” و"قدرة الإبداع".

من الصورة يمكن أن نرى أن Grok 4.1 تحتل المراكز الثلاثة الأولى في تصنيفات نماذج الاستدلال وفهم المشاعر وكتابة الإبداع.

(ملاحظة: Elo، يعني القوة التنافسية لـ Grok 4.1 على منصة LMArena العالمية للاختبار الأعمى، ويستخدم نظام تصنيف Elo المستخدم في الشطرنج لتقييم جودة استجابات النموذج. )

Grok 4.1 أبرز النقاط الفنية 3: انخفاض وهم الذكاء الاصطناعي بمعدل 3 مرات، مصادر المعلومات أكثر موثوقية

بالنسبة للأسئلة الشائعة المتعلقة بالاستفسارات، أكدت xAI بشكل خاص أن معدل الوهم في Grok 4.1 قد انخفض بشكل ملحوظ. في السابق، كان وضع Gork السريع (Non-Reasoning) عرضة للأوهام بسبب عمق الاستدلال غير الكافي، لكن خلال التدريب اللاحق في 4.1، عملت xAI بشكل واضح على تحسين هذه المشكلة. تشمل طرق التحقق من xAI ما يلي:

أخذ عينات من الأسئلة التي يطرحها المستخدمون في حالات حقيقية، والتي تظهر فعليًا على المنصة.

مقارنة الاختلافات بين إجابات Grok 4.1 والنماذج القديمة.

تقييم الأداء على FActScore.

أظهرت النتائج أن النسخة الجديدة قد انخفضت فيها بشكل ملحوظ نسبة الهلوسة عند استعلام الحقائق والرد على الأسئلة المعلوماتية، وأصبحت الإجابات أكثر استقرارًا وموثوقية. مما يجعل Grok 4.1 أكثر عملية ودقة في سيناريوهات “الإجابة السريعة” و"البحث عن المعلومات" مقارنة بالنسخ السابقة.

من الصورة يمكننا أن نرى أن معدل الوهم في Grok 4.1 قد انخفض من 12.09% إلى 4.22%، بانخفاض يقارب ثلاثة أضعاف. كما انخفضت نتيجة التحقق من الحقائق (FActScore) من 9.89% إلى 2.97%، مما يدل على تحسين كبير في دقة Grok 4.1.

( ملاحظة: FActScore هو اختبار علني مكون من 500 سؤال حول السير الذاتية لشخصيات حقيقية، يستخدم لاختبار أداء النموذج في البحث عن الحقائق، وتقييم الدقة، وتناسق الإجابات، ويمكن اعتباره تقييم الحقائق.

) أفضل خمسة نماذج لغة AI الرئيسية 2025 LLM( تحليل شامل، الدفع، التطبيقات والأمان في نظرة واحدة (

تظهر هذه المقالة Grok 4.1 الجديدة: خفضت أوهام الذكاء الاصطناعي بنسبة 3 مرات، وقد تم تحديث فهم المشاعر والكتابة الإبداعية بشكل شامل. ظهرت لأول مرة في أخبار السلسلة ABMedia.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.