يقوم فريق Arcee الأمريكي بإصدار نموذج الاستدلال مفتوح المصدر Trinity-Large-Thinking، والذي يدّعي أنه يقترب من Opus 4.6، وبكلفة أقل بنسبة 96%

動區BlockTempo

أصدرت شركة الذكاء الاصطناعي الناشئة Arcee في الولايات المتحدة نموذج الاستدلال مفتوح المصدر Trinity-Large-Thinking، وحققت 91.9 نقطة في معيار قدرات الوكلاء PinchBench، ولا تتفوق عليها إلا Opus 4.6 التي سجلت 93.3. كما أنها في معيار مهمة Tau2-Airline Agent حققت 88.0 وتتصدر جميع نماذج المقارنة. يستخدم النموذج بنية Sparse Mixture of Experts (خبراء مختلطون متناثرون) بإجمالي 400B، وتسعير API هو 0.90 دولار للإخراج لكل مليون token، وهو أرخص بحوالي 96% من Opus 4.6. ويمكن تنزيل الأوزان بشكل مفتوح بموجب ترخيص Apache 2.0. إعداد وتقرير: Dongqu Dongqu.
(ملخص سابق: تحليل OpenRouter لبحث 100 تريليون Token: ماذا يفعل البشر بالضبط بالذكاء الاصطناعي، وصعود النماذج الصينية وسر بقاء المستخدمين)
(إضافة خلفية: وصل Claude Opus 4.6: يكتب لك مترجمًا، ويُعد PPT، ويستخرج عن طريق الصدفة 500 ثغرة يوم-صفر، وكل ما عليك فعله—يريد أن يجربه في عملك أيضًا)。

تأسست Arcee، وهي شركة ناشئة في مجال الذكاء الاصطناعي في الولايات المتحدة ويقل عدد موظفيها عن مئة، وقدمت في تقييم قدرات الوكلاء درجات شديدة القرب من نموذج الأنثروبيك الرائد، ولكن بسعر لا يتجاوز 4% من سعره.

لم تكن هذه الشركة ضمن دائرة الاهتمام الرئيسية في الماضي، لكن إصدارها الأحدث Trinity-Large-Thinking تمكن بالفعل من التزاحم إلى الصفوف الأمامية في عدة معايير لسيناريوهات الوكلاء.

يُعد معيار PinchBench الذي طوّرته Kilo حاليًا مؤشرًا مهمًا في الصناعة لقياس القدرات العملية للنماذج داخل سير عمل الوكلاء. حصل Trinity-Large-Thinking في هذا الاختبار على 91.9، بينما يعد Opus 4.6 حاليًا هو المتصدر مسجلًا 93.3، والفارق لا يتجاوز 1.4%.

وفي معيار Tau2-Airline الذي يحاكي سيناريو خدمة عملاء واقعي، حقق أيضًا 88.0، وهو أعلى من جميع النماذج المشاركة في المقارنة. وهذا يعني أنه في مهام الوكيل الفعلية التي تتطلب محادثات متعددة جولات والرجوع المتكرر إلى الأدوات، فإن هذا النموذج مفتوح المصدر يمتلك بالفعل مستوىً مرتفعًا.

أما تسعير واجهة Arcee API فهو 0.90 دولار لكل مليون token للإخراج، وتذكر الشركة رسميًا أنه أرخص بحوالي 96% من Opus 4.6. بالنسبة لسيناريوهات التطبيقات التي تحتاج إلى تشغيل الوكيل تلقائيًا لفترات طويلة وباستمرار استهلاك token، قد يكون فارق التكلفة أكثر أهمية من فارق درجات النموذج.

400B إجمالي عدد المعلمات، و13B فقط تُستهلك في كل مرة استدلال

وفقًا لمدونة Arcee AI الرسمية، فإن المفتاح لتحقيق قيمة مقابل السعر هذه هو اختيار البنية. يستخدم Trinity-Large-Thinking تصميم Sparse MoE (Mixture of Experts)، ويحتوي داخله على 256 وحدة خبراء، لكن عند معالجة كل token يتم تشغيل 4 خبراء فقط من بين هذه الوحدات. وبالمقارنة، فإن عبء الحوسبة المطلوب في الاستدلال العملي للنموذج الضخم 400B يقتصر على ما يعادل 13B فقط، وتبلغ كفاءة التنفيذ حوالي 2-3 مرات مقارنةً بنماذج كثيفة من نفس الفئة.

وبالمقارنة مع النسخة السابقة Preview التي صدرت في أواخر يناير من هذا العام، فإن أكبر ترقية هي إضافة سلسلة تفكير للاستدلال.

كان Preview يقتصر على ضبط التعليمات (instruction fine-tuning)، بينما نسخة Thinking ستقوم قبل تقديم الإجابة بـ"التفكير أولًا"، وقد تحسن بشكل واضح في الثبات عند استدعاء الأدوات عبر جولات متعددة، وكذلك في ترابط السياق الطويل. قال Arcee بشكل مباشر: صُمم هذا النموذج لكي لا ينهار أثناء دورات الوكلاء الطويلة.

استخدم النموذج الأساسي 20 مليون دولار للتدريب، واكتمل التدريب خلال 33 يومًا. أما مرحلة التدريب اللاحق لنسخة Thinking فقد استغرقت 9 أشهر في عملية الصقل.

كتب الرئيس التنفيذي لشركة Arcee، Lucas Atkins، في نص الإطلاق: «Getting here took difficult technical work, hard calls…Nobody did that. They kept pushing.»

الاستدلال العام ليس ساحة لعبه

بالطبع، التخصص في الوكلاء يعني وجود مفاضلات. ففي معيار الاستدلال العام، لم تكن نتائج Trinity-Large-Thinking بنفس السطوع. سجل GPQA-D 76.3، بينما سجل Kimi K2.5 86.9 وOpus 4.6 89.2، والفارق يصل إلى 10 و13 نقطة مئوية على التوالي؛ كما أن MMLU-Pro البالغ 83.4 أيضًا كان في ذيل نماذج المقارنة.

لكن يبدو أن Arcee لا يعتزم خوض هذا الاتجاه بقوة. وفقًا للبيان الرسمي: «Trinity-Large-Thinking هو أقوى نموذج مفتوح المصدر من الصين خارجها في العديد من الأبعاد»، وقد أوضحوا أن خصومهم ليسوا Opus أو GPT، بل معسكر النماذج الصينية المفتوحة مثل DeepSeek وKimi.

وقد تم طرح Trinity-Large-Thinking أيضًا على OpenRouter، ويمكن استخدامه مجانًا في OpenClaw خلال الأيام الخمسة الأولى. وستظل النسخة السابقة Preview متاحة مجانًا أيضًا.

وبالحديث عن الإصدار السابق Preview، فمنذ إطلاقه في أواخر يناير، تراكم على منصة OpenRouter أكثر من 3.37 تريليون token. ووفقًا لإحصاءات OpenClaw، فهو النموذج مفتوح المصدر رقم 1 من حيث الاستخدام في الولايات المتحدة، ورقم 4 عالميًا. وبالنسبة لشركة ناشئة صغيرة الحجم، فإن معدل التبنّي هذا يثبت أن كونه رخيصًا وسهل الاستخدام أمر صحيح، وأن هناك طلبًا حقيقيًا في السوق.

تتوفر أوزان النموذج على Hugging Face بموجب ترخيص Apache 2.0، ويمكن لأي شخص تنزيلها وتعديلها ونشرها للاستخدام التجاري.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات