جينيسيس 2 توسع مجموعة بيانات التعليم الاصطناعي الاصطناعي لـ QVAC إلى 148 مليار رمز

قسم أبحاث الذكاء الاصطناعي في بيانات تيثر، QVAC، يكشف عن أحدث إصدار من مجموعة البيانات الاصطناعية مفتوحة المصدر، مما يمثل تقدمًا كبيرًا في قدرات التدريب المسبق لنماذج الذكاء الاصطناعي. يتضمن الإصدار الجديد 107 مليار رمز إضافي، ليصل إجمالي مجموعة البيانات إلى 148 مليار رمز تغطي 19 مجالًا تعليميًا، مما يجعله أكبر مجموعة بيانات اصطناعية متاحة علنًا لتطوير الذكاء الاصطناعي في العالم.

اختراق في قدرات التقسيم الاصطناعي والاستدلال

تقدم مجموعة بيانات Genesis II تحولًا جوهريًا في كيفية هيكلة البيانات الاصطناعية لمعلومات التدريب. بدلاً من تراكم الرموز البسيط، نفذت QVAC نهج “التقسيم الاصطناعي” الذي يقسم المحتوى التعليمي إلى مجالات متخصصة، كل منها محسّن لأهداف تعلم محددة. تتيح هذه المنهجية تحكمًا أكثر دقة في معلمات تدريب النموذج.

الميزة المميزة لهذا الإصدار هي إدخال “الاستدلال على مستوى الخيارات”، وهو نهج تدريبي جديد يوجه نماذج الذكاء الاصطناعي من خلال أطر حل المشكلات متعددة الاختيارات. على عكس الأجيال السابقة التي ركزت على التعرف على الأنماط، يعلم هذا الأسلوب النماذج بشكل صريح الخطوات الوسيطة للاستدلال اللازمة للتوصل إلى الاستنتاجات. تظهر التقييمات المستقلة أن النماذج المدربة على بيانات Genesis II تظهر دقة استدلال متفوقة وتنتج استجابات أكثر تماسكًا وتنظيمًا مقارنةً بالمجموعات البيانات الاصطناعية السابقة.

توسيع نطاق المجالات والوصول

يمتد Genesis II إلى مجالات كانت ممثلة بشكل أقل سابقًا، بما في ذلك علوم الحاسوب، والإحصاء، وتعلم الآلة—وهي مجالات حاسمة لتطوير أنظمة ذكاء اصطناعي قادرة على حل المشكلات التحليلية المعقدة. يبني هذا التوسع على الأساس الذي وضعه Genesis I، الذي كان رائدًا في منهجيات تحليل الفشل لتحديد وتصحيح نقاط الضعف في استدلال النماذج.

تم إصدار مجموعة البيانات بالكامل بموجب ترخيص Creative Commons واستضافتها على مدونة QVAC الرسمية وHugging Face، مما ي democratizes الوصول إلى بيانات تدريب عالية الجودة للمؤسسات. يزيل هذا النموذج المفتوح للحصص الحواجز أمام الباحثين والمطورين الذين يعملون على نماذج ذكاء اصطناعي محلية، ويقلل الاعتماد على منصات تطوير الذكاء الاصطناعي المملوكة والمركزية.

الرؤية الاستراتيجية وتأثير الصناعة

وصف باولو أردوينو، الرئيس التنفيذي لشركة تيثر، هذه المبادرة بأنها خطوة محورية في دفع تطوير الذكاء الاصطناعي إلى ما بعد الطلاقة اللغوية إلى فهم منظم ومتين. من خلال توفير وصول مجاني إلى بيانات تدريب اصطناعية عالية الجودة، تمكن QVAC مجتمع البحث في الذكاء الاصطناعي الأوسع من تطوير نماذج أكثر موثوقية وشفافية خارج الأنظمة البيئية التقليدية للشركات.

تؤكد هذه الإصدارات على اعتراف متزايد بأن البيانات عالية الجودة للتدريب المسبق—خصوصًا المجموعات البيانات الاصطناعية المحسنة للقيمة التعليمية—تمثل ميزة تنافسية حاسمة في تطوير النماذج. مع تزايد اعتماد أنظمة الذكاء الاصطناعي في الأعمال والبحوث، تساهم مبادرات مثل Genesis II بشكل كبير في ديمقراطية قدرات تدريب النماذج المتقدمة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت