الكأس المقدس للذكاء الاصطناعي في التشفير: استكشاف الحدود للتدريب اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النموذج المرحلة الأكثر استهلاكًا للموارد والأعلى في متطلبات التقنية، مما يحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية تطبيقه. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الشدة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج الهيكل، يمكن تقسيم أساليب التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي نناقشه في هذه المقالة.
يعد التدريب المركزي هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب بواسطة مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب، يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تجعل هذه البنية التحتية المتكاملة كفاءة مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل في أفضل حالاتها، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، مع مزايا الكفاءة العالية، والموارد القابلة للتحكم، لكنها في الوقت نفسه تواجه مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقطة الواحدة.
التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة أجهزة لتنفيذها بشكل متعاون، بهدف تجاوز قيود حساب وتخزين الأجهزة الفردية. على الرغم من أن لديها خصائص "موزعة" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والمزامنة، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية ناقل الاتصال السريع NVLink، حيث يقوم العقدة الرئيسية بتنسيق كل المهام الفرعية بشكل موحد. تشمل الأساليب السائدة:
البيانات المتوازية: كل عقدة تدرب معلمات بيانات مختلفة مع مشاركة المعلمات، تحتاج إلى مطابقة أوزان النموذج
التوازي في النموذج: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية التوسع العالية
أنابيب متوازية: تنفيذ تسلسلي مرحلي، زيادة معدل الإنتاج
التوازي باستخدام المصفوفات: تقسيم دقيق لحساب المصفوفات، مما يعزز حجم التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، يشبه توجيه نفس المدير عن بُعد لموظفي "المكاتب" المتعددة للتعاون في إنجاز المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرائجة (GPT-4، Gemini، LLaMA، وغيرها ) بهذه الطريقة.
تمثل التدريب اللامركزي مسارًا مستقبليًا أكثر انفتاحًا وخصائص مقاومة للرقابة. تتمثل الخصائص الأساسية في: يمكن أن تكون هناك نقاط متعددة غير موثوقة ( مثل أجهزة الكمبيوتر المنزلية أو GPU السحابية أو أجهزة الحافة ) التي تتعاون لإكمال مهام التدريب دون منسق مركزي، عادةً من خلال البروتوكولات التي تدفع توزيع المهام والتعاون، مع الاعتماد على آلية تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
صعوبة التوافق بين الأجهزة المتنوعة وتقسيم المهام: صعوبة التنسيق بين الأجهزة المتنوعة وانخفاض كفاءة تقسيم المهام
عائق كفاءة الاتصال: عدم استقرار الاتصال الشبكي، عائق تزامن التدرج واضح
عدم وجود تنفيذ موثوق: نقص في بيئة تنفيذ موثوقة، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك فعلاً في الحساب.
نقص التنسيق الموحد: لا يوجد جهاز تحكم مركزي، توزيع المهام، آلية التراجع عن الأخطاء معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهم كل منهم بقوة الحوسبة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا منهجيًا، ويتعلق بهندسة النظام، وبروتوكولات الاتصال، وأمان التشفير، وآليات الاقتصاد، والتحقق من النموذج، وغيرها من المستويات، ولكن ما إذا كان يمكن "التعاون بفاعلية + تحفيز الأمانة + صحة النتائج" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.
التعلم الفيدرالي كشكل انتقالي بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، ويناسب السيناريوهات التي تركز على الامتثال للخصوصية ( مثل الرعاية الصحية والمالية ). يتمتع التعلم الفيدرالي ببنية هندسية للتدريب الموزع وقدرة التعاون المحلي، بينما يحمل أيضًا مزايا البيانات الموزعة للتدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سيناريوهات الامتثال للخصوصية، حيث يكون في مهام التدريب، وبنية الثقة وآلية الاتصال أكثر اعتدالًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والواقع المسار
من منظور نمط التدريب، فإن التدريب اللامركزي غير مناسب لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو الحاجة الكبيرة إلى الموارد، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإنجاز العمل بكفاءة بين العقد المتنوعة واللامركزية. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة عالية، وزمن وصول منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بفعالية في شبكة مفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة القوية مثل الرعاية الصحية، والمالية، والبيانات الحساسة ( مقيدة بالامتثال القانوني والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما تفتقر المهام التي لا تحتوي على حوافز تعاون أساسية مثل نماذج الشركات المغلقة أو تدريب النماذج الأولية الداخلية ) إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فرضية زائفة. في الواقع، يظهر التدريب اللامركزي آفاق تطبيقية واضحة في أنواع المهام الهيكلية الخفيفة، السهلة التوازي، والمحفزة. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام التدريب بعد التوافق السلوكي مثل RLHF، DPO(، تدريب وتصنيف البيانات من خلال الحشد، تدريب نماذج أساسية صغيرة يمكن التحكم في مواردها، بالإضافة إلى سيناريوهات التدريب التعاوني التي تشمل الأجهزة الطرفية. هذه المهام تتمتع عمومًا بخصائص عالية من التوازي، وانخفاض الترابط، وتحمل قدرات الحوسبة المتنوعة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات النظيرة، بروتوكولات Swarm، والمُحسِّنات الموزعة.
في الوقت الحالي، تشمل المشاريع الرئيسية في مجال التدريب اللامركزي والتعلم الفيدرالي، مشاريع البلوكشين الممثلة مثل Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، وتمثل الاتجاهات الحالية للبحث النظري. بينما مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبيًا، ويمكن رؤية تقدم هندسي أولي. ستحلل هذه المقالة التقنيات الأساسية والهندسة المعمارية وراء هذه المشاريع الخمسة بالتتابع، وتناقش الفروقات والعلاقات التكاملية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
) Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسارات التدريب
تعمل Prime Intellect على بناء شبكة تدريب AI غير معتمدة على الثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات: PRIME-RL + TOPLOC + SHARDCAST، في إنشاء نظام تدريب AI اللامركزي الذي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
(# 01، هيكل بروتوكول Prime Intellect وقيمة المكونات الرئيسية
![كأس المقدس للذكاء الاصطناعي: استكشاف الحدود للتدريب اللامركزي])https://img-cdn.gateio.im/webp-social/moments-69eb6c2dab3d6284b890285c71e7a47f.webp###
02، شرح آلية التدريب الأساسية ل Prime Intellect
#PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المتفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية الذي طورته Prime Intellect، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولي، ويفصل هيكليًا بين عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام محليًا بشكل مستقل، والتعاون من خلال واجهات قياسية وآليات التحقق والتجميع. مقارنة بعمليات التعلم الخاضعة للإشراف التقليدية، يعد PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام ويضع الأساس لدعم المهام المتعددة بالتوازي وتطور السياسات.
#TOPLOC: آلية التحقق من سلوك التدريب الخفيف الوزن
TOPLOC###المراقبة الموثوقة & فحص المحلية( هو آلية جوهرية للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعليًا تعلم الاستراتيجية بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يُكمل التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية بين "سلسلة المراقبة↔تحديث الاستراتيجية". إنه يحول لأول مرة مسارات السلوك أثناء عملية التدريب إلى كائنات قابلة للتحقق، وهو ابتكار رئيسي لتحقيق توزيع مكافآت التدريب دون الحاجة إلى الثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
![كأس سانت كريبتو AI: استكشاف الجبهة الأمامية للتدريب اللامركزي])https://img-cdn.gateio.im/webp-social/moments-0a322ea8b70c3d00d8d99606559c1864.webp(
#SHARDCAST: بروتوكول تجميع وتوزيع الوزن غير المتزامن
SHARDCAST هو بروتوكول لنشر الوزن وتجمعه صممه Prime Intellect، تم تحسينه خصيصًا للبيئات الشبكية الحقيقية التي تتسم باللامركزية، وقيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجية التزام محلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية بشكل مستمر في حالة عدم التزام، مما يحقق تقاربًا تدريجيًا للوزن وتطورات متعددة النسخ. بالمقارنة مع الطرق المركزية أو المتزامنة مثل AllReduce، يُعزز SHARDCAST بشكل ملحوظ من قابلية التوسع وقدرة التحمل في التدريب اللامركزي، وهو الأساس المركزي لبناء توافق الوزن المستقر والتدريب المستمر.
![كأس المقدس للذكاء الاصطناعي: استكشاف الجبهة الأمامية للتدريب اللامركزي])https://img-cdn.gateio.im/webp-social/moments-f86b109da66a0a4c9239221650a4a0a8.webp(
#OpenDiLoCo: إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار تحسين الاتصالات تم تنفيذه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect استنادًا إلى مفهوم DiLoCo الذي قدمته DeepMind، وهو مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، والتنوع في الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية رفيعة مثل Ring و Expander و Small-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج بشكل مشترك. وبال结合 التحديثات غير المتزامنة وآلية التحمل ضد الأخطاء، يتيح OpenDiLoCo لمعدات GPU الاستهلاكية والأجهزة الطرفية المشاركة بثبات في مهام التدريب، مما يعزز بشكل ملحوظ إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصالات في بناء شبكة تدريب لامركزية.
#PCCL: مكتبة الاتصالات التعاونية
PCCL)Prime Collective Communication Library( هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل اختناقات التكيف في المكتبات التقليدية للاتصالات) مثل NCCL وGloo( على الأجهزة غير المتجانسة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL الهيكليات المتناثرة، وضغط التدرجات، والمزامنة منخفضة الدقة، واستعادة النقاط المقطوعة، ويمكن تشغيلها على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهي مكون أساسي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عززت بشكل كبير من قدرة تحمل عرض النطاق الترددي لشبكات التدريب وتوافق الأجهزة، مما يفتح "آخر ميل" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية حقيقية مفتوحة وغير موثوقة.
)# 03، شبكة Prime Intellect للتحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريب قابلة للتحقق، بدون إذن، مزودة بآلية حوافز اقتصادية، مما يتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
عقدة التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب، والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان ( SHARDCAST ) وتوزيع المكافآت، لتشكل دائرة حول "السلوك التدريبي الحقيقي".
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 21
أعجبني
21
6
إعادة النشر
مشاركة
تعليق
0/400
ser_ngmi
· 07-24 06:35
إعادة تشغيل الويب 2، أليس كذلك؟
شاهد النسخة الأصليةرد0
CoinBasedThinking
· 07-22 13:38
ويب 3 المبتدئين حقا يفهمون الذكاء الاصطناعي
شاهد النسخة الأصليةرد0
RugDocScientist
· 07-21 10:28
أوه، تجعلني أربعة أنواع من أساليب التدريب أشعر بالدوار.
شاهد النسخة الأصليةرد0
BlockchainWorker
· 07-21 10:21
كتابة الأطروحة عميقة جداً
شاهد النسخة الأصليةرد0
ProveMyZK
· 07-21 10:19
يا إلهي، هذا استهلاك الموارد، من أين يمكن لشخص فقير أن يتحمل ذلك؟
استكشاف متقدم لتدريب الذكاء الاصطناعي اللامركزي: من النظرية إلى التطبيق
الكأس المقدس للذكاء الاصطناعي في التشفير: استكشاف الحدود للتدريب اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النموذج المرحلة الأكثر استهلاكًا للموارد والأعلى في متطلبات التقنية، مما يحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية تطبيقه. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الشدة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج الهيكل، يمكن تقسيم أساليب التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي نناقشه في هذه المقالة.
يعد التدريب المركزي هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب بواسطة مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب، يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تجعل هذه البنية التحتية المتكاملة كفاءة مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل في أفضل حالاتها، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، مع مزايا الكفاءة العالية، والموارد القابلة للتحكم، لكنها في الوقت نفسه تواجه مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقطة الواحدة.
التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة أجهزة لتنفيذها بشكل متعاون، بهدف تجاوز قيود حساب وتخزين الأجهزة الفردية. على الرغم من أن لديها خصائص "موزعة" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والمزامنة، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية ناقل الاتصال السريع NVLink، حيث يقوم العقدة الرئيسية بتنسيق كل المهام الفرعية بشكل موحد. تشمل الأساليب السائدة:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، يشبه توجيه نفس المدير عن بُعد لموظفي "المكاتب" المتعددة للتعاون في إنجاز المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرائجة (GPT-4، Gemini، LLaMA، وغيرها ) بهذه الطريقة.
تمثل التدريب اللامركزي مسارًا مستقبليًا أكثر انفتاحًا وخصائص مقاومة للرقابة. تتمثل الخصائص الأساسية في: يمكن أن تكون هناك نقاط متعددة غير موثوقة ( مثل أجهزة الكمبيوتر المنزلية أو GPU السحابية أو أجهزة الحافة ) التي تتعاون لإكمال مهام التدريب دون منسق مركزي، عادةً من خلال البروتوكولات التي تدفع توزيع المهام والتعاون، مع الاعتماد على آلية تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهم كل منهم بقوة الحوسبة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا منهجيًا، ويتعلق بهندسة النظام، وبروتوكولات الاتصال، وأمان التشفير، وآليات الاقتصاد، والتحقق من النموذج، وغيرها من المستويات، ولكن ما إذا كان يمكن "التعاون بفاعلية + تحفيز الأمانة + صحة النتائج" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.
التعلم الفيدرالي كشكل انتقالي بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، ويناسب السيناريوهات التي تركز على الامتثال للخصوصية ( مثل الرعاية الصحية والمالية ). يتمتع التعلم الفيدرالي ببنية هندسية للتدريب الموزع وقدرة التعاون المحلي، بينما يحمل أيضًا مزايا البيانات الموزعة للتدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سيناريوهات الامتثال للخصوصية، حيث يكون في مهام التدريب، وبنية الثقة وآلية الاتصال أكثر اعتدالًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والواقع المسار
من منظور نمط التدريب، فإن التدريب اللامركزي غير مناسب لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو الحاجة الكبيرة إلى الموارد، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإنجاز العمل بكفاءة بين العقد المتنوعة واللامركزية. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة عالية، وزمن وصول منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بفعالية في شبكة مفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة القوية مثل الرعاية الصحية، والمالية، والبيانات الحساسة ( مقيدة بالامتثال القانوني والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما تفتقر المهام التي لا تحتوي على حوافز تعاون أساسية مثل نماذج الشركات المغلقة أو تدريب النماذج الأولية الداخلية ) إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فرضية زائفة. في الواقع، يظهر التدريب اللامركزي آفاق تطبيقية واضحة في أنواع المهام الهيكلية الخفيفة، السهلة التوازي، والمحفزة. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام التدريب بعد التوافق السلوكي مثل RLHF، DPO(، تدريب وتصنيف البيانات من خلال الحشد، تدريب نماذج أساسية صغيرة يمكن التحكم في مواردها، بالإضافة إلى سيناريوهات التدريب التعاوني التي تشمل الأجهزة الطرفية. هذه المهام تتمتع عمومًا بخصائص عالية من التوازي، وانخفاض الترابط، وتحمل قدرات الحوسبة المتنوعة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات النظيرة، بروتوكولات Swarm، والمُحسِّنات الموزعة.
![كأس مقدس للذكاء الاصطناعي: استكشاف متقدم للتدريب اللامركزي])https://img-cdn.gateio.im/webp-social/moments-adb92bc4dfbaf26863cb0b4bb1081cd7.webp(
تحليل المشاريع الكلاسيكية للتدريب اللامركزي
في الوقت الحالي، تشمل المشاريع الرئيسية في مجال التدريب اللامركزي والتعلم الفيدرالي، مشاريع البلوكشين الممثلة مثل Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، وتمثل الاتجاهات الحالية للبحث النظري. بينما مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبيًا، ويمكن رؤية تقدم هندسي أولي. ستحلل هذه المقالة التقنيات الأساسية والهندسة المعمارية وراء هذه المشاريع الخمسة بالتتابع، وتناقش الفروقات والعلاقات التكاملية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
) Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسارات التدريب
تعمل Prime Intellect على بناء شبكة تدريب AI غير معتمدة على الثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات: PRIME-RL + TOPLOC + SHARDCAST، في إنشاء نظام تدريب AI اللامركزي الذي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
(# 01، هيكل بروتوكول Prime Intellect وقيمة المكونات الرئيسية
![كأس المقدس للذكاء الاصطناعي: استكشاف الحدود للتدريب اللامركزي])https://img-cdn.gateio.im/webp-social/moments-69eb6c2dab3d6284b890285c71e7a47f.webp###
02، شرح آلية التدريب الأساسية ل Prime Intellect
#PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المتفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية الذي طورته Prime Intellect، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولي، ويفصل هيكليًا بين عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام محليًا بشكل مستقل، والتعاون من خلال واجهات قياسية وآليات التحقق والتجميع. مقارنة بعمليات التعلم الخاضعة للإشراف التقليدية، يعد PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام ويضع الأساس لدعم المهام المتعددة بالتوازي وتطور السياسات.
#TOPLOC: آلية التحقق من سلوك التدريب الخفيف الوزن
TOPLOC###المراقبة الموثوقة & فحص المحلية( هو آلية جوهرية للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعليًا تعلم الاستراتيجية بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يُكمل التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية بين "سلسلة المراقبة↔تحديث الاستراتيجية". إنه يحول لأول مرة مسارات السلوك أثناء عملية التدريب إلى كائنات قابلة للتحقق، وهو ابتكار رئيسي لتحقيق توزيع مكافآت التدريب دون الحاجة إلى الثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
![كأس سانت كريبتو AI: استكشاف الجبهة الأمامية للتدريب اللامركزي])https://img-cdn.gateio.im/webp-social/moments-0a322ea8b70c3d00d8d99606559c1864.webp(
#SHARDCAST: بروتوكول تجميع وتوزيع الوزن غير المتزامن
SHARDCAST هو بروتوكول لنشر الوزن وتجمعه صممه Prime Intellect، تم تحسينه خصيصًا للبيئات الشبكية الحقيقية التي تتسم باللامركزية، وقيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجية التزام محلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية بشكل مستمر في حالة عدم التزام، مما يحقق تقاربًا تدريجيًا للوزن وتطورات متعددة النسخ. بالمقارنة مع الطرق المركزية أو المتزامنة مثل AllReduce، يُعزز SHARDCAST بشكل ملحوظ من قابلية التوسع وقدرة التحمل في التدريب اللامركزي، وهو الأساس المركزي لبناء توافق الوزن المستقر والتدريب المستمر.
![كأس المقدس للذكاء الاصطناعي: استكشاف الجبهة الأمامية للتدريب اللامركزي])https://img-cdn.gateio.im/webp-social/moments-f86b109da66a0a4c9239221650a4a0a8.webp(
#OpenDiLoCo: إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار تحسين الاتصالات تم تنفيذه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect استنادًا إلى مفهوم DiLoCo الذي قدمته DeepMind، وهو مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، والتنوع في الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية رفيعة مثل Ring و Expander و Small-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج بشكل مشترك. وبال结合 التحديثات غير المتزامنة وآلية التحمل ضد الأخطاء، يتيح OpenDiLoCo لمعدات GPU الاستهلاكية والأجهزة الطرفية المشاركة بثبات في مهام التدريب، مما يعزز بشكل ملحوظ إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصالات في بناء شبكة تدريب لامركزية.
#PCCL: مكتبة الاتصالات التعاونية
PCCL)Prime Collective Communication Library( هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل اختناقات التكيف في المكتبات التقليدية للاتصالات) مثل NCCL وGloo( على الأجهزة غير المتجانسة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL الهيكليات المتناثرة، وضغط التدرجات، والمزامنة منخفضة الدقة، واستعادة النقاط المقطوعة، ويمكن تشغيلها على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهي مكون أساسي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عززت بشكل كبير من قدرة تحمل عرض النطاق الترددي لشبكات التدريب وتوافق الأجهزة، مما يفتح "آخر ميل" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية حقيقية مفتوحة وغير موثوقة.
)# 03، شبكة Prime Intellect للتحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريب قابلة للتحقق، بدون إذن، مزودة بآلية حوافز اقتصادية، مما يتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان ( SHARDCAST ) وتوزيع المكافآت، لتشكل دائرة حول "السلوك التدريبي الحقيقي".