Децентралізація AI тренування: від теорії до практики

2025-07-21 10:00:40

Святий Грааль Crypto AI: передові дослідження децентралізованого навчання

У повній ціновій ланці AI навчання моделей є найбільш витратним за ресурсами та найскладнішим з технологічної точки зору етапом, що безпосередньо визначає межі можливостей моделі та реальні результати застосування. На відміну від легковагих викликів на етапі інференції, навчальний процес вимагає постійних великих обсягів обчислювальної потужності, складних процесів обробки даних та інтенсивної підтримки алгоритмів оптимізації, що є справжньою "важкою промисловістю" у побудові AI-систем. З точки зору архітектурних парадигм, способи навчання можна поділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою даної статті.

Централізоване навчання є найпоширенішим традиційним способом, який виконується єдиною установою в локальному високопродуктивному кластері, де весь процес навчання, від апаратного забезпечення, базового програмного забезпечення, системи планування кластерів до всіх компонентів навчальної структури, координується єдиною системою управління. Така глибока координація архітектури забезпечує оптимальну ефективність спільного використання пам'яті, синхронізації градієнтів та механізмів стійкості, що робить її дуже придатною для навчання великих моделей, таких як GPT, Gemini тощо, з перевагами високої ефективності та контрольованих ресурсів, але водночас існують проблеми монополізації даних, бар'єрів для ресурсів, енергетичних витрат та ризику єдиної точки.

Розподілене навчання є основним методом навчання великих моделей, його суть полягає в розподілі завдань навчання моделі на кілька машин для спільного виконання, щоб подолати обмеження обчислювальних потужностей та зберігання даних одночасно. Незважаючи на фізичну наявність "дистрибутивних" характеристик, в цілому все ще контролюється централізованою організацією для управління та синхронізації, зазвичай працює в середовищі швидкої локальної мережі, завдяки технології високошвидкісної взаємозв'язку NVLink, головний вузол координує всі підзавдання. Основні методи включають:

Паралельність даних: кожен вузол навчає різні дані, параметри спільні, потрібно відповідати вагам моделі
Модельна паралельність: розміщення різних частин моделі на різних вузлах для досягнення високої масштабованості
Паралельне оброблення: поетапне послідовне виконання, підвищення пропускної здатності
Тензорна паралельність: уточнене розподіл матричних обчислень, підвищення паралельного масштабу

Розподілене навчання є поєднанням "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той же начальник дистанційно керує співробітниками з кількох "офісів", які співпрацюють для виконання завдання. Наразі майже всі основні великі моделі (GPT-4, Gemini, LLaMA та інші ) навчаються цим способом.

Децентралізація тренування означає більш відкритий та стійкий до цензури шлях у майбутнє. Його ключовою характеристикою є: декілька ненадійних вузлів ( можуть бути домашніми комп'ютерами, хмарними GPU або крайовими пристроями ), які виконують навчальні завдання без центрального координатора, зазвичай через протоколи, що керують розподілом завдань та співпрацею, а також завдяки механізмам шифрування для забезпечення чесності внесків. Основні виклики, з якими стикається цей режим, включають:

Гетерогенність пристроїв і труднощі поділу: висока складність координації гетерогенних пристроїв, низька ефективність розподілу завдань
Перешкоди в ефективності зв'язку: нестабільність мережевої комунікації, явні перешкоди в синхронізації градієнтів
Відсутність довіреного виконання: нестача довіреного середовища виконання, важко перевірити, чи дійсно вузли беруть участь у обчисленнях.
Відсутність єдиної координації: немає центрального диспетчера, складний розподіл завдань та механізм скасування помилок

Децентралізація тренування можна зрозуміти як: група глобальних добровольців, які спільно вносять обчислювальну потужність для навчання моделі, але "справді життєздатне масштабне децентралізоване навчання" все ще є системною інженерною проблемою, яка охоплює різні аспекти, такі як системна архітектура, комунікаційні протоколи, криптографічна безпека, економічні механізми, валідація моделей тощо, але чи можливо "співпрацювати ефективно + заохочувати чесність + отримати правильні результати" все ще перебуває на ранній стадії прототипування.

Федеративне навчання, як перехідна форма між розподіленими та децентралізованими системами, підкреслює локальне збереження даних та централізовану агрегацію параметрів моделі, ідеально підходить для сценаріїв, що акцентують на конфіденційності, таких як охорона здоров'я, фінанси (. Федеративне навчання має інженерну структуру розподіленого навчання та локальні кооперативні можливості, одночасно володіючи перевагами розподілених даних у децентралізованому навчанні, проте все ж залежить від надійних координаторів і не має повністю відкритих та антикорупційних характеристик. Його можна розглядати як "контрольовану децентралізацію" в сценаріях дотримання конфіденційності, з відносно помірними завданнями навчання, структурами довіри та комунікаційними механізмами, що робить його більш придатним для промислового перехідного розгортання.

Децентралізація тренування: межі, можливості та реальні шляхи

З точки зору навчальних парадигм, децентралізоване навчання не підходить для всіх типів задач. У деяких сценаріях через складну структуру задач, надзвичайно високі вимоги до ресурсів або труднощі в співпраці, воно природно не підходить для ефективного виконання між гетерогенними, недовіреними вузлами. Наприклад, навчання великих моделей часто залежить від високої пам'яті, низької затримки і високої пропускної здатності, що ускладнює їх розподіл та синхронізацію в відкритій мережі; задачі з сильною конфіденційністю даних та обмеженнями суверенітету ), такі як медицина, фінанси, конфіденційні дані (, обмежені юридичними нормами та етичними обмеженнями, не можуть бути відкритими для спільного використання; а задачі ) без основи для співпраці, такі як закриті моделі підприємств або навчання внутрішніх прототипів (, не мають зовнішньої мотивації для участі. Ці межі разом утворюють реальні обмеження сучасного децентралізованого навчання.

Але це не означає, що децентралізоване навчання є хибним твердженням. Насправді, у типах завдань з легкою структурою, які легко паралелізуються та можуть бути стимульованими, децентралізоване навчання демонструє чіткі перспективи застосування. Сюди входять, але не обмежуються: LoRA-фінансування, завдання пост-тренування, пов'язані з поведінкою, ), такі як RLHF, DPO(, навчання та маркування даних на основі краудсорсингу, навчання малих базових моделей з контрольованими ресурсами, а також сценарії кооперативного навчання з участю крайових пристроїв. Ці завдання зазвичай мають високу паралельність, низьку зв'язаність і терпимість до гетерогенної обчислювальної потужності, що робить їх дуже придатними для кооперативного навчання через P2P-мережі, протокол Swarm, розподілені оптимізатори тощо.

![Святий Грааль Crypto AI: Децентралізація тренувань на передовій досліджень])https://img-cdn.gateio.im/webp-social/moments-adb92bc4dfbaf26863cb0b4bb1081cd7.webp(

Децентралізація тренування класичних проектів аналіз

В даний час у сфері Децентралізації навчання та федеративного навчання,代表性的区块链项目主要包括Prime Intellect、Pluralis.ai、Gensyn、Nous Research 与 Flock.io. З точки зору технологічної інноваційності та складності інженерної реалізації, Prime Intellect, Nous Research та Pluralis.ai запропонували багато оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, представляючи сучасні теоретичні дослідження; тоді як реалізаційні шляхи Gensyn та Flock.io відносно чіткі, вже можна побачити початковий прогрес в інженерії. У цій статті буде поетапно проаналізовано основні технології та інженерні архітектури п'яти проектів, а також буде детально розглянуто їхні відмінності та взаємодоповнюючі зв'язки в системі Децентралізації AI навчання.

) Prime Intellect: Тренувальні траєкторії, що можуть бути перевірені, посилювальна навчальна кооперативна мережа-попередник

Prime Intellect прагне створити мережу навчання штучного інтелекту без потреби в довірі, що дозволяє кожному брати участь у навчанні та отримувати надійні винагороди за свої обчислювальні внески. Prime Intellect сподівається створити децентралізовану систему навчання ШІ з можливістю верифікації, відкритістю та повноцінним механізмом мотивації за допомогою трьох основних модулів: PRIME-RL + TOPLOC + SHARDCAST.

01、Структура протоколу Prime Intellect та вартість ключових модулів

![Святий Грааль Crypto AI: передові дослідження децентралізованого навчання]###https://img-cdn.gateio.im/webp-social/moments-69eb6c2dab3d6284b890285c71e7a47f.webp(

)# 02, Детальні механізми навчання Prime Intellect

#PRIME-RL: Архітектура завдань декомпозованого асинхронного підкріплювального навчання

PRIME-RL є рамкою моделювання та виконання завдань, налаштованою Prime Intellect для децентралізованих навчальних сценаріїв, спеціально розробленою для гетерогенних мереж та асинхронних учасників. Вона використовує посилене навчання як пріоритетний об'єкт адаптації, структурно розділяючи процеси навчання, інференції та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикли завдань на місцевому рівні та співпрацювати через стандартизовані інтерфейси з механізмами валідації та агрегації. На відміну від традиційних процесів контрольованого навчання, PRIME-RL більш підходить для реалізації еластичного навчання в середовищах без централізованого управління, знижуючи складність системи та закладаючи основу для підтримки паралельних багатозадачних процесів та еволюції стратегій.

![Святий Грааль Crypto AI: Децентралізація тренувань в передових дослідженнях]###https://img-cdn.gateio.im/webp-social/moments-b11af8d10db6e8baa0c19e87aa18dd82.webp(

#TOPLOC:Легка перевірка поведінки тренування

TOPLOC)Довірене спостереження & перевірка локальності( є основним механізмом перевірки навчання, запропонованим Prime Intellect, який використовується для визначення того, чи дійсно вузол завершив ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не покладається на повне перерахування моделі, а завершує верифікацію структури через аналіз локальної узгодженості траєкторії між "послідовністю спостереження↔оновлення стратегії". Він вперше перетворює траєкторії поведінки в процесі навчання на об'єкти, що підлягають перевірці, що є ключовим нововведенням для реалізації розподілу винагороди за навчання без довіри, забезпечуючи здійсненний шлях для побудови аудиторної та мотиваційної децентралізованої мережі кооперативного навчання.

![Святий Грааль Crypto AI: Децентралізація тренування на передовій])https://img-cdn.gateio.im/webp-social/moments-0a322ea8b70c3d00d8d99606559c1864.webp(

#SHARDCAST: Асинхронна агрегація ваг і протокол розповсюдження

SHARDCAST є протоколом поширення ваги та агрегації, розробленим Prime Intellect, оптимізованим для асинхронних, обмежених по пропускній спроможності та з мінливими станами вузлів реальних мережевих середовищ. Він поєднує механізм поширення gossip з локальною синхронізацією, що дозволяє кільком вузлам продовжувати надсилати часткові оновлення в умовах різних станів синхронізації, реалізуючи поступове сходження ваги та еволюцію кількох версій. У порівнянні з централізованими або синхронізованими методами AllReduce, SHARDCAST значно підвищує масштабованість та стійкість до помилок децентралізованого навчання, є основою для створення стабільного консенсусу ваги та безперервної ітерації навчання.

![Святий Грааль Crypto AI: Децентралізація тренування на передовій досліджень])https://img-cdn.gateio.im/webp-social/moments-f86b109da66a0a4c9239221650a4a0a8.webp(

#OpenDiLoCo:Рідкісний асинхронний комунікаційний фреймворк

OpenDiLoCo є незалежною реалізацією та відкритим кодом оптимізаційної рамки зв'язку, розробленою командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind. Вона спеціально створена для вирішення таких викликів, як обмежена пропускна здатність, гетерогенність пристроїв та нестабільність вузлів, які часто зустрічаються в децентралізованому навчанні. Її архітектура базується на паралельній обробці даних, шляхом побудови розріджених топологічних структур, таких як кільце, розширювач, малий світ, що уникає високих витрат на зв'язок через глобальну синхронізацію, і дозволяє виконувати спільне навчання моделі лише з використанням локальних сусідніх вузлів. Поєднуючи асинхронне оновлення та механізм відмовостійкості, OpenDiLoCo дозволяє споживчим GPU та крайнім пристроям стабільно брати участь у навчальних завданнях, значно підвищуючи можливість участі в глобальному кооперативному навчанні, що є однією з ключових комунікаційних інфраструктур для побудови децентралізованої навчальної мережі.

#PCCL:Бібліотека кооперативного зв'язку

PCCL)Prime Collective Communication Library( є легким комунікаційним бібліотекою, розробленою компанією Prime Intellect для децентралізованого середовища навчання штучного інтелекту, що має на меті вирішення адаптаційних вузьких місць традиційних комунікаційних бібліотек ), таких як NCCL, Gloo(, у гетерогенних пристроях та мережах з низькою пропускною здатністю. PCCL підтримує рідкісну топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є основним компонентом, що підтримує асинхронну комунікацію протоколу OpenDiLoCo. Він значно покращує толерантність до пропускної здатності навчальної мережі та сумісність пристроїв, прокладаючи "остання милю" комунікаційної інфраструктури для створення справді відкритої, без довіри мережі спільного навчання.

)# 03、Prime Intellect стимулююча мережа та розподіл ролей

Prime Intellect створив бездозвільну, перевірену, з економічними стимулюючими механізмами мережу навчання, що дозволяє будь-кому брати участь у завданнях і отримувати винагороду на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначити навчальне середовище, початкову модель, функцію винагороди та стандарти валідації
Тренувальні вузли: виконання локального тренування, подача оновлень ваг та спостережень
Вузли перевірки: Використання механізму TOPLOC для перевірки достовірності навчальної поведінки та участі у розрахунку винагороди та агрегації стратегій.

Ядро процесу угоди включає в себе публікацію завдань, тренування вузлів, верифікацію траєкторій, агрегацію ваг та розподіл винагород, формуючи коло навколо "реальної тренувальної поведінки".

PRIME-2.15%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

21 лайків

Нагородити
21
6
Репост
Поділіться

Прокоментувати

0/400

ser_ngmi