Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
去中心化強化學習的崛起:直接偏好優化與Web3基礎設施的結合
人工智慧的格局正在經歷深刻的轉變。儘管大多數討論集中在擴展模型參數上,但真正的革命在於AI如何學習、調整其價值觀,以及如何分配這些智慧帶來的利益。強化學習結合Web3基礎設施,不僅僅是技術優化——它標誌著AI生產關係的根本重構。直接偏好優化和其他訓練後方法正成為這一轉變的核心,超越傳統的集中式方法,促使真正的分散式、可驗證且激勵式的學習系統成形。
這一轉變的核心源於一個認識:AI正從統計模式匹配演變為結構化推理。像DeepSeek-R1這樣的系統出現證明,訓練後的強化學習技術可以系統性地提升推理能力與複雜決策能力,不再僅僅是調整工具,而是通往真正智慧放大的途徑。同時,Web3的去中心化計算網絡與密碼學激勵機制完美契合強化學習的技術需求,形成一個自然的融合,挑戰傳統的集中式AI開發模式。
為何訓練後優化(包括直接偏好優化)如今如此重要
現代語言模型的訓練流程由三個不同階段組成,每個階段對計算與架構的需求都不同。預訓練通過大量無監督學習構建基礎世界模型,需求極端集中——需要同步數萬GPU的集群,佔總成本的80-95%。隨後是監督微調,加入任務特定能力,成本相對較低(5-15%),但仍需梯度同步,限制了去中心化的潛力。
訓練後階段代表AI獲得推理能力、價值觀調整與安全界限的前沿。這一階段涵蓋多種方法:傳統的人類反饋強化學習(RLHF)、AI驅動的反饋系統(RLAIF)、直接偏好優化(DPO),以及流程獎勵模型(PRM)。在這些方法中,直接偏好優化被視為一個優雅的解決方案,能跳過昂貴的獎勵模型訓練,直接針對偏好對進行模型輸出優化——這是一個低成本的替代方案,已成為開源調整的主流。然而,訓練後的技術遠不止於此。
訓練後的根本不同在於其結構。與預訓練需要同步的同質GPU集群不同,訓練後自然解耦為可並行的數據生成(稱為“rollouts”)與集中的策略更新。這一架構特性使其非常適合去中心化網絡。全球的計算節點可以異步生成多樣的推理鏈與偏好數據,而較少的訓練節點則進行權重更新。結合密碼驗證機制與代幣激勵,這一架構促成了第一個真正的開源AI訓練市場。
架構拆解:解耦、驗證與激勵設計
強化學習與Web3的技術協同來自三個架構支柱:解耦、驗證與代幣激勵。
推理與訓練的解耦將昂貴的參數更新與可並行的數據生成階段分離。在傳統RL中,rollout工作者產生經驗軌跡,學習者則聚合數據進行策略更新。Web3網絡可以將rollout生成分配給全球分散的消費級GPU與邊緣設備——即“長尾”的計算資源——而將策略更新集中在高帶寬節點。這符合現代硬體分布的經濟現實:專用訓練集群稀少且昂貴,但分散式GPU網絡豐富且便宜。
驗證機制解決了無許可網絡中的信任問題。當任何人都能貢獻計算時,網絡如何確保工作真正正確?零知識證明與“學習證明”技術能密碼學驗證推理鏈是否真實執行、代碼是否正確運行、數學問題是否誠實解答。對於像編碼或數學這樣的確定性任務,驗證變得高效——驗證者只需檢查輸出即可確認工作。這將一個開放、無信任的網絡從脆弱點轉變為優勢。
代幣激勵循環則完善了整個架構。與其依賴集中式的眾包平台收集偏好反饋,區塊鏈代幣直接獎勵貢獻者提供RLHF數據、RLAIF標註或計算資源。整個反饋市場——偏好數據生成、驗證結果、獎勵分配——變得透明、可設定且無許可。削減機制進一步通過懲罰不良行為者來限制質量,創造比傳統更高效的反饋市場。
這三個元素共同構建了一個與集中式方法截然不同的系統:工作可以在不信任任何一方的情況下被驗證,貢獻者的價值由透明機制自動評價,參與者根據其影響力獲得獎勵。這不僅僅是為了去中心化——而是一種架構創新,正是由直接偏好優化和其他訓練後技術獨特促成的。
未來六個藍圖:項目如何超越直接偏好優化實現RL
儘管直接偏好優化是重要的訓練後方法之一,但整個生態系統正朝著更豐富的方法論發展。六個主要項目正開創不同的去中心化RL架構方案,各自針對不同限制進行優化。
Prime Intellect已建立最成熟的異步分散式強化學習基礎設施。其prime-rl框架完全解耦Actor(rollout生成)與Learner(策略更新),使異質GPU可以隨時加入或退出。該框架整合了vLLM的PagedAttention技術以實現極致吞吐、FSDP2的參數分片以高效訓練大型模型,以及GRPO(Group Relative Policy Optimization)作為策略更新機制。該項目於2024年10月發布INTELLECT-1(10B參數),證明在三大洲進行的去中心化訓練能保持98%的GPU利用率,通訊比率低於2%——實用去中心化的一大突破。2025年4月的INTELLECT-2(32B模型證明在多步延遲下仍能穩定收斂。2025年11月的INTELLECT-3)106B專家混合模型,通過稀疏激活只啟用12B參數,實現旗艦級推理性能,並在512×H200集群上運行。這些版本證明去中心化RL系統已從理論可能性走向實務應用。
Gensyn則通過RL Swarm協作學習引擎與SAPO優化算法採用不同策略。它不依賴傳統任務分配,而是創建點對點的生成-評估-更新循環,Solver產生軌跡,Proposer生成多樣任務,Evaluator用固定判定模型評分。SAPO(Swarm Sampling Policy Optimization)是一項架構創新:它不像傳統分散訓練那樣共享梯度,而是共享rollout樣本並本地篩選獎勵信號。這大幅降低通信負擔,使消費級GPU能參與大規模RL。Gensyn的貢獻在於認識到強化學習對多樣rollouts的高度依賴——而非緊密的參數同步——使其天生適合高延遲與帶寬限制的去中心化架構。
Nous Research則圍繞Atropos可驗證強化學習環境構建整個技術堆疊,提供確定性獎勵信號,適用於編碼與數學等任務。Hermes模型家族見證了行業轉型:早期版本(Hermes 1-3)依賴直接偏好優化與DPO進行高效調整,而Hermes 4則加入慢思考鏈、測試時擴展與GRPO RL。DeepHermes將此RL流程部署在Psyche去中心化GPU網絡上,實現異構硬體上的推理時RL。關鍵創新在於Atropos作為Psyche網絡中的可驗證裁判,確認節點是否真正改善策略——解決可審計學習證明的根本方案。DisTrO是Nous的動量解耦梯度壓縮技術,將RL通信成本降低數個數量級。這些組件共同將數據生成、驗證、學習與推理融合成一個持續自我提升的循環,運行於開放GPU網絡。
Gradient Network設計了Echo強化學習框架,將推理與訓練解耦為獨立的“群組”,可在異構硬體上獨立擴展。推理群組利用流水線並行最大化消費級GPU與邊緣設備的取樣吞吐。訓練群組完成梯度更新與參數同步,既可集中也可地理分散。Echo提供兩種同步協議——序列(優先數據新鮮度)與異步(最大化效率)——管理策略與數據在廣域網中的一致性。將訓練與推理作為獨立工作負載,使其比傳統混合工作負載導致的SPMD失效與瓶頸更高效。
Grail(在Bittensor生態系)中,通過Covenant AI採用密碼學方法進行可驗證RL。利用Bittensor的Yuma共識機制作為基礎,Grail建立信任鏈,通過確定性挑戰生成(用drand隨機信標)、代幣層級的logprob驗證,以及模型身份綁定(權重指紋)來實現。礦工可為同一任務生成多條推理路徑,驗證者則評分正確性與推理質量。系統已展現出顯著的能力提升——Qwen2.5-1.5B的數學準確率由12.7%提升至47.6%,並防止獎勵操控,因為密碼證明確保rollouts的真實性與模型身份的綁定。
Fraction AI則開創了完全不同的範式:競賽式強化學習(RLFC)。它不依賴靜態的獎勵模型或偏好數據,而是創建遊戲化環境,AI代理彼此競爭,通過相對排名與動態AI裁判得分提供持續的獎勵信號。代理支付入場費用(任務領域),並根據表現獲得獎勵。用戶則扮演“元優化器”,通過提示工程引導探索,代理自動生成偏好對,形成微觀層面的競爭。這將數據標註從眾包勞動轉變為一個無信任的微調商業模式,獎勵信號來自競爭動態而非固定規則。
每個項目選擇了不同的切入點——算法、工程或市場設計——但都聚焦於一個共同架構:解耦的rollout與學習、密碼學驗證與代幣激勵。這種融合並非偶然;它反映了去中心化網絡必然適應強化學習結構需求的方式。
從集中調整到主權調整:機會所在
去中心化RL最深層的機會超越了技術優化。當前的AI調整仍在封閉的實驗室中進行——少數幾個組織決定將哪些價值觀編碼到日益強大的系統中。去中心化強化學習使“主權調整”成為可能,社群可以用代幣投票,共同決定“什麼是良好的輸出”。偏好與獎勵模型本身成為鏈上可治理的數據資產,而非專有秘密。
在這個背景下,訓練後的方法如直接偏好優化變得更為強大。企業不再需要精心策劃有限的偏好數據集,去中心化網絡可以從全球社群獲取無限多樣的偏好信號。不同社群可能優先不同價值——有些重視幫助性,有些重視無害性,還有些強調創意表達。這種多元調整,讓AI不再是“一刀切”,而是由社群自主掌控。
這也重塑經濟格局。訓練後創造價值——提升推理、改善調整、增強能力——在集中系統中,這些價值集中於平台。而在去中心化系統中,代幣分配可以透明地獎勵提供計算的訓練者(、提供偏好數據的調整者)、以及受益用戶(,將智慧產出的價值從中心化平台重新分配給創造者與參與者。
持續的挑戰與緊張關係
儘管具有這些優勢,去中心化RL仍面臨根本限制。帶寬牆依然存在:訓練超大模型)70B+參數(仍需同步,物理延遲使之困難。當前Web3 AI系統在微調與推理方面表現出色,但在完整訓練巨型模型方面仍有困難。DisTrO等通信壓縮技術正逐步突破這一限制,但這是結構性挑戰,而非暫時的工程問題。
更隱晦的是高斯定律(Goodhart’s Law):當支付依賴於某個指標時,該指標就不再是衡量真正目標的工具。在激勵性網絡中,參與者不可避免地會優化獎勵函數,而非真正的智慧。獎勵操控、得分操縱、利用邊緣案例、遊戲評估指標——這些都成為持續的軍備競賽。真正的競爭不在於設計完美的獎勵函數)不可能(,而在於建立具有對抗性且能抵禦高級攻擊的機制。拜占庭攻擊(拜占庭容錯)——惡意工作者積極污染訓練信號——進一步加劇這一挑戰。
解決之道在於理解:韌性並非來自完美的規則設計,而是來自經濟競爭。當多個組織運行驗證節點、驗證者因確認虛假工作而被懲罰、網絡獎勵發現作弊者,對抗性韌性就會成為一種自然產生的屬性,而非工程上的特性。
未來三大演進:三個互補的方向
未來去中心化RL很可能沿著三個平行方向展開。
第一是擴展可驗證推理市場。短期內,系統將專注於在全球網絡中分散推理時的RL與驗證。數學推理、程式碼生成、科學問題解決——這些輸出可確定驗證的任務,將成為切入點。這些“微小但精彩”的垂直解決方案,能直接將能力提升與價值捕捉聯繫起來,甚至超越封閉源的通用模型。
第二是資產化偏好與獎勵模型。將偏好數據視為一次性眾包勞動的產物,轉變為可治理的數據資產,進行代幣化。這將標註轉變為股權參與——貢獻者擁有他們協助調整的獎勵模型的股份。
第三是RL子網專業化。去中心化網絡將從通用訓練基礎設施演變為專門針對特定任務的RL子網——DeFi策略執行、程式碼生成、科學發現、具身AI。每個子網都會發展出任務專屬的驗證機制、社群價值與代幣經濟。整體架構將不再是“單一去中心化的OpenAI”,而是“數十個專業化的智慧合作社”。
結語:重寫智慧生產關係
強化學習與Web3的結合,最終代表著比技術優化更深遠的變革。它重寫了AI生產的根本關係:智慧如何被訓練、調整與價值化。
首次,AI訓練有可能成為一個開放的計算市場,全球長尾GPU作為平等的經濟行為者參與其中。偏好與獎勵模型可以從專有秘密轉變為鏈上可治理的資產。由智慧創造的價值,能在訓練者、調整者與用戶之間分配,而非集中於中心平台。直接偏好優化與新興的訓練後方法,是促成這一轉變的關鍵技術——它們並非完美解決調整問題,而是通過解耦學習與中心化,並實現無信任驗證,推動這一變革。
這並非在複製一個去中心化的OpenAI。真正的機會在於從根本上重組智慧的生產方式:由封閉的企業實驗室轉向開放的經濟網絡,社群共同訓練、調整並擁有那些擴展能力的系統。
本分析基於領先Web3 AI基礎設施團隊、IOSG Ventures、Pantera Capital及去中心化RL生態系的最新研究模式。與所有前瞻性分析一樣,包含解釋判斷,並可能帶有觀點與偏見。加密貨幣市場經常在項目基本面與二級市場價格表現間出現偏差。本文僅供資訊、學術與研究交流之用,並不構成投資建議或任何代幣買賣推薦。