Cảnh quan trí tuệ nhân tạo đang trải qua một cuộc chuyển đổi sâu sắc. Trong khi hầu hết các cuộc thảo luận tập trung vào việc mở rộng tham số mô hình, thì cuộc cách mạng thực sự nằm ở cách AI học hỏi, điều chỉnh giá trị của mình và phân phối lợi ích của trí tuệ đó. Học tăng cường kết hợp với hạ tầng Web3 đại diện cho nhiều hơn một tối ưu kỹ thuật—nó báo hiệu một cấu trúc lại căn bản các quan hệ sản xuất AI. Tối ưu hóa sở thích trực tiếp và các phương pháp sau đào tạo khác đang trở thành trung tâm của sự chuyển đổi này, vượt ra ngoài các phương pháp tập trung truyền thống để cho phép các hệ thống học tập phân tán, có thể xác minh và có động lực thực sự.
Về cốt lõi, sự chuyển đổi này bắt nguồn từ nhận thức rằng AI đang tiến hóa từ việc khớp mẫu thống kê sang lý luận có cấu trúc. Sự xuất hiện của các hệ thống như DeepSeek-R1 đã chứng minh rằng các kỹ thuật học tăng cường sau đào tạo có thể cải thiện hệ thống lý luận và ra quyết định phức tạp một cách có hệ thống, không còn chỉ là công cụ điều chỉnh mà còn là con đường để tăng cường trí tuệ thực sự. Đồng thời, các mạng tính toán phân tán của Web3 và các cơ chế khuyến khích dựa trên cryptography phù hợp hoàn hảo với các yêu cầu kỹ thuật của học tăng cường, tạo ra một sự hội tụ tự nhiên thách thức mô hình phát triển AI tập trung.
Tại sao (Tối ưu hóa sau đào tạo bao gồm )Tối ưu sở thích trực tiếp( lại quan trọng ngày nay
Quy trình đào tạo của các mô hình ngôn ngữ hiện đại gồm ba giai đoạn riêng biệt, mỗi giai đoạn có yêu cầu tính toán và kiến trúc khác nhau. Tiền đào tạo, xây dựng mô hình thế giới nền tảng qua việc học không giám sát quy mô lớn, đòi hỏi sự tập trung cực độ—nó cần các cụm GPU đồng bộ hàng chục nghìn và chiếm 80-95% tổng chi phí. Tiếp theo là tinh chỉnh có giám sát, bổ sung khả năng đặc thù nhiệm vụ với chi phí tương đối thấp )5-15%(, nhưng vẫn yêu cầu đồng bộ gradient giới hạn khả năng phân tán.
Sau đào tạo đại diện cho mặt trận nơi các hệ thống AI có thể đạt được khả năng lý luận, điều chỉnh giá trị và xác định giới hạn an toàn. Giai đoạn này bao gồm nhiều phương pháp: học tăng cường truyền thống từ phản hồi của con người )RLHF(, hệ thống phản hồi dựa trên AI )RLAIF(, tối ưu sở thích trực tiếp )DPO(, và các mô hình thưởng quá trình )PRM(. Trong số các phương pháp này, tối ưu sở thích trực tiếp nổi lên như một giải pháp tinh tế, bỏ qua việc đào tạo mô hình thưởng đắt đỏ, thay vào đó tối ưu đầu ra của mô hình trực tiếp dựa trên các cặp sở thích—một phương pháp chi phí thấp đã trở thành tiêu chuẩn trong các nỗ lực căn chỉnh mã nguồn mở. Tuy nhiên, sau đào tạo còn vượt xa bất kỳ kỹ thuật đơn lẻ nào.
Điều làm cho sau đào tạo khác biệt căn bản so với các giai đoạn trước là cấu trúc của nó. Khác với yêu cầu của tiền đào tạo về các cụm GPU đồng bộ, sau đào tạo tự nhiên tách ra thành các quá trình sinh dữ liệu song song )gọi là “rollouts”( và cập nhật chính sách tập trung. Đặc điểm kiến trúc này khiến nó cực kỳ phù hợp với các mạng phân tán. Các nút tính toán trên toàn thế giới có thể tạo ra các chuỗi lý luận đa dạng và dữ liệu sở thích không đồng bộ, trong khi một số ít các nút đào tạo thực hiện cập nhật trọng số. Kết hợp với các cơ chế xác minh cryptography và các động lực dựa trên token, kiến trúc này cho phép tạo ra thị trường đào tạo AI nguồn mở thực sự đầu tiên.
Phân tích kiến trúc: Tách rời, xác minh và thiết kế khuyến khích
Sự cộng hưởng kỹ thuật giữa học tăng cường và Web3 bắt nguồn từ ba trụ cột kiến trúc: tách rời, xác minh và khuyến khích dựa trên token.
Tách rời suy luận khỏi đào tạo phân chia các cập nhật tham số đắt đỏ khỏi giai đoạn sinh dữ liệu có thể song song. Trong RL truyền thống, các worker rollouts tạo ra các quỹ đạo trải nghiệm trong khi người học tổng hợp dữ liệu này để cập nhật chính sách. Các mạng Web3 có thể giao nhiệm vụ sinh rollout cho các GPU và thiết bị biên phân tán toàn cầu—phần “đuôi dài” của các nguồn lực tính toán—trong khi tập trung cập nhật chính sách trên các nút băng thông cao. Điều này phù hợp với thực tế kinh tế của phần cứng hiện đại: các cụm đào tạo chuyên dụng hiếm và đắt đỏ, trong khi các mạng GPU phân tán thì phong phú và rẻ.
Các cơ chế xác minh giải quyết vấn đề tin cậy trong các mạng không cần phép. Khi bất kỳ ai cũng có thể đóng góp tính toán, làm thế nào để các mạng đảm bảo công việc đúng đắn thực sự? Các bằng chứng không kiến thức và công nghệ “Chứng minh học tập” cryptographically xác minh rằng các chuỗi lý luận đã được thực hiện thực sự, mã đã được thực thi đúng, các bài toán toán học đã được giải trung thực. Đối với các nhiệm vụ xác định như lập trình hoặc toán học, việc xác minh trở nên cực kỳ hiệu quả—các validator chỉ cần kiểm tra đầu ra để xác nhận công việc. Điều này biến một mạng mở, không tin cậy thành một điểm mạnh.
Vòng khuyến khích dựa trên token hoàn thiện kiến trúc. Thay vì dựa vào các nền tảng crowd-sourcing tập trung để thu thập phản hồi sở thích, các token dựa trên blockchain trực tiếp thưởng cho các cộng tác viên cung cấp dữ liệu RLHF, chú thích RLAIF hoặc tài nguyên tính toán. Thị trường phản hồi toàn diện—dữ liệu sở thích, kết quả xác minh, phân phối thưởng—trở nên minh bạch, có thể thiết lập và không cần phép. Các cơ chế trừng phạt còn hạn chế chất lượng bằng cách phạt các tác nhân xấu, tạo ra các thị trường phản hồi hiệu quả hơn các phương pháp truyền thống.
Tổng thể, ba yếu tố này cho phép một hệ thống khác biệt căn bản so với các phương pháp tập trung: công việc có thể được xác minh mà không cần tin tưởng bất kỳ bên nào, đóng góp được định giá tự động qua các cơ chế minh bạch, và các thành viên được thưởng theo tác động của họ. Đây không chỉ là phân tán vì mục đích của nó—đây là một đổi mới kiến trúc mà tối ưu sở thích trực tiếp và các kỹ thuật sau đào tạo khác đặc biệt hỗ trợ.
Sáu bản thiết kế cho Tương lai: Các dự án đang triển khai RL vượt ra ngoài Tối ưu sở thích trực tiếp
Trong khi tối ưu sở thích trực tiếp là một phương pháp quan trọng sau đào tạo, hệ sinh thái đang phát triển các phương pháp phong phú hơn nhiều. Sáu dự án lớn đang tiên phong các giải pháp kiến trúc khác nhau cho RL phân tán, mỗi dự án tối ưu cho các hạn chế khác nhau.
Prime Intellect đã xây dựng hạ tầng trưởng thành nhất cho học tăng cường phân tán bất đồng bộ. Khung framework prime-rl hoàn toàn tách rời Actor )rollout generation( và Learner )policy updates(, cho phép các GPU không đồng bộ tham gia hoặc rút lui bất cứ lúc nào. Framework tích hợp công nghệ vLLM’s PagedAttention cho throughput cực cao, phân mảnh tham số FSDP2 để đào tạo mô hình lớn hiệu quả, và GRPO )Group Relative Policy Optimization( như cơ chế cập nhật chính sách. Dự án đã phát hành INTELLECT-1 )10B tham số( vào tháng 10 năm 2024, chứng minh rằng đào tạo phân tán qua ba châu lục có thể duy trì 98% hiệu suất GPU với tỷ lệ giao tiếp dưới 2%—một bước đột phá trong phân tán thực tế. INTELLECT-2 )32B, tháng 4 năm 2025( chứng minh hội tụ ổn định ngay cả khi có độ trễ nhiều bước. INTELLECT-3 )106B mô hình hỗn hợp chuyên gia, tháng 11 năm 2025( đạt hiệu suất lý luận hàng đầu trong khi chạy trên các cụm H200×512 qua kích hoạt thưa chỉ kích hoạt 12B tham số mỗi lần. Các bản phát hành này xác nhận rằng hệ thống RL phân tán đã trưởng thành từ khả năng lý thuyết thành thực tế sản xuất.
Gensyn tiếp cận vấn đề theo cách khác qua động cơ học hợp tác RL Swarm và thuật toán tối ưu SAPO. Thay vì phân phối nhiệm vụ truyền thống, RL Swarm tạo ra vòng lặp peer-to-peer sinh-đánh giá-cập nhật, trong đó Solver tạo ra các quỹ đạo, Proposer tạo ra các nhiệm vụ đa dạng, và Evaluator chấm điểm đầu ra bằng các mô hình judge cố định. SAPO )Swarm Sampling Policy Optimization( là một đổi mới kiến trúc: thay vì chia sẻ gradient như đào tạo phân tán truyền thống, nó chia sẻ mẫu rollout và lọc tín hiệu thưởng cục bộ. Điều này giảm đáng kể overhead truyền thông so với PPO hoặc GRPO, cho phép GPU tiêu chuẩn tham gia RL quy mô lớn. Đóng góp của Gensyn là nhận ra rằng sự phụ thuộc nặng nề của học tăng cường vào các rollout đa dạng—thay vì đồng bộ tham số chặt chẽ—làm nó phù hợp tự nhiên với kiến trúc phân tán có độ trễ và băng thông cao.
Nous Research xây dựng toàn bộ hệ thống dựa trên môi trường học tăng cường có thể xác minh Atropos, cung cấp tín hiệu thưởng xác định cho các nhiệm vụ như lập trình và toán học. Dòng họ Hermes của họ phản ánh quá trình chuyển đổi ngành: các phiên bản đầu )Hermes 1-3( dựa vào tối ưu sở thích trực tiếp và DPO để căn chỉnh hiệu quả, trong khi Hermes 4 tích hợp chuỗi suy nghĩ chậm, mở rộng thời gian thử nghiệm, và RL dựa trên GRPO. DeepHermes triển khai quá trình RL này trên mạng GPU phân tán Psyche, cho phép RL thời gian suy luận trên phần cứng phân tán đa dạng. Đổi mới then chốt là Atropos đóng vai trò như một trọng tài có thể xác minh trong mạng Psyche, xác nhận xem các nút có thực sự cải thiện chính sách hay không—một giải pháp nền tảng cho chứng minh có thể kiểm tra được của việc học. DisTrO, kỹ thuật nén gradient không phụ thuộc momentum của Nous, giảm chi phí truyền thông RL hàng trăm lần. Cùng nhau, các thành phần này hợp nhất dữ liệu sinh, xác minh, học và suy luận thành một vòng lặp tự cải thiện liên tục chạy trên các mạng GPU mở.
Gradient Network thiết kế khung Echo cho RL để tách rời suy luận và đào tạo thành các “đội” riêng biệt có thể mở rộng độc lập trên phần cứng không đồng bộ. Đội suy luận sử dụng song song pipeline để tối đa hóa throughput lấy mẫu trên GPU và thiết bị biên tiêu chuẩn. Đội đào tạo hoàn tất cập nhật gradient và đồng bộ tham số, có thể tập trung hoặc phân tán toàn cầu. Echo cung cấp hai giao thức đồng bộ—theo trình tự )ưu tiên dữ liệu mới nhất( và không đồng bộ )tối đa hóa hiệu quả(—cho phép quản lý nhất quán chính sách-dữ liệu trong mạng diện rộng. Bằng cách coi đào tạo và suy luận như các tác vụ độc lập, Echo đạt hiệu suất sử dụng thiết bị cao hơn so với các phương pháp truyền thống gây ra thất bại SPMD và tắc nghẽn.
Grail )trong hệ sinh thái Bittensor( qua Covenant AI áp dụng phương pháp cryptographic cho RL có thể xác minh. Sử dụng cơ chế đồng thuận Yuma của Bittensor làm nền tảng, Grail thiết lập chuỗi tin cậy qua việc tạo thách thức xác định )sử dụng các beacon ngẫu nhiên drand(, xác minh logprob cấp token, và liên kết danh tính mô hình qua dấu vân tay trọng số. Điều này cho phép các thợ mỏ tạo ra nhiều đường dẫn suy luận cho cùng một nhiệm vụ trong khi các validator chấm điểm kết quả dựa trên độ chính xác và chất lượng suy luận. Hệ thống đã chứng minh khả năng cải thiện đáng kể—Qwen2.5-1.5B từ 12.7% độ chính xác MATH lên 47.6% qua quá trình GRPO có thể xác minh—trong khi ngăn chặn các hành vi gian lận thưởng bằng các bằng chứng cryptographic rằng các rollout là thực sự và liên kết với danh tính mô hình cụ thể.
Fraction AI đã tiên phong một mô hình hoàn toàn khác: Reinforcement Learning từ cạnh tranh )RLFC(. Thay vì các mô hình thưởng tĩnh hoặc dữ liệu sở thích cố định của tối ưu sở thích trực tiếp, Fraction AI tạo ra các môi trường chơi game nơi các AI cạnh tranh lẫn nhau, với xếp hạng tương đối và điểm số của trọng tài AI động cung cấp tín hiệu thưởng liên tục. Các tác nhân trả phí để tham gia các “Spaces” )lĩnh vực nhiệm vụ( và nhận thưởng dựa trên thành tích. Người dùng đóng vai trò như các “meta-optimizer” hướng dẫn khám phá qua kỹ thuật prompt, trong khi các tác nhân tự động tạo ra các cặp sở thích qua cạnh tranh vi mô. Điều này biến việc chú thích dữ liệu từ lao động crowdsourcing thành một mô hình kinh doanh fine-tuning không tin cậy, trong đó các tín hiệu thưởng xuất phát từ các cạnh tranh chứ không phải các tiêu chí cố định.
Mỗi dự án chọn các điểm vào khác nhau—thuật toán, kỹ thuật hoặc thiết kế thị trường—nhưng đều hội tụ vào một kiến trúc nhất quán: tách rời rollout và học, xác minh cryptographic, và khuyến khích dựa trên token. Sự hội tụ này không phải ngẫu nhiên; nó phản ánh cách các mạng phân tán tất yếu thích nghi với các yêu cầu cấu trúc của học tăng cường.
Từ căn chỉnh tập trung đến căn chỉnh chủ quyền: Cơ hội
Cơ hội sâu nhất của RL phân tán vượt ra ngoài tối ưu kỹ thuật. Ngày nay, căn chỉnh AI diễn ra sau cánh cửa tại các phòng thí nghiệm lớn, nơi một số tổ chức quyết định các giá trị sẽ được mã hóa vào các hệ thống ngày càng mạnh mẽ hơn. RL phân tán cho phép “căn chỉnh chủ quyền,” nơi cộng đồng có thể bỏ phiếu bằng token để quyết định tập thể “kết quả tốt” cho mô hình của họ. Các sở thích và mô hình thưởng trở thành các tài sản dữ liệu trên chuỗi, có thể quản lý chứ không còn là bí mật sở hữu.
Các phương pháp sau đào tạo như tối ưu sở thích trực tiếp trở nên mạnh mẽ hơn nhiều trong bối cảnh này. Thay vì các công ty cẩn thận chọn lọc các bộ dữ liệu sở thích hạn chế, các mạng phân tán có thể khai thác các tín hiệu sở thích đa dạng, vô hạn từ cộng đồng toàn cầu. Các cộng đồng khác nhau có thể tối ưu cho các giá trị khác nhau—một số ưu tiên hữu ích, số khác ưu tiên vô hại, số khác nhấn mạnh sáng tạo. Thay vì một AI căn chỉnh theo kiểu “một kích cỡ phù hợp tất cả,” các hệ thống phân tán cho phép căn chỉnh đa nguyên, nơi các cộng đồng giữ quyền tự chủ.
Điều này cũng định hình lại kinh tế học. Sau đào tạo tạo ra giá trị qua khả năng lý luận cải thiện, căn chỉnh tốt hơn, khả năng nâng cao. Trong các hệ thống tập trung, giá trị này tập trung vào nền tảng. Trong các hệ thống phân tán, phân phối token có thể minh bạch thưởng cho các nhà đào tạo )cung cấp tính toán(, các căn chỉnh viên )cung cấp dữ liệu sở thích(, và người dùng )hưởng lợi từ hệ thống(— phân phối lại giá trị sản xuất trí tuệ ra ngoài các nền tảng tập trung tới các thành viên mạng đã tạo ra nó.
Thách thức và căng thẳng kéo dài
Dù có những lợi thế này, RL phân tán vẫn đối mặt với các giới hạn căn bản. Bức tường băng thông vẫn còn đó: đào tạo các mô hình siêu lớn )70B+ tham số( vẫn đòi hỏi đồng bộ mà độ trễ vật lý gây khó khăn. Các hệ thống AI Web3 hiện tại xuất sắc trong tinh chỉnh và suy luận nhưng gặp khó khăn với việc đào tạo đầy đủ các mô hình khổng lồ. DisTrO và các kỹ thuật nén truyền thông khác đang giảm bớt giới hạn này, nhưng nó vẫn là một thách thức cấu trúc chứ không chỉ là vấn đề kỹ thuật tạm thời.
Điều nguy hiểm hơn là Luật Goodhart trong hành động: khi thanh toán theo metric, metric đó không còn đo lường đúng thứ bạn muốn nữa. Trong các mạng có động lực, các thành viên tất yếu tối ưu hóa theo hàm thưởng chứ không phải trí tuệ thực sự. Việc gian lận thưởng—làm điểm, khai thác các trường hợp ngoại lệ, gian lận các chỉ số đánh giá—trở thành một cuộc chạy đua vũ trang không ngừng. Cuộc thi thực sự không nằm ở việc thiết kế các hàm thưởng hoàn hảo )bất khả thi mà ở việc xây dựng các cơ chế chống tấn công có khả năng tồn tại trước các cuộc tấn công tinh vi. Các cuộc tấn công Byzantine, nơi các tác nhân độc hại cố tình làm nhiễu tín hiệu đào tạo, càng làm phức tạp thách thức này.
Giải pháp đòi hỏi phải hiểu rằng tính bền vững không đến từ việc thiết kế quy tắc hoàn hảo mà từ cạnh tranh kinh tế. Khi nhiều tổ chức vận hành các nút xác minh, khi các validator bị trừng phạt vì xác nhận công việc sai, khi mạng thưởng cho việc phát hiện kẻ gian, tính bền vững chống tấn công trở thành một đặc tính nổi bật chứ không chỉ là tính năng được thiết kế.
Con đường phía trước: Ba hướng phát triển bổ sung
Tương lai của RL phân tán có khả năng phát triển theo ba hướng song song.
Đầu tiên là mở rộng thị trường suy luận có thể xác minh. Thay vì toàn bộ quy trình đào tạo, các hệ thống ngắn hạn sẽ tập trung vào phân phối RL thời gian suy luận và xác minh trên các mạng toàn cầu. Các nhiệm vụ như lý luận toán học, sinh mã, giải quyết vấn đề khoa học—nơi các đầu ra có thể xác minh một cách xác định—trở thành điểm tựa. Các giải pháp “nhỏ nhưng đẹp” này trực tiếp liên kết khả năng cải thiện với giá trị thu về, có khả năng vượt trội các mô hình tổng quát đóng nguồn mở trong lĩnh vực của chúng.
Thứ hai là tài sản hóa các sở thích và mô hình thưởng. Thay vì xem dữ liệu sở thích như lao động crowdsourcing tạm thời, các hệ thống phân tán có thể token hóa các phản hồi chất lượng cao và các mô hình thưởng như các tài sản dữ liệu có thể quản lý. Điều này biến việc chú thích thành các giao dịch cổ phần—các cộng tác viên sở hữu cổ phần trong các mô hình thưởng chính đang vận hành hệ thống mà họ giúp căn chỉnh.
Thứ ba là chuyên môn hóa các mạng RL con. Các mạng phân tán sẽ tiến hóa từ hạ tầng đào tạo chung thành các mạng con RL chuyên biệt tối ưu cho các nhiệm vụ cụ thể—thực thi chiến lược DeFi, sinh mã, khám phá khoa học, AI thể chất. Mỗi mạng con phát triển các cơ chế xác minh nhiệm vụ riêng, giá trị cộng đồng và kinh tế token. Cấu trúc meta trở nên ít hơn là “một OpenAI phân tán” và nhiều hơn là “hàng chục hợp tác xã trí tuệ chuyên biệt.”
Kết luận: Viết lại các quan hệ sản xuất trí tuệ
Sự kết hợp giữa học tăng cường và Web3 cuối cùng biểu thị một điều gì đó sâu sắc hơn nhiều so với tối ưu kỹ thuật. Nó viết lại các quan hệ nền tảng của sản xuất AI: cách trí tuệ được đào tạo, căn chỉnh và định giá.
Lần đầu tiên, có thể hình dung rằng đào tạo AI có thể hoạt động như một thị trường tính toán mở, nơi các GPU dài đuôi toàn cầu tham gia như các tác nhân kinh tế bình đẳng. Các sở thích và mô hình thưởng có thể biến thành các tài sản trên chuỗi, có thể quản lý chứ không còn là bí mật sở hữu. Giá trị tạo ra qua trí tuệ có thể phân phối cho các nhà đào tạo, căn chỉnh viên và người dùng thay vì tập trung trong các nền tảng trung tâm. Các kỹ thuật như tối ưu sở thích trực tiếp và các phương pháp sau đào tạo mới nổi là các công nghệ then chốt cho phép sự chuyển đổi này—không phải vì chúng hoàn hảo trong việc giải quyết căn chỉnh, mà vì chúng tách rời việc học khỏi sự tập trung và cho phép xác minh mà không cần tin tưởng.
Đây không phải là việc tạo ra một phiên bản phân tán của OpenAI. Cơ hội thực sự nằm ở việc tổ chức lại căn bản cách thức hoạt động của sản xuất trí tuệ: từ các phòng thí nghiệm doanh nghiệp đóng cửa sang các mạng kinh tế mở, nơi cộng đồng cùng nhau đào tạo, căn chỉnh và sở hữu các hệ thống mở rộng khả năng của họ.
Phân tích này dựa trên các mô hình nghiên cứu từ các nhóm hạ tầng AI Web3 hàng đầu, IOSG Ventures, Pantera Capital và các dự án mới nổi trong hệ sinh thái RL phân tán. Như mọi phân tích dự báo, nó mang tính phỏng đoán và tất nhiên có thể chứa các quan điểm và thiên kiến nhất định. Thị trường tiền mã hóa thường xuyên lệch pha giữa các yếu tố nền tảng dự án và hiệu suất giá thị trường thứ cấp. Nội dung này nhằm mục đích thông tin, học thuật và trao đổi nghiên cứu, không phải là lời khuyên đầu tư hoặc đề xuất mua bán bất kỳ token nào.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Sự phát triển của RL phi tập trung: Tối ưu hóa sở thích trực tiếp gặp hạ tầng Web3
Cảnh quan trí tuệ nhân tạo đang trải qua một cuộc chuyển đổi sâu sắc. Trong khi hầu hết các cuộc thảo luận tập trung vào việc mở rộng tham số mô hình, thì cuộc cách mạng thực sự nằm ở cách AI học hỏi, điều chỉnh giá trị của mình và phân phối lợi ích của trí tuệ đó. Học tăng cường kết hợp với hạ tầng Web3 đại diện cho nhiều hơn một tối ưu kỹ thuật—nó báo hiệu một cấu trúc lại căn bản các quan hệ sản xuất AI. Tối ưu hóa sở thích trực tiếp và các phương pháp sau đào tạo khác đang trở thành trung tâm của sự chuyển đổi này, vượt ra ngoài các phương pháp tập trung truyền thống để cho phép các hệ thống học tập phân tán, có thể xác minh và có động lực thực sự.
Về cốt lõi, sự chuyển đổi này bắt nguồn từ nhận thức rằng AI đang tiến hóa từ việc khớp mẫu thống kê sang lý luận có cấu trúc. Sự xuất hiện của các hệ thống như DeepSeek-R1 đã chứng minh rằng các kỹ thuật học tăng cường sau đào tạo có thể cải thiện hệ thống lý luận và ra quyết định phức tạp một cách có hệ thống, không còn chỉ là công cụ điều chỉnh mà còn là con đường để tăng cường trí tuệ thực sự. Đồng thời, các mạng tính toán phân tán của Web3 và các cơ chế khuyến khích dựa trên cryptography phù hợp hoàn hảo với các yêu cầu kỹ thuật của học tăng cường, tạo ra một sự hội tụ tự nhiên thách thức mô hình phát triển AI tập trung.
Tại sao (Tối ưu hóa sau đào tạo bao gồm )Tối ưu sở thích trực tiếp( lại quan trọng ngày nay
Quy trình đào tạo của các mô hình ngôn ngữ hiện đại gồm ba giai đoạn riêng biệt, mỗi giai đoạn có yêu cầu tính toán và kiến trúc khác nhau. Tiền đào tạo, xây dựng mô hình thế giới nền tảng qua việc học không giám sát quy mô lớn, đòi hỏi sự tập trung cực độ—nó cần các cụm GPU đồng bộ hàng chục nghìn và chiếm 80-95% tổng chi phí. Tiếp theo là tinh chỉnh có giám sát, bổ sung khả năng đặc thù nhiệm vụ với chi phí tương đối thấp )5-15%(, nhưng vẫn yêu cầu đồng bộ gradient giới hạn khả năng phân tán.
Sau đào tạo đại diện cho mặt trận nơi các hệ thống AI có thể đạt được khả năng lý luận, điều chỉnh giá trị và xác định giới hạn an toàn. Giai đoạn này bao gồm nhiều phương pháp: học tăng cường truyền thống từ phản hồi của con người )RLHF(, hệ thống phản hồi dựa trên AI )RLAIF(, tối ưu sở thích trực tiếp )DPO(, và các mô hình thưởng quá trình )PRM(. Trong số các phương pháp này, tối ưu sở thích trực tiếp nổi lên như một giải pháp tinh tế, bỏ qua việc đào tạo mô hình thưởng đắt đỏ, thay vào đó tối ưu đầu ra của mô hình trực tiếp dựa trên các cặp sở thích—một phương pháp chi phí thấp đã trở thành tiêu chuẩn trong các nỗ lực căn chỉnh mã nguồn mở. Tuy nhiên, sau đào tạo còn vượt xa bất kỳ kỹ thuật đơn lẻ nào.
Điều làm cho sau đào tạo khác biệt căn bản so với các giai đoạn trước là cấu trúc của nó. Khác với yêu cầu của tiền đào tạo về các cụm GPU đồng bộ, sau đào tạo tự nhiên tách ra thành các quá trình sinh dữ liệu song song )gọi là “rollouts”( và cập nhật chính sách tập trung. Đặc điểm kiến trúc này khiến nó cực kỳ phù hợp với các mạng phân tán. Các nút tính toán trên toàn thế giới có thể tạo ra các chuỗi lý luận đa dạng và dữ liệu sở thích không đồng bộ, trong khi một số ít các nút đào tạo thực hiện cập nhật trọng số. Kết hợp với các cơ chế xác minh cryptography và các động lực dựa trên token, kiến trúc này cho phép tạo ra thị trường đào tạo AI nguồn mở thực sự đầu tiên.
Phân tích kiến trúc: Tách rời, xác minh và thiết kế khuyến khích
Sự cộng hưởng kỹ thuật giữa học tăng cường và Web3 bắt nguồn từ ba trụ cột kiến trúc: tách rời, xác minh và khuyến khích dựa trên token.
Tách rời suy luận khỏi đào tạo phân chia các cập nhật tham số đắt đỏ khỏi giai đoạn sinh dữ liệu có thể song song. Trong RL truyền thống, các worker rollouts tạo ra các quỹ đạo trải nghiệm trong khi người học tổng hợp dữ liệu này để cập nhật chính sách. Các mạng Web3 có thể giao nhiệm vụ sinh rollout cho các GPU và thiết bị biên phân tán toàn cầu—phần “đuôi dài” của các nguồn lực tính toán—trong khi tập trung cập nhật chính sách trên các nút băng thông cao. Điều này phù hợp với thực tế kinh tế của phần cứng hiện đại: các cụm đào tạo chuyên dụng hiếm và đắt đỏ, trong khi các mạng GPU phân tán thì phong phú và rẻ.
Các cơ chế xác minh giải quyết vấn đề tin cậy trong các mạng không cần phép. Khi bất kỳ ai cũng có thể đóng góp tính toán, làm thế nào để các mạng đảm bảo công việc đúng đắn thực sự? Các bằng chứng không kiến thức và công nghệ “Chứng minh học tập” cryptographically xác minh rằng các chuỗi lý luận đã được thực hiện thực sự, mã đã được thực thi đúng, các bài toán toán học đã được giải trung thực. Đối với các nhiệm vụ xác định như lập trình hoặc toán học, việc xác minh trở nên cực kỳ hiệu quả—các validator chỉ cần kiểm tra đầu ra để xác nhận công việc. Điều này biến một mạng mở, không tin cậy thành một điểm mạnh.
Vòng khuyến khích dựa trên token hoàn thiện kiến trúc. Thay vì dựa vào các nền tảng crowd-sourcing tập trung để thu thập phản hồi sở thích, các token dựa trên blockchain trực tiếp thưởng cho các cộng tác viên cung cấp dữ liệu RLHF, chú thích RLAIF hoặc tài nguyên tính toán. Thị trường phản hồi toàn diện—dữ liệu sở thích, kết quả xác minh, phân phối thưởng—trở nên minh bạch, có thể thiết lập và không cần phép. Các cơ chế trừng phạt còn hạn chế chất lượng bằng cách phạt các tác nhân xấu, tạo ra các thị trường phản hồi hiệu quả hơn các phương pháp truyền thống.
Tổng thể, ba yếu tố này cho phép một hệ thống khác biệt căn bản so với các phương pháp tập trung: công việc có thể được xác minh mà không cần tin tưởng bất kỳ bên nào, đóng góp được định giá tự động qua các cơ chế minh bạch, và các thành viên được thưởng theo tác động của họ. Đây không chỉ là phân tán vì mục đích của nó—đây là một đổi mới kiến trúc mà tối ưu sở thích trực tiếp và các kỹ thuật sau đào tạo khác đặc biệt hỗ trợ.
Sáu bản thiết kế cho Tương lai: Các dự án đang triển khai RL vượt ra ngoài Tối ưu sở thích trực tiếp
Trong khi tối ưu sở thích trực tiếp là một phương pháp quan trọng sau đào tạo, hệ sinh thái đang phát triển các phương pháp phong phú hơn nhiều. Sáu dự án lớn đang tiên phong các giải pháp kiến trúc khác nhau cho RL phân tán, mỗi dự án tối ưu cho các hạn chế khác nhau.
Prime Intellect đã xây dựng hạ tầng trưởng thành nhất cho học tăng cường phân tán bất đồng bộ. Khung framework prime-rl hoàn toàn tách rời Actor )rollout generation( và Learner )policy updates(, cho phép các GPU không đồng bộ tham gia hoặc rút lui bất cứ lúc nào. Framework tích hợp công nghệ vLLM’s PagedAttention cho throughput cực cao, phân mảnh tham số FSDP2 để đào tạo mô hình lớn hiệu quả, và GRPO )Group Relative Policy Optimization( như cơ chế cập nhật chính sách. Dự án đã phát hành INTELLECT-1 )10B tham số( vào tháng 10 năm 2024, chứng minh rằng đào tạo phân tán qua ba châu lục có thể duy trì 98% hiệu suất GPU với tỷ lệ giao tiếp dưới 2%—một bước đột phá trong phân tán thực tế. INTELLECT-2 )32B, tháng 4 năm 2025( chứng minh hội tụ ổn định ngay cả khi có độ trễ nhiều bước. INTELLECT-3 )106B mô hình hỗn hợp chuyên gia, tháng 11 năm 2025( đạt hiệu suất lý luận hàng đầu trong khi chạy trên các cụm H200×512 qua kích hoạt thưa chỉ kích hoạt 12B tham số mỗi lần. Các bản phát hành này xác nhận rằng hệ thống RL phân tán đã trưởng thành từ khả năng lý thuyết thành thực tế sản xuất.
Gensyn tiếp cận vấn đề theo cách khác qua động cơ học hợp tác RL Swarm và thuật toán tối ưu SAPO. Thay vì phân phối nhiệm vụ truyền thống, RL Swarm tạo ra vòng lặp peer-to-peer sinh-đánh giá-cập nhật, trong đó Solver tạo ra các quỹ đạo, Proposer tạo ra các nhiệm vụ đa dạng, và Evaluator chấm điểm đầu ra bằng các mô hình judge cố định. SAPO )Swarm Sampling Policy Optimization( là một đổi mới kiến trúc: thay vì chia sẻ gradient như đào tạo phân tán truyền thống, nó chia sẻ mẫu rollout và lọc tín hiệu thưởng cục bộ. Điều này giảm đáng kể overhead truyền thông so với PPO hoặc GRPO, cho phép GPU tiêu chuẩn tham gia RL quy mô lớn. Đóng góp của Gensyn là nhận ra rằng sự phụ thuộc nặng nề của học tăng cường vào các rollout đa dạng—thay vì đồng bộ tham số chặt chẽ—làm nó phù hợp tự nhiên với kiến trúc phân tán có độ trễ và băng thông cao.
Nous Research xây dựng toàn bộ hệ thống dựa trên môi trường học tăng cường có thể xác minh Atropos, cung cấp tín hiệu thưởng xác định cho các nhiệm vụ như lập trình và toán học. Dòng họ Hermes của họ phản ánh quá trình chuyển đổi ngành: các phiên bản đầu )Hermes 1-3( dựa vào tối ưu sở thích trực tiếp và DPO để căn chỉnh hiệu quả, trong khi Hermes 4 tích hợp chuỗi suy nghĩ chậm, mở rộng thời gian thử nghiệm, và RL dựa trên GRPO. DeepHermes triển khai quá trình RL này trên mạng GPU phân tán Psyche, cho phép RL thời gian suy luận trên phần cứng phân tán đa dạng. Đổi mới then chốt là Atropos đóng vai trò như một trọng tài có thể xác minh trong mạng Psyche, xác nhận xem các nút có thực sự cải thiện chính sách hay không—một giải pháp nền tảng cho chứng minh có thể kiểm tra được của việc học. DisTrO, kỹ thuật nén gradient không phụ thuộc momentum của Nous, giảm chi phí truyền thông RL hàng trăm lần. Cùng nhau, các thành phần này hợp nhất dữ liệu sinh, xác minh, học và suy luận thành một vòng lặp tự cải thiện liên tục chạy trên các mạng GPU mở.
Gradient Network thiết kế khung Echo cho RL để tách rời suy luận và đào tạo thành các “đội” riêng biệt có thể mở rộng độc lập trên phần cứng không đồng bộ. Đội suy luận sử dụng song song pipeline để tối đa hóa throughput lấy mẫu trên GPU và thiết bị biên tiêu chuẩn. Đội đào tạo hoàn tất cập nhật gradient và đồng bộ tham số, có thể tập trung hoặc phân tán toàn cầu. Echo cung cấp hai giao thức đồng bộ—theo trình tự )ưu tiên dữ liệu mới nhất( và không đồng bộ )tối đa hóa hiệu quả(—cho phép quản lý nhất quán chính sách-dữ liệu trong mạng diện rộng. Bằng cách coi đào tạo và suy luận như các tác vụ độc lập, Echo đạt hiệu suất sử dụng thiết bị cao hơn so với các phương pháp truyền thống gây ra thất bại SPMD và tắc nghẽn.
Grail )trong hệ sinh thái Bittensor( qua Covenant AI áp dụng phương pháp cryptographic cho RL có thể xác minh. Sử dụng cơ chế đồng thuận Yuma của Bittensor làm nền tảng, Grail thiết lập chuỗi tin cậy qua việc tạo thách thức xác định )sử dụng các beacon ngẫu nhiên drand(, xác minh logprob cấp token, và liên kết danh tính mô hình qua dấu vân tay trọng số. Điều này cho phép các thợ mỏ tạo ra nhiều đường dẫn suy luận cho cùng một nhiệm vụ trong khi các validator chấm điểm kết quả dựa trên độ chính xác và chất lượng suy luận. Hệ thống đã chứng minh khả năng cải thiện đáng kể—Qwen2.5-1.5B từ 12.7% độ chính xác MATH lên 47.6% qua quá trình GRPO có thể xác minh—trong khi ngăn chặn các hành vi gian lận thưởng bằng các bằng chứng cryptographic rằng các rollout là thực sự và liên kết với danh tính mô hình cụ thể.
Fraction AI đã tiên phong một mô hình hoàn toàn khác: Reinforcement Learning từ cạnh tranh )RLFC(. Thay vì các mô hình thưởng tĩnh hoặc dữ liệu sở thích cố định của tối ưu sở thích trực tiếp, Fraction AI tạo ra các môi trường chơi game nơi các AI cạnh tranh lẫn nhau, với xếp hạng tương đối và điểm số của trọng tài AI động cung cấp tín hiệu thưởng liên tục. Các tác nhân trả phí để tham gia các “Spaces” )lĩnh vực nhiệm vụ( và nhận thưởng dựa trên thành tích. Người dùng đóng vai trò như các “meta-optimizer” hướng dẫn khám phá qua kỹ thuật prompt, trong khi các tác nhân tự động tạo ra các cặp sở thích qua cạnh tranh vi mô. Điều này biến việc chú thích dữ liệu từ lao động crowdsourcing thành một mô hình kinh doanh fine-tuning không tin cậy, trong đó các tín hiệu thưởng xuất phát từ các cạnh tranh chứ không phải các tiêu chí cố định.
Mỗi dự án chọn các điểm vào khác nhau—thuật toán, kỹ thuật hoặc thiết kế thị trường—nhưng đều hội tụ vào một kiến trúc nhất quán: tách rời rollout và học, xác minh cryptographic, và khuyến khích dựa trên token. Sự hội tụ này không phải ngẫu nhiên; nó phản ánh cách các mạng phân tán tất yếu thích nghi với các yêu cầu cấu trúc của học tăng cường.
Từ căn chỉnh tập trung đến căn chỉnh chủ quyền: Cơ hội
Cơ hội sâu nhất của RL phân tán vượt ra ngoài tối ưu kỹ thuật. Ngày nay, căn chỉnh AI diễn ra sau cánh cửa tại các phòng thí nghiệm lớn, nơi một số tổ chức quyết định các giá trị sẽ được mã hóa vào các hệ thống ngày càng mạnh mẽ hơn. RL phân tán cho phép “căn chỉnh chủ quyền,” nơi cộng đồng có thể bỏ phiếu bằng token để quyết định tập thể “kết quả tốt” cho mô hình của họ. Các sở thích và mô hình thưởng trở thành các tài sản dữ liệu trên chuỗi, có thể quản lý chứ không còn là bí mật sở hữu.
Các phương pháp sau đào tạo như tối ưu sở thích trực tiếp trở nên mạnh mẽ hơn nhiều trong bối cảnh này. Thay vì các công ty cẩn thận chọn lọc các bộ dữ liệu sở thích hạn chế, các mạng phân tán có thể khai thác các tín hiệu sở thích đa dạng, vô hạn từ cộng đồng toàn cầu. Các cộng đồng khác nhau có thể tối ưu cho các giá trị khác nhau—một số ưu tiên hữu ích, số khác ưu tiên vô hại, số khác nhấn mạnh sáng tạo. Thay vì một AI căn chỉnh theo kiểu “một kích cỡ phù hợp tất cả,” các hệ thống phân tán cho phép căn chỉnh đa nguyên, nơi các cộng đồng giữ quyền tự chủ.
Điều này cũng định hình lại kinh tế học. Sau đào tạo tạo ra giá trị qua khả năng lý luận cải thiện, căn chỉnh tốt hơn, khả năng nâng cao. Trong các hệ thống tập trung, giá trị này tập trung vào nền tảng. Trong các hệ thống phân tán, phân phối token có thể minh bạch thưởng cho các nhà đào tạo )cung cấp tính toán(, các căn chỉnh viên )cung cấp dữ liệu sở thích(, và người dùng )hưởng lợi từ hệ thống(— phân phối lại giá trị sản xuất trí tuệ ra ngoài các nền tảng tập trung tới các thành viên mạng đã tạo ra nó.
Thách thức và căng thẳng kéo dài
Dù có những lợi thế này, RL phân tán vẫn đối mặt với các giới hạn căn bản. Bức tường băng thông vẫn còn đó: đào tạo các mô hình siêu lớn )70B+ tham số( vẫn đòi hỏi đồng bộ mà độ trễ vật lý gây khó khăn. Các hệ thống AI Web3 hiện tại xuất sắc trong tinh chỉnh và suy luận nhưng gặp khó khăn với việc đào tạo đầy đủ các mô hình khổng lồ. DisTrO và các kỹ thuật nén truyền thông khác đang giảm bớt giới hạn này, nhưng nó vẫn là một thách thức cấu trúc chứ không chỉ là vấn đề kỹ thuật tạm thời.
Điều nguy hiểm hơn là Luật Goodhart trong hành động: khi thanh toán theo metric, metric đó không còn đo lường đúng thứ bạn muốn nữa. Trong các mạng có động lực, các thành viên tất yếu tối ưu hóa theo hàm thưởng chứ không phải trí tuệ thực sự. Việc gian lận thưởng—làm điểm, khai thác các trường hợp ngoại lệ, gian lận các chỉ số đánh giá—trở thành một cuộc chạy đua vũ trang không ngừng. Cuộc thi thực sự không nằm ở việc thiết kế các hàm thưởng hoàn hảo )bất khả thi mà ở việc xây dựng các cơ chế chống tấn công có khả năng tồn tại trước các cuộc tấn công tinh vi. Các cuộc tấn công Byzantine, nơi các tác nhân độc hại cố tình làm nhiễu tín hiệu đào tạo, càng làm phức tạp thách thức này.
Giải pháp đòi hỏi phải hiểu rằng tính bền vững không đến từ việc thiết kế quy tắc hoàn hảo mà từ cạnh tranh kinh tế. Khi nhiều tổ chức vận hành các nút xác minh, khi các validator bị trừng phạt vì xác nhận công việc sai, khi mạng thưởng cho việc phát hiện kẻ gian, tính bền vững chống tấn công trở thành một đặc tính nổi bật chứ không chỉ là tính năng được thiết kế.
Con đường phía trước: Ba hướng phát triển bổ sung
Tương lai của RL phân tán có khả năng phát triển theo ba hướng song song.
Đầu tiên là mở rộng thị trường suy luận có thể xác minh. Thay vì toàn bộ quy trình đào tạo, các hệ thống ngắn hạn sẽ tập trung vào phân phối RL thời gian suy luận và xác minh trên các mạng toàn cầu. Các nhiệm vụ như lý luận toán học, sinh mã, giải quyết vấn đề khoa học—nơi các đầu ra có thể xác minh một cách xác định—trở thành điểm tựa. Các giải pháp “nhỏ nhưng đẹp” này trực tiếp liên kết khả năng cải thiện với giá trị thu về, có khả năng vượt trội các mô hình tổng quát đóng nguồn mở trong lĩnh vực của chúng.
Thứ hai là tài sản hóa các sở thích và mô hình thưởng. Thay vì xem dữ liệu sở thích như lao động crowdsourcing tạm thời, các hệ thống phân tán có thể token hóa các phản hồi chất lượng cao và các mô hình thưởng như các tài sản dữ liệu có thể quản lý. Điều này biến việc chú thích thành các giao dịch cổ phần—các cộng tác viên sở hữu cổ phần trong các mô hình thưởng chính đang vận hành hệ thống mà họ giúp căn chỉnh.
Thứ ba là chuyên môn hóa các mạng RL con. Các mạng phân tán sẽ tiến hóa từ hạ tầng đào tạo chung thành các mạng con RL chuyên biệt tối ưu cho các nhiệm vụ cụ thể—thực thi chiến lược DeFi, sinh mã, khám phá khoa học, AI thể chất. Mỗi mạng con phát triển các cơ chế xác minh nhiệm vụ riêng, giá trị cộng đồng và kinh tế token. Cấu trúc meta trở nên ít hơn là “một OpenAI phân tán” và nhiều hơn là “hàng chục hợp tác xã trí tuệ chuyên biệt.”
Kết luận: Viết lại các quan hệ sản xuất trí tuệ
Sự kết hợp giữa học tăng cường và Web3 cuối cùng biểu thị một điều gì đó sâu sắc hơn nhiều so với tối ưu kỹ thuật. Nó viết lại các quan hệ nền tảng của sản xuất AI: cách trí tuệ được đào tạo, căn chỉnh và định giá.
Lần đầu tiên, có thể hình dung rằng đào tạo AI có thể hoạt động như một thị trường tính toán mở, nơi các GPU dài đuôi toàn cầu tham gia như các tác nhân kinh tế bình đẳng. Các sở thích và mô hình thưởng có thể biến thành các tài sản trên chuỗi, có thể quản lý chứ không còn là bí mật sở hữu. Giá trị tạo ra qua trí tuệ có thể phân phối cho các nhà đào tạo, căn chỉnh viên và người dùng thay vì tập trung trong các nền tảng trung tâm. Các kỹ thuật như tối ưu sở thích trực tiếp và các phương pháp sau đào tạo mới nổi là các công nghệ then chốt cho phép sự chuyển đổi này—không phải vì chúng hoàn hảo trong việc giải quyết căn chỉnh, mà vì chúng tách rời việc học khỏi sự tập trung và cho phép xác minh mà không cần tin tưởng.
Đây không phải là việc tạo ra một phiên bản phân tán của OpenAI. Cơ hội thực sự nằm ở việc tổ chức lại căn bản cách thức hoạt động của sản xuất trí tuệ: từ các phòng thí nghiệm doanh nghiệp đóng cửa sang các mạng kinh tế mở, nơi cộng đồng cùng nhau đào tạo, căn chỉnh và sở hữu các hệ thống mở rộng khả năng của họ.
Phân tích này dựa trên các mô hình nghiên cứu từ các nhóm hạ tầng AI Web3 hàng đầu, IOSG Ventures, Pantera Capital và các dự án mới nổi trong hệ sinh thái RL phân tán. Như mọi phân tích dự báo, nó mang tính phỏng đoán và tất nhiên có thể chứa các quan điểm và thiên kiến nhất định. Thị trường tiền mã hóa thường xuyên lệch pha giữa các yếu tố nền tảng dự án và hiệu suất giá thị trường thứ cấp. Nội dung này nhằm mục đích thông tin, học thuật và trao đổi nghiên cứu, không phải là lời khuyên đầu tư hoặc đề xuất mua bán bất kỳ token nào.