Chíp Zhōngxī lā Sīwéijiāsī 1月5日 báo cáo, vừa mới đây, nhà sáng lập kiêm CEO của Nvidia Huang Renxun đã có bài phát biểu chủ đề đầu tiên trong năm 2026 tại Triển lãm Điện tử Tiêu dùng Quốc tế CES 2026. Huang Renxun vẫn giữ phong cách mặc áo da, trong 1.5 giờ đã công bố liên tiếp 8 sản phẩm quan trọng, từ chip, khung máy đến thiết kế mạng, giới thiệu sâu về toàn bộ nền tảng thế hệ mới.
Trong lĩnh vực tính toán tăng tốc và hạ tầng AI, Nvidia ra mắt siêu máy tính NVIDIA Vera Rubin POD AI, thiết bị quang học gói chung Ethernet NVIDIA Spectrum-X, nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận NVIDIA, và hệ thống NVIDIA DGX SuperPOD dựa trên DGX Vera Rubin NVL72.
Vera Rubin POD của Nvidia sử dụng 6 chip tự phát triển của Nvidia, bao gồm CPU, GPU, Scale-up, Scale-out, khả năng lưu trữ và xử lý, tất cả đều thiết kế phối hợp, đáp ứng nhu cầu mô hình tiên tiến và giảm thiểu chi phí tính toán.
Trong đó, CPU Vera sử dụng kiến trúc lõi Olympus tùy chỉnh, GPU Rubin tích hợp động cơ Transformer, hiệu năng suy luận NBFP4 đạt tới 50PFLOPS, băng thông NVLink mỗi GPU lên tới 3.6TB/s, hỗ trợ tính toán bí mật chung thế hệ thứ ba (TEE cấp khung máy đầu tiên), thực hiện môi trường thực thi đáng tin cậy toàn diện giữa CPU và GPU.
Các chip này đã được gửi về mạch, Nvidia đã xác nhận toàn bộ hệ thống NVIDIA Vera Rubin NVL72 đã được kiểm thử, các đối tác cũng bắt đầu vận hành các mô hình AI và thuật toán tích hợp nội bộ, toàn bộ hệ sinh thái đang chuẩn bị cho việc triển khai Vera Rubin.
Trong các sản phẩm khác, thiết bị quang học Ethernet gói chung Spectrum-X của Nvidia tối ưu hóa rõ rệt hiệu quả năng lượng và thời gian hoạt động bình thường của ứng dụng; nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận của Nvidia định nghĩa lại lớp lưu trữ, giảm thiểu tính toán lặp lại và nâng cao hiệu quả suy luận; hệ thống NVIDIA DGX SuperPOD dựa trên DGX Vera Rubin NVL72 giảm chi phí token của các mô hình MoE lớn xuống còn 1/10.
Về mô hình mở, Nvidia công bố mở rộng toàn bộ bộ mô hình nguồn mở, ra mắt các mô hình mới, bộ dữ liệu và thư viện, bao gồm dòng mô hình mã nguồn mở NVIDIA Nemotron với các mô hình Agentic RAG, mô hình an toàn, mô hình giọng nói, và cũng phát hành mô hình mở hoàn toàn mới dành cho tất cả các loại robot. Tuy nhiên, Huang Renxun không đi vào chi tiết trong bài phát biểu.
Về AI vật lý, thời điểm ChatGPT của AI vật lý đã đến, công nghệ toàn diện của Nvidia cho phép hệ sinh thái toàn cầu thay đổi ngành công nghiệp qua robot AI điều khiển; thư viện công cụ AI rộng rãi của Nvidia, bao gồm bộ mô hình mã nguồn mở Alpamayo mới, giúp ngành vận tải toàn cầu nhanh chóng đạt được L4 an toàn; nền tảng tự lái NVIDIA DRIVE đã đi vào sản xuất, trang bị trên tất cả các mẫu Mercedes-Benz CLA mới, dùng cho lái xe AI cấp L2++.
01. Siêu máy tính AI mới: 6 chip tự phát triển, công suất tính toán đạt 3.6EFLOPS
Huang Renxun cho rằng, cứ mỗi 10 đến 15 năm, ngành công nghiệp máy tính lại trải qua một cuộc tái cấu trúc toàn diện, nhưng lần này, hai cuộc cách mạng nền tảng cùng diễn ra, từ CPU đến GPU, từ “phần mềm lập trình” đến “phần mềm huấn luyện”, tính toán tăng tốc và AI đã tái cấu trúc toàn bộ hệ thống tính toán. Ngành công nghiệp tính toán trị giá 10 nghìn tỷ USD trong thập kỷ qua đang trải qua một cuộc hiện đại hóa.
Trong khi đó, nhu cầu về sức mạnh tính toán cũng tăng vọt. Kích thước mô hình mỗi năm tăng gấp 10 lần, số token dùng để suy nghĩ của mô hình mỗi năm tăng gấp 5 lần, còn giá mỗi token giảm 10 lần mỗi năm.
Để đáp ứng nhu cầu này, Nvidia quyết định mỗi năm đều phát hành phần cứng tính toán mới. Huang Renxun tiết lộ, hiện Vera Rubin cũng đã bắt đầu sản xuất toàn diện.
Siêu máy tính AI mới của Nvidia, NVIDIA Vera Rubin POD, sử dụng 6 chip tự phát triển: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 (CX9) mạng thông minh, BlueField-4 DPU, Spectrum-X 102.4T CPO.
Vera CPU: Thiết kế dành cho di chuyển dữ liệu và xử lý tác nhân, sở hữu 88 lõi Olympus tùy chỉnh của Nvidia, 176 luồng đa luồng không gian của Nvidia, băng thông NVLink-C2C 1.8TB/s hỗ trợ bộ nhớ thống nhất CPU:GPU, bộ nhớ hệ thống đạt 1.5TB (gấp 3 lần của Grace CPU), băng thông bộ nhớ LPDDR5X của SOCAMM là 1.2TB/s, hỗ trợ tính toán bí mật cấp khung máy, hiệu năng xử lý dữ liệu tăng gấp đôi.
Rubin GPU: Tích hợp động cơ Transformer, hiệu năng suy luận NVFP4 đạt tới 50PFLOPS, gấp 5 lần GPU Blackwell, tương thích ngược, giữ nguyên độ chính xác suy luận, nâng cao hiệu suất BF16/FP4; hiệu năng huấn luyện NVFP4 đạt 35PFLOPS, gấp 3.5 lần Blackwell.
Rubin cũng là nền tảng đầu tiên hỗ trợ HBM4, băng thông HBM4 đạt 22TB/s, gấp 2.8 lần thế hệ trước, cung cấp hiệu suất cần thiết cho các mô hình MoE khắt khe và tải công việc AI.
NVLink 6 Switch: Tốc độ đường đơn nâng lên 400Gbps, sử dụng công nghệ SerDes để truyền tín hiệu tốc độ cao; mỗi GPU có thể đạt 3.6TB/s băng thông liên kết toàn diện, gấp đôi thế hệ trước, tổng băng thông đạt 28.8TB/s, hiệu năng tính toán trong mạng FP8 đạt 14.4TFLOPS, hỗ trợ làm mát bằng chất lỏng 100%.
NVIDIA ConnectX-9 SuperNIC: Mỗi GPU cung cấp băng thông 1.6Tb/s, tối ưu cho AI quy mô lớn, có khả năng định nghĩa phần mềm hoàn toàn, lập trình được, tăng tốc đường dữ liệu.
NVIDIA BlueField-4: DPU 800Gbps, dùng cho mạng thông minh và bộ xử lý lưu trữ, trang bị CPU Grace 64 nhân, kết hợp với ConnectX-9 SuperNIC, để giảm tải các tác vụ liên quan đến mạng và lưu trữ, đồng thời nâng cao khả năng bảo mật mạng, hiệu năng tính toán gấp 6 lần thế hệ trước, băng thông bộ nhớ gấp 3 lần, tốc độ truy cập dữ liệu của GPU tăng gấp 2 lần.
NVIDIA Vera Rubin NVL72: Tích hợp tất cả các thành phần trên thành hệ thống xử lý khung máy đơn, có 2 nghìn tỷ bóng bán dẫn, hiệu năng suy luận NVFP4 đạt 3.6EFLOPS, hiệu năng huấn luyện NVFP4 đạt 2.5EFLOPS.
Dung lượng bộ nhớ LPDDR5X của hệ thống đạt 54TB, gấp 2.5 lần thế hệ trước; tổng bộ nhớ HBM4 đạt 20.7TB, gấp 1.5 lần; băng thông HBM4 là 1.6PB/s, gấp 2.8 lần; tổng băng thông mở rộng theo chiều dọc đạt 260TB/s, vượt xa tổng băng thông của internet toàn cầu.
Hệ thống này dựa trên thiết kế khung máy MGX thế hệ thứ ba, khay tính toán theo mô-đun, không chủ hệ thống, không cáp, không quạt, giúp lắp ráp và bảo trì nhanh hơn 18 lần so với GB200. Công việc lắp ráp ban đầu mất 2 giờ, nay chỉ còn khoảng 5 phút, trong khi hệ thống trước đó sử dụng khoảng 80% làm mát bằng chất lỏng, nay đã hoàn toàn dùng làm mát bằng chất lỏng. Một hệ thống đơn nặng tới 2 tấn, cộng thêm dung dịch làm mát, tổng trọng lượng đạt 2.5 tấn.
Khay NVLink Switch có thể thực hiện bảo trì không gián đoạn và chịu lỗi, khi tháo rời hoặc triển khai một phần khay, khung máy vẫn hoạt động. Động cơ RAS thế hệ thứ hai có thể kiểm tra trạng thái hoạt động không gián đoạn.
Các đặc tính này nâng cao thời gian hoạt động và khả năng xử lý của hệ thống, giảm thiểu chi phí huấn luyện và suy luận, đáp ứng yêu cầu độ tin cậy cao và dễ bảo trì của trung tâm dữ liệu.
Hơn 80 đối tác của MGX đã sẵn sàng hỗ trợ triển khai Rubin NVL72 trong mạng lưới quy mô lớn.
02. Ba sản phẩm mới đột phá hiệu quả suy luận AI: thiết bị CPO mới, lớp lưu trữ ngữ cảnh mới, DGX SuperPOD dựa trên Vera Rubin NVL72
Cùng lúc, Nvidia ra mắt 3 sản phẩm quan trọng: thiết bị quang học Ethernet gói chung Spectrum-X, nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận, và hệ thống NVIDIA DGX SuperPOD dựa trên DGX Vera Rubin NVL72.
1. NVIDIA Spectrum-X thiết bị quang học Ethernet gói chung
Thiết bị quang học Ethernet Spectrum-X của Nvidia dựa trên kiến trúc Spectrum-X, sử dụng thiết kế 2 chip, công nghệ SerDes 200Gbps, mỗi ASIC cung cấp băng thông 102.4Tb/s.
Nền tảng chuyển mạch này gồm một hệ thống 512 cổng mật độ cao và một hệ thống 128 cổng nhỏ gọn, mỗi cổng có tốc độ 800Gb/s.
Hệ thống chuyển mạch CPO (quang học gói chung) có thể nâng cao hiệu quả năng lượng gấp 5 lần, độ tin cậy gấp 10 lần, thời gian hoạt động bình thường của ứng dụng gấp 5 lần.
Điều này có nghĩa là mỗi ngày xử lý được nhiều token hơn, từ đó giảm tổng chi phí sở hữu (TCO) của trung tâm dữ liệu.
2. Nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận của Nvidia
Nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận của Nvidia là hạ tầng lưu trữ AI gốc POD, dùng để lưu trữ KV Cache, dựa trên BlueField-4 và Spectrum-X Ethernet tăng tốc, liên kết chặt chẽ với Nvidia Dynamo và NVLink, thực hiện phối hợp điều phối ngữ cảnh giữa bộ nhớ, lưu trữ và mạng.
Nền tảng này xử lý ngữ cảnh như một loại dữ liệu hàng đầu, có thể đạt hiệu suất suy luận gấp 5 lần, hiệu quả năng lượng tốt hơn gấp 5 lần.
Điều này cực kỳ quan trọng để cải thiện các ứng dụng hội thoại nhiều vòng, RAG, suy luận đa bước Agentic, các tải công việc dài dựa trên ngữ cảnh, vốn phụ thuộc lớn vào khả năng lưu trữ, tái sử dụng và chia sẻ ngữ cảnh trong toàn hệ thống.
AI đang tiến tới từ chatbot sang Agentic AI (trí tuệ nhân tạo tác nhân), có khả năng suy luận, gọi công cụ và duy trì trạng thái lâu dài, cửa sổ ngữ cảnh đã mở rộng tới hàng triệu token. Các ngữ cảnh này được lưu trữ trong KV Cache, mỗi bước tính lại gây lãng phí thời gian GPU và tạo ra độ trễ lớn, do đó cần phải lưu trữ.
Tuy nhiên, bộ nhớ GPU nhanh nhưng khan hiếm, lưu trữ mạng truyền thống quá kém hiệu quả cho ngữ cảnh ngắn hạn. Bị giới hạn bởi hiệu suất suy luận AI, cần một lớp bộ nhớ mới tối ưu cho suy luận, nằm giữa GPU và bộ nhớ lưu trữ.
Lớp này không còn là miếng vá sau, mà phải thiết kế phối hợp cùng lưu trữ mạng để di chuyển dữ liệu ngữ cảnh với chi phí thấp nhất.
Lớp lưu trữ mới này, nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận của Nvidia, không tồn tại trực tiếp trong hệ thống chủ, mà kết nối qua BlueField-4 tới thiết bị tính toán bên ngoài. Ưu điểm chính là mở rộng quy mô kho lưu trữ hiệu quả hơn, tránh tính toán lặp lại KV Cache.
Nvidia đang hợp tác chặt chẽ với các đối tác lưu trữ để đưa nền tảng này vào hệ sinh thái Rubin, giúp khách hàng triển khai như một phần của hạ tầng AI tích hợp hoàn chỉnh.
3. DGX SuperPOD dựa trên Vera Rubin xây dựng từ Vera Rubin
Ở cấp hệ thống, NVIDIA DGX SuperPOD là bản thiết kế cho nhà máy AI quy mô lớn, sử dụng 8 hệ thống DGX Vera Rubin NVL72, mạng mở rộng theo chiều dọc NVLink 6, mạng mở rộng theo chiều ngang Spectrum-X Ethernet, tích hợp nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận, đã qua kiểm thử kỹ lưỡng.
Toàn bộ hệ thống được quản lý bằng phần mềm NVIDIA Mission Control, tối ưu hóa hiệu quả. Khách hàng có thể triển khai như một nền tảng chìa khóa trao tay, hoàn thành huấn luyện và suy luận với ít GPU hơn.
Nhờ thiết kế tối ưu về 6 chip, khay, khung máy, Pod, trung tâm dữ liệu và phần mềm, nền tảng Rubin đã giảm đáng kể chi phí huấn luyện và suy luận. So với Blackwell thế hệ trước, huấn luyện cùng quy mô MoE chỉ cần 1/4 số GPU; cùng độ trễ, chi phí token của mô hình MoE lớn giảm còn 1/10.
Nvidia cũng ra mắt hệ thống NVIDIA DGX SuperPOD sử dụng DGX Rubin NVL8.
Dựa trên kiến trúc Vera Rubin, Nvidia cùng các đối tác và khách hàng đang xây dựng hệ thống AI quy mô lớn nhất, tiên tiến nhất, chi phí thấp nhất thế giới, thúc đẩy AI trở thành xu hướng chính.
Hạ tầng Rubin sẽ được cung cấp trong nửa cuối năm nay qua CSP và các nhà tích hợp hệ thống, Microsoft cùng các công ty đầu tiên sẽ triển khai.
03. Mở rộng vũ trụ mô hình nguồn mở: đóng góp quan trọng của các mô hình, dữ liệu, hệ sinh thái mã nguồn mở mới
Về phần phần mềm và mô hình, Nvidia tiếp tục đẩy mạnh đầu tư mã nguồn mở.
Các nền tảng phát triển chính như OpenRouter cho thấy, trong năm qua, số lượng mô hình AI sử dụng đã tăng 20 lần, trong đó khoảng 1/4 token đến từ các mô hình nguồn mở.
Năm 2025, Nvidia là nhà đóng góp lớn nhất cho các mô hình, dữ liệu và công thức nguồn mở trên Hugging Face, phát hành 650 mô hình nguồn mở và 250 bộ dữ liệu mở.
Các mô hình nguồn mở của Nvidia đứng đầu nhiều bảng xếp hạng. Các nhà phát triển không chỉ có thể sử dụng các mô hình này, mà còn học hỏi, huấn luyện liên tục, mở rộng bộ dữ liệu, và xây dựng hệ thống AI bằng các công cụ mã nguồn mở và kỹ thuật có tài liệu rõ ràng.
Lấy cảm hứng từ Perplexity, Huang Renxun nhận thấy, Agents nên là đa mô hình, đa đám mây và lai, đây cũng là kiến trúc cơ bản của hệ thống Agentic AI, gần như tất cả các công ty khởi nghiệp đều đang áp dụng.
Nhờ các mô hình và công cụ mã nguồn mở của Nvidia, các nhà phát triển giờ đây có thể tùy biến hệ thống AI, sử dụng các mô hình tiên tiến nhất. Hiện tại, Nvidia đã tích hợp các khung này thành “bản thiết kế” và đưa vào nền tảng SaaS. Người dùng có thể triển khai nhanh chóng nhờ bản thiết kế này.
Trong các demo trực tiếp, hệ thống này có thể tự động xác định xem nhiệm vụ nên do mô hình riêng tư cục bộ hay mô hình đỉnh đám mây xử lý, cũng có thể gọi các công cụ bên ngoài (như API email, giao diện điều khiển robot, dịch vụ lịch), và thực hiện hợp nhất đa phương thức, xử lý đồng bộ văn bản, giọng nói, hình ảnh, tín hiệu cảm biến robot.
Những khả năng phức tạp này trước đây không thể tưởng tượng nổi, nhưng giờ đã trở nên rất đơn giản. Trên các nền tảng doanh nghiệp như ServiceNow, Snowflake, đều có thể sử dụng các khả năng tương tự.
04. Mô hình Alpha-Mayo mã nguồn mở, “suy nghĩ” cho ô tô tự lái
Nvidia tin rằng AI vật lý và robot cuối cùng sẽ trở thành phân khúc tiêu dùng lớn nhất toàn cầu. Tất cả các vật thể có thể di chuyển cuối cùng sẽ tự chủ hoàn toàn, do AI vật lý điều khiển.
AI đã trải qua các giai đoạn cảm nhận AI, AI tạo sinh, AI tác nhân, và hiện đang bước vào kỷ nguyên AI vật lý, trí tuệ trong thế giới thực, các mô hình này có thể hiểu quy luật vật lý, và trực tiếp sinh hành động từ cảm nhận thế giới vật lý.
Để đạt được mục tiêu này, AI vật lý phải học các kiến thức phổ quát của thế giới — vật thể tồn tại vĩnh viễn, trọng lực, ma sát. Việc học các khả năng này sẽ dựa vào ba máy tính: máy huấn luyện (DGX) để tạo mô hình AI, máy suy luận (ô tô/ chip trên xe) để thực thi thời gian thực, máy mô phỏng (Omniverse) để tạo dữ liệu tổng hợp, xác minh logic vật lý.
Trong đó, mô hình cốt lõi là Cosmos, mô hình nền tảng thế giới, liên kết ngôn ngữ, hình ảnh, 3D và quy luật vật lý, hỗ trợ toàn bộ chuỗi tạo dữ liệu huấn luyện từ mô phỏng.
AI vật lý sẽ xuất hiện trong ba loại thực thể: nhà xưởng (như nhà máy, kho), robot, ô tô tự lái.
Huang Renxun cho rằng, lái xe tự động sẽ là ứng dụng quy mô lớn đầu tiên của AI vật lý. Các hệ thống này cần hiểu thế giới thực, ra quyết định và thực thi hành động, yêu cầu cao về an toàn, mô phỏng và dữ liệu.
Vì vậy, Nvidia ra mắt Alpha-Mayo, một hệ thống hoàn chỉnh gồm mô hình mã nguồn mở, công cụ mô phỏng và bộ dữ liệu AI vật lý, nhằm thúc đẩy phát triển AI vật lý dựa trên suy luận an toàn, có nguồn gốc mở.
Sản phẩm này cung cấp các mô-đun nền tảng cho các hãng xe toàn cầu, nhà cung cấp, startup và nhà nghiên cứu xây dựng hệ thống tự lái cấp L4.
Alpha-Mayo là mô hình “suy nghĩ” thực sự đầu tiên dành cho ô tô tự lái trong ngành, đã được mở mã nguồn. Nó phân tích vấn đề thành các bước, suy luận tất cả các khả năng, chọn ra con đường an toàn nhất.
Mô hình suy luận hành động-đề xuất này giúp hệ thống tự lái giải quyết các tình huống phức tạp chưa từng gặp, như đèn giao thông hỏng tại ngã tư đông đúc.
Alpha-Mayo có 100 tỷ tham số, đủ lớn để xử lý các nhiệm vụ tự lái, đồng thời nhẹ đủ để chạy trên các trạm làm việc dành riêng cho nghiên cứu ô tô tự lái.
Nó có thể nhận đầu vào là văn bản, camera toàn cảnh, trạng thái xe cũ và dữ liệu định hướng, và xuất ra quỹ đạo di chuyển cùng quá trình suy luận, giúp hành khách hiểu lý do xe thực hiện hành động.
Trong đoạn phim trình diễn trực tiếp, dưới sự điều khiển của Alpha-Mayo, ô tô tự lái có thể tự chủ tránh người đi bộ, dự đoán xe rẽ trái và chuyển làn để tránh.
Huang Renxun nói rằng, Mercedes-Benz CLA trang bị Alpha-Mayo đã bắt đầu sản xuất, và vừa được NCAP xếp hạng là xe an toàn nhất thế giới. Tất cả mã, chip, hệ thống đều đã qua chứng nhận an toàn. Hệ thống này sẽ ra mắt tại thị trường Mỹ, và trong cuối năm nay sẽ có khả năng lái xe tự động nâng cao, bao gồm tự lái không cần tay trên cao tốc, và tự lái toàn diện trong đô thị.
Nvidia cũng phát hành một số bộ dữ liệu huấn luyện Alpha-Mayo, khung mô phỏng đánh giá mô hình suy luận mã nguồn mở Alpha-Sim. Các nhà phát triển có thể dùng dữ liệu của riêng mình để tinh chỉnh Alpha-Mayo, hoặc dùng Cosmos để tạo dữ liệu tổng hợp, và dựa trên dữ liệu thật kết hợp dữ liệu tổng hợp để huấn luyện và thử nghiệm ứng dụng tự lái. Ngoài ra, Nvidia công bố nền tảng NVIDIA DRIVE đã đi vào sản xuất.
Nvidia tuyên bố, các doanh nghiệp robot hàng đầu toàn cầu như Boston Dynamics, Franka Robotics, robot phẫu thuật Surgical, LG Electronics, NEURA, XRLabs, robot trí tuệ nhân tạo Zhì Yuán đều dựa trên NVIDIA Isaac và GR00T.
Huang Renxun cũng chính thức công bố hợp tác mới nhất với Siemens. Siemens đang tích hợp CUDA-X, mô hình AI và Omniverse của Nvidia vào bộ công cụ và nền tảng EDA, CAE, Digital Twin của họ. AI vật lý sẽ được ứng dụng rộng rãi trong toàn bộ quy trình thiết kế, mô phỏng, sản xuất và vận hành.
05. Kết luận: Nắm bắt nguồn mở bên trái, làm hệ thống phần cứng không thể thay thế bên phải
Khi hạ tầng AI chuyển trọng tâm từ huấn luyện sang suy luận quy mô lớn, cạnh tranh nền tảng đã chuyển từ điểm mạnh tính toán đơn điểm sang hệ thống kỹ thuật bao gồm chip, khung máy, mạng và phần mềm, mục tiêu là tối thiểu hóa TCO để đạt tối đa throughput suy luận, AI bước vào giai đoạn “vận hành nhà máy”.
Nvidia rất chú trọng thiết kế hệ thống cấp cao, Rubin đồng thời nâng cao hiệu năng và kinh tế trong huấn luyện và suy luận, có thể thay thế Blackwell một cách dễ dàng, tích hợp liền mạch từ Blackwell.
Về định hướng nền tảng, Nvidia vẫn coi huấn luyện là then chốt, vì chỉ khi huấn luyện nhanh ra các mô hình tiên tiến nhất, nền tảng suy luận mới thực sự hưởng lợi, do đó trong GPU Rubin đã đưa NVFP4 vào huấn luyện, nâng cao hiệu năng và giảm TCO.
Cùng lúc, gã khổng lồ tính toán AI này liên tục mở rộng theo chiều dọc và chiều ngang, tăng cường khả năng truyền thông mạng, và xem ngữ cảnh là điểm nghẽn chính, thực hiện thiết kế phối hợp giữa lưu trữ, mạng và tính toán.
Nvidia vừa mở nguồn mã rộng rãi, vừa làm phần cứng, liên kết, thiết kế hệ thống ngày càng “không thể thay thế”, chiến lược mở rộng liên tục này, thúc đẩy tiêu thụ token, mở rộng quy mô suy luận, cung cấp hạ tầng hiệu suất cao, đang xây dựng cho Nvidia một rào cản cạnh tranh vững chắc hơn bao giờ hết.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Huang Renxun 1.5 giờ liên tiếp công bố 8 sản phẩm mới, Nvidia đặt cược toàn lực vào AI suy luận và AI vật lý
Tác giả | ZeR0 骏达, Zhì Dōngxi
Biên tập | Mò Yǐng
Chíp Zhōngxī lā Sīwéijiāsī 1月5日 báo cáo, vừa mới đây, nhà sáng lập kiêm CEO của Nvidia Huang Renxun đã có bài phát biểu chủ đề đầu tiên trong năm 2026 tại Triển lãm Điện tử Tiêu dùng Quốc tế CES 2026. Huang Renxun vẫn giữ phong cách mặc áo da, trong 1.5 giờ đã công bố liên tiếp 8 sản phẩm quan trọng, từ chip, khung máy đến thiết kế mạng, giới thiệu sâu về toàn bộ nền tảng thế hệ mới.
Trong lĩnh vực tính toán tăng tốc và hạ tầng AI, Nvidia ra mắt siêu máy tính NVIDIA Vera Rubin POD AI, thiết bị quang học gói chung Ethernet NVIDIA Spectrum-X, nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận NVIDIA, và hệ thống NVIDIA DGX SuperPOD dựa trên DGX Vera Rubin NVL72.
Vera Rubin POD của Nvidia sử dụng 6 chip tự phát triển của Nvidia, bao gồm CPU, GPU, Scale-up, Scale-out, khả năng lưu trữ và xử lý, tất cả đều thiết kế phối hợp, đáp ứng nhu cầu mô hình tiên tiến và giảm thiểu chi phí tính toán.
Trong đó, CPU Vera sử dụng kiến trúc lõi Olympus tùy chỉnh, GPU Rubin tích hợp động cơ Transformer, hiệu năng suy luận NBFP4 đạt tới 50PFLOPS, băng thông NVLink mỗi GPU lên tới 3.6TB/s, hỗ trợ tính toán bí mật chung thế hệ thứ ba (TEE cấp khung máy đầu tiên), thực hiện môi trường thực thi đáng tin cậy toàn diện giữa CPU và GPU.
Các chip này đã được gửi về mạch, Nvidia đã xác nhận toàn bộ hệ thống NVIDIA Vera Rubin NVL72 đã được kiểm thử, các đối tác cũng bắt đầu vận hành các mô hình AI và thuật toán tích hợp nội bộ, toàn bộ hệ sinh thái đang chuẩn bị cho việc triển khai Vera Rubin.
Trong các sản phẩm khác, thiết bị quang học Ethernet gói chung Spectrum-X của Nvidia tối ưu hóa rõ rệt hiệu quả năng lượng và thời gian hoạt động bình thường của ứng dụng; nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận của Nvidia định nghĩa lại lớp lưu trữ, giảm thiểu tính toán lặp lại và nâng cao hiệu quả suy luận; hệ thống NVIDIA DGX SuperPOD dựa trên DGX Vera Rubin NVL72 giảm chi phí token của các mô hình MoE lớn xuống còn 1/10.
Về mô hình mở, Nvidia công bố mở rộng toàn bộ bộ mô hình nguồn mở, ra mắt các mô hình mới, bộ dữ liệu và thư viện, bao gồm dòng mô hình mã nguồn mở NVIDIA Nemotron với các mô hình Agentic RAG, mô hình an toàn, mô hình giọng nói, và cũng phát hành mô hình mở hoàn toàn mới dành cho tất cả các loại robot. Tuy nhiên, Huang Renxun không đi vào chi tiết trong bài phát biểu.
Về AI vật lý, thời điểm ChatGPT của AI vật lý đã đến, công nghệ toàn diện của Nvidia cho phép hệ sinh thái toàn cầu thay đổi ngành công nghiệp qua robot AI điều khiển; thư viện công cụ AI rộng rãi của Nvidia, bao gồm bộ mô hình mã nguồn mở Alpamayo mới, giúp ngành vận tải toàn cầu nhanh chóng đạt được L4 an toàn; nền tảng tự lái NVIDIA DRIVE đã đi vào sản xuất, trang bị trên tất cả các mẫu Mercedes-Benz CLA mới, dùng cho lái xe AI cấp L2++.
01. Siêu máy tính AI mới: 6 chip tự phát triển, công suất tính toán đạt 3.6EFLOPS
Huang Renxun cho rằng, cứ mỗi 10 đến 15 năm, ngành công nghiệp máy tính lại trải qua một cuộc tái cấu trúc toàn diện, nhưng lần này, hai cuộc cách mạng nền tảng cùng diễn ra, từ CPU đến GPU, từ “phần mềm lập trình” đến “phần mềm huấn luyện”, tính toán tăng tốc và AI đã tái cấu trúc toàn bộ hệ thống tính toán. Ngành công nghiệp tính toán trị giá 10 nghìn tỷ USD trong thập kỷ qua đang trải qua một cuộc hiện đại hóa.
Trong khi đó, nhu cầu về sức mạnh tính toán cũng tăng vọt. Kích thước mô hình mỗi năm tăng gấp 10 lần, số token dùng để suy nghĩ của mô hình mỗi năm tăng gấp 5 lần, còn giá mỗi token giảm 10 lần mỗi năm.
Để đáp ứng nhu cầu này, Nvidia quyết định mỗi năm đều phát hành phần cứng tính toán mới. Huang Renxun tiết lộ, hiện Vera Rubin cũng đã bắt đầu sản xuất toàn diện.
Siêu máy tính AI mới của Nvidia, NVIDIA Vera Rubin POD, sử dụng 6 chip tự phát triển: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 (CX9) mạng thông minh, BlueField-4 DPU, Spectrum-X 102.4T CPO.
Vera CPU: Thiết kế dành cho di chuyển dữ liệu và xử lý tác nhân, sở hữu 88 lõi Olympus tùy chỉnh của Nvidia, 176 luồng đa luồng không gian của Nvidia, băng thông NVLink-C2C 1.8TB/s hỗ trợ bộ nhớ thống nhất CPU:GPU, bộ nhớ hệ thống đạt 1.5TB (gấp 3 lần của Grace CPU), băng thông bộ nhớ LPDDR5X của SOCAMM là 1.2TB/s, hỗ trợ tính toán bí mật cấp khung máy, hiệu năng xử lý dữ liệu tăng gấp đôi.
Rubin GPU: Tích hợp động cơ Transformer, hiệu năng suy luận NVFP4 đạt tới 50PFLOPS, gấp 5 lần GPU Blackwell, tương thích ngược, giữ nguyên độ chính xác suy luận, nâng cao hiệu suất BF16/FP4; hiệu năng huấn luyện NVFP4 đạt 35PFLOPS, gấp 3.5 lần Blackwell.
Rubin cũng là nền tảng đầu tiên hỗ trợ HBM4, băng thông HBM4 đạt 22TB/s, gấp 2.8 lần thế hệ trước, cung cấp hiệu suất cần thiết cho các mô hình MoE khắt khe và tải công việc AI.
NVLink 6 Switch: Tốc độ đường đơn nâng lên 400Gbps, sử dụng công nghệ SerDes để truyền tín hiệu tốc độ cao; mỗi GPU có thể đạt 3.6TB/s băng thông liên kết toàn diện, gấp đôi thế hệ trước, tổng băng thông đạt 28.8TB/s, hiệu năng tính toán trong mạng FP8 đạt 14.4TFLOPS, hỗ trợ làm mát bằng chất lỏng 100%.
NVIDIA ConnectX-9 SuperNIC: Mỗi GPU cung cấp băng thông 1.6Tb/s, tối ưu cho AI quy mô lớn, có khả năng định nghĩa phần mềm hoàn toàn, lập trình được, tăng tốc đường dữ liệu.
NVIDIA BlueField-4: DPU 800Gbps, dùng cho mạng thông minh và bộ xử lý lưu trữ, trang bị CPU Grace 64 nhân, kết hợp với ConnectX-9 SuperNIC, để giảm tải các tác vụ liên quan đến mạng và lưu trữ, đồng thời nâng cao khả năng bảo mật mạng, hiệu năng tính toán gấp 6 lần thế hệ trước, băng thông bộ nhớ gấp 3 lần, tốc độ truy cập dữ liệu của GPU tăng gấp 2 lần.
NVIDIA Vera Rubin NVL72: Tích hợp tất cả các thành phần trên thành hệ thống xử lý khung máy đơn, có 2 nghìn tỷ bóng bán dẫn, hiệu năng suy luận NVFP4 đạt 3.6EFLOPS, hiệu năng huấn luyện NVFP4 đạt 2.5EFLOPS.
Dung lượng bộ nhớ LPDDR5X của hệ thống đạt 54TB, gấp 2.5 lần thế hệ trước; tổng bộ nhớ HBM4 đạt 20.7TB, gấp 1.5 lần; băng thông HBM4 là 1.6PB/s, gấp 2.8 lần; tổng băng thông mở rộng theo chiều dọc đạt 260TB/s, vượt xa tổng băng thông của internet toàn cầu.
Hệ thống này dựa trên thiết kế khung máy MGX thế hệ thứ ba, khay tính toán theo mô-đun, không chủ hệ thống, không cáp, không quạt, giúp lắp ráp và bảo trì nhanh hơn 18 lần so với GB200. Công việc lắp ráp ban đầu mất 2 giờ, nay chỉ còn khoảng 5 phút, trong khi hệ thống trước đó sử dụng khoảng 80% làm mát bằng chất lỏng, nay đã hoàn toàn dùng làm mát bằng chất lỏng. Một hệ thống đơn nặng tới 2 tấn, cộng thêm dung dịch làm mát, tổng trọng lượng đạt 2.5 tấn.
Khay NVLink Switch có thể thực hiện bảo trì không gián đoạn và chịu lỗi, khi tháo rời hoặc triển khai một phần khay, khung máy vẫn hoạt động. Động cơ RAS thế hệ thứ hai có thể kiểm tra trạng thái hoạt động không gián đoạn.
Các đặc tính này nâng cao thời gian hoạt động và khả năng xử lý của hệ thống, giảm thiểu chi phí huấn luyện và suy luận, đáp ứng yêu cầu độ tin cậy cao và dễ bảo trì của trung tâm dữ liệu.
Hơn 80 đối tác của MGX đã sẵn sàng hỗ trợ triển khai Rubin NVL72 trong mạng lưới quy mô lớn.
02. Ba sản phẩm mới đột phá hiệu quả suy luận AI: thiết bị CPO mới, lớp lưu trữ ngữ cảnh mới, DGX SuperPOD dựa trên Vera Rubin NVL72
Cùng lúc, Nvidia ra mắt 3 sản phẩm quan trọng: thiết bị quang học Ethernet gói chung Spectrum-X, nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận, và hệ thống NVIDIA DGX SuperPOD dựa trên DGX Vera Rubin NVL72.
1. NVIDIA Spectrum-X thiết bị quang học Ethernet gói chung
Thiết bị quang học Ethernet Spectrum-X của Nvidia dựa trên kiến trúc Spectrum-X, sử dụng thiết kế 2 chip, công nghệ SerDes 200Gbps, mỗi ASIC cung cấp băng thông 102.4Tb/s.
Nền tảng chuyển mạch này gồm một hệ thống 512 cổng mật độ cao và một hệ thống 128 cổng nhỏ gọn, mỗi cổng có tốc độ 800Gb/s.
Hệ thống chuyển mạch CPO (quang học gói chung) có thể nâng cao hiệu quả năng lượng gấp 5 lần, độ tin cậy gấp 10 lần, thời gian hoạt động bình thường của ứng dụng gấp 5 lần.
Điều này có nghĩa là mỗi ngày xử lý được nhiều token hơn, từ đó giảm tổng chi phí sở hữu (TCO) của trung tâm dữ liệu.
2. Nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận của Nvidia
Nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận của Nvidia là hạ tầng lưu trữ AI gốc POD, dùng để lưu trữ KV Cache, dựa trên BlueField-4 và Spectrum-X Ethernet tăng tốc, liên kết chặt chẽ với Nvidia Dynamo và NVLink, thực hiện phối hợp điều phối ngữ cảnh giữa bộ nhớ, lưu trữ và mạng.
Nền tảng này xử lý ngữ cảnh như một loại dữ liệu hàng đầu, có thể đạt hiệu suất suy luận gấp 5 lần, hiệu quả năng lượng tốt hơn gấp 5 lần.
Điều này cực kỳ quan trọng để cải thiện các ứng dụng hội thoại nhiều vòng, RAG, suy luận đa bước Agentic, các tải công việc dài dựa trên ngữ cảnh, vốn phụ thuộc lớn vào khả năng lưu trữ, tái sử dụng và chia sẻ ngữ cảnh trong toàn hệ thống.
AI đang tiến tới từ chatbot sang Agentic AI (trí tuệ nhân tạo tác nhân), có khả năng suy luận, gọi công cụ và duy trì trạng thái lâu dài, cửa sổ ngữ cảnh đã mở rộng tới hàng triệu token. Các ngữ cảnh này được lưu trữ trong KV Cache, mỗi bước tính lại gây lãng phí thời gian GPU và tạo ra độ trễ lớn, do đó cần phải lưu trữ.
Tuy nhiên, bộ nhớ GPU nhanh nhưng khan hiếm, lưu trữ mạng truyền thống quá kém hiệu quả cho ngữ cảnh ngắn hạn. Bị giới hạn bởi hiệu suất suy luận AI, cần một lớp bộ nhớ mới tối ưu cho suy luận, nằm giữa GPU và bộ nhớ lưu trữ.
Lớp này không còn là miếng vá sau, mà phải thiết kế phối hợp cùng lưu trữ mạng để di chuyển dữ liệu ngữ cảnh với chi phí thấp nhất.
Lớp lưu trữ mới này, nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận của Nvidia, không tồn tại trực tiếp trong hệ thống chủ, mà kết nối qua BlueField-4 tới thiết bị tính toán bên ngoài. Ưu điểm chính là mở rộng quy mô kho lưu trữ hiệu quả hơn, tránh tính toán lặp lại KV Cache.
Nvidia đang hợp tác chặt chẽ với các đối tác lưu trữ để đưa nền tảng này vào hệ sinh thái Rubin, giúp khách hàng triển khai như một phần của hạ tầng AI tích hợp hoàn chỉnh.
3. DGX SuperPOD dựa trên Vera Rubin xây dựng từ Vera Rubin
Ở cấp hệ thống, NVIDIA DGX SuperPOD là bản thiết kế cho nhà máy AI quy mô lớn, sử dụng 8 hệ thống DGX Vera Rubin NVL72, mạng mở rộng theo chiều dọc NVLink 6, mạng mở rộng theo chiều ngang Spectrum-X Ethernet, tích hợp nền tảng lưu trữ bộ nhớ ngữ cảnh suy luận, đã qua kiểm thử kỹ lưỡng.
Toàn bộ hệ thống được quản lý bằng phần mềm NVIDIA Mission Control, tối ưu hóa hiệu quả. Khách hàng có thể triển khai như một nền tảng chìa khóa trao tay, hoàn thành huấn luyện và suy luận với ít GPU hơn.
Nhờ thiết kế tối ưu về 6 chip, khay, khung máy, Pod, trung tâm dữ liệu và phần mềm, nền tảng Rubin đã giảm đáng kể chi phí huấn luyện và suy luận. So với Blackwell thế hệ trước, huấn luyện cùng quy mô MoE chỉ cần 1/4 số GPU; cùng độ trễ, chi phí token của mô hình MoE lớn giảm còn 1/10.
Nvidia cũng ra mắt hệ thống NVIDIA DGX SuperPOD sử dụng DGX Rubin NVL8.
Dựa trên kiến trúc Vera Rubin, Nvidia cùng các đối tác và khách hàng đang xây dựng hệ thống AI quy mô lớn nhất, tiên tiến nhất, chi phí thấp nhất thế giới, thúc đẩy AI trở thành xu hướng chính.
Hạ tầng Rubin sẽ được cung cấp trong nửa cuối năm nay qua CSP và các nhà tích hợp hệ thống, Microsoft cùng các công ty đầu tiên sẽ triển khai.
03. Mở rộng vũ trụ mô hình nguồn mở: đóng góp quan trọng của các mô hình, dữ liệu, hệ sinh thái mã nguồn mở mới
Về phần phần mềm và mô hình, Nvidia tiếp tục đẩy mạnh đầu tư mã nguồn mở.
Các nền tảng phát triển chính như OpenRouter cho thấy, trong năm qua, số lượng mô hình AI sử dụng đã tăng 20 lần, trong đó khoảng 1/4 token đến từ các mô hình nguồn mở.
Năm 2025, Nvidia là nhà đóng góp lớn nhất cho các mô hình, dữ liệu và công thức nguồn mở trên Hugging Face, phát hành 650 mô hình nguồn mở và 250 bộ dữ liệu mở.
Các mô hình nguồn mở của Nvidia đứng đầu nhiều bảng xếp hạng. Các nhà phát triển không chỉ có thể sử dụng các mô hình này, mà còn học hỏi, huấn luyện liên tục, mở rộng bộ dữ liệu, và xây dựng hệ thống AI bằng các công cụ mã nguồn mở và kỹ thuật có tài liệu rõ ràng.
Lấy cảm hứng từ Perplexity, Huang Renxun nhận thấy, Agents nên là đa mô hình, đa đám mây và lai, đây cũng là kiến trúc cơ bản của hệ thống Agentic AI, gần như tất cả các công ty khởi nghiệp đều đang áp dụng.
Nhờ các mô hình và công cụ mã nguồn mở của Nvidia, các nhà phát triển giờ đây có thể tùy biến hệ thống AI, sử dụng các mô hình tiên tiến nhất. Hiện tại, Nvidia đã tích hợp các khung này thành “bản thiết kế” và đưa vào nền tảng SaaS. Người dùng có thể triển khai nhanh chóng nhờ bản thiết kế này.
Trong các demo trực tiếp, hệ thống này có thể tự động xác định xem nhiệm vụ nên do mô hình riêng tư cục bộ hay mô hình đỉnh đám mây xử lý, cũng có thể gọi các công cụ bên ngoài (như API email, giao diện điều khiển robot, dịch vụ lịch), và thực hiện hợp nhất đa phương thức, xử lý đồng bộ văn bản, giọng nói, hình ảnh, tín hiệu cảm biến robot.
Những khả năng phức tạp này trước đây không thể tưởng tượng nổi, nhưng giờ đã trở nên rất đơn giản. Trên các nền tảng doanh nghiệp như ServiceNow, Snowflake, đều có thể sử dụng các khả năng tương tự.
04. Mô hình Alpha-Mayo mã nguồn mở, “suy nghĩ” cho ô tô tự lái
Nvidia tin rằng AI vật lý và robot cuối cùng sẽ trở thành phân khúc tiêu dùng lớn nhất toàn cầu. Tất cả các vật thể có thể di chuyển cuối cùng sẽ tự chủ hoàn toàn, do AI vật lý điều khiển.
AI đã trải qua các giai đoạn cảm nhận AI, AI tạo sinh, AI tác nhân, và hiện đang bước vào kỷ nguyên AI vật lý, trí tuệ trong thế giới thực, các mô hình này có thể hiểu quy luật vật lý, và trực tiếp sinh hành động từ cảm nhận thế giới vật lý.
Để đạt được mục tiêu này, AI vật lý phải học các kiến thức phổ quát của thế giới — vật thể tồn tại vĩnh viễn, trọng lực, ma sát. Việc học các khả năng này sẽ dựa vào ba máy tính: máy huấn luyện (DGX) để tạo mô hình AI, máy suy luận (ô tô/ chip trên xe) để thực thi thời gian thực, máy mô phỏng (Omniverse) để tạo dữ liệu tổng hợp, xác minh logic vật lý.
Trong đó, mô hình cốt lõi là Cosmos, mô hình nền tảng thế giới, liên kết ngôn ngữ, hình ảnh, 3D và quy luật vật lý, hỗ trợ toàn bộ chuỗi tạo dữ liệu huấn luyện từ mô phỏng.
AI vật lý sẽ xuất hiện trong ba loại thực thể: nhà xưởng (như nhà máy, kho), robot, ô tô tự lái.
Huang Renxun cho rằng, lái xe tự động sẽ là ứng dụng quy mô lớn đầu tiên của AI vật lý. Các hệ thống này cần hiểu thế giới thực, ra quyết định và thực thi hành động, yêu cầu cao về an toàn, mô phỏng và dữ liệu.
Vì vậy, Nvidia ra mắt Alpha-Mayo, một hệ thống hoàn chỉnh gồm mô hình mã nguồn mở, công cụ mô phỏng và bộ dữ liệu AI vật lý, nhằm thúc đẩy phát triển AI vật lý dựa trên suy luận an toàn, có nguồn gốc mở.
Sản phẩm này cung cấp các mô-đun nền tảng cho các hãng xe toàn cầu, nhà cung cấp, startup và nhà nghiên cứu xây dựng hệ thống tự lái cấp L4.
Alpha-Mayo là mô hình “suy nghĩ” thực sự đầu tiên dành cho ô tô tự lái trong ngành, đã được mở mã nguồn. Nó phân tích vấn đề thành các bước, suy luận tất cả các khả năng, chọn ra con đường an toàn nhất.
Mô hình suy luận hành động-đề xuất này giúp hệ thống tự lái giải quyết các tình huống phức tạp chưa từng gặp, như đèn giao thông hỏng tại ngã tư đông đúc.
Alpha-Mayo có 100 tỷ tham số, đủ lớn để xử lý các nhiệm vụ tự lái, đồng thời nhẹ đủ để chạy trên các trạm làm việc dành riêng cho nghiên cứu ô tô tự lái.
Nó có thể nhận đầu vào là văn bản, camera toàn cảnh, trạng thái xe cũ và dữ liệu định hướng, và xuất ra quỹ đạo di chuyển cùng quá trình suy luận, giúp hành khách hiểu lý do xe thực hiện hành động.
Trong đoạn phim trình diễn trực tiếp, dưới sự điều khiển của Alpha-Mayo, ô tô tự lái có thể tự chủ tránh người đi bộ, dự đoán xe rẽ trái và chuyển làn để tránh.
Huang Renxun nói rằng, Mercedes-Benz CLA trang bị Alpha-Mayo đã bắt đầu sản xuất, và vừa được NCAP xếp hạng là xe an toàn nhất thế giới. Tất cả mã, chip, hệ thống đều đã qua chứng nhận an toàn. Hệ thống này sẽ ra mắt tại thị trường Mỹ, và trong cuối năm nay sẽ có khả năng lái xe tự động nâng cao, bao gồm tự lái không cần tay trên cao tốc, và tự lái toàn diện trong đô thị.
Nvidia cũng phát hành một số bộ dữ liệu huấn luyện Alpha-Mayo, khung mô phỏng đánh giá mô hình suy luận mã nguồn mở Alpha-Sim. Các nhà phát triển có thể dùng dữ liệu của riêng mình để tinh chỉnh Alpha-Mayo, hoặc dùng Cosmos để tạo dữ liệu tổng hợp, và dựa trên dữ liệu thật kết hợp dữ liệu tổng hợp để huấn luyện và thử nghiệm ứng dụng tự lái. Ngoài ra, Nvidia công bố nền tảng NVIDIA DRIVE đã đi vào sản xuất.
Nvidia tuyên bố, các doanh nghiệp robot hàng đầu toàn cầu như Boston Dynamics, Franka Robotics, robot phẫu thuật Surgical, LG Electronics, NEURA, XRLabs, robot trí tuệ nhân tạo Zhì Yuán đều dựa trên NVIDIA Isaac và GR00T.
Huang Renxun cũng chính thức công bố hợp tác mới nhất với Siemens. Siemens đang tích hợp CUDA-X, mô hình AI và Omniverse của Nvidia vào bộ công cụ và nền tảng EDA, CAE, Digital Twin của họ. AI vật lý sẽ được ứng dụng rộng rãi trong toàn bộ quy trình thiết kế, mô phỏng, sản xuất và vận hành.
05. Kết luận: Nắm bắt nguồn mở bên trái, làm hệ thống phần cứng không thể thay thế bên phải
Khi hạ tầng AI chuyển trọng tâm từ huấn luyện sang suy luận quy mô lớn, cạnh tranh nền tảng đã chuyển từ điểm mạnh tính toán đơn điểm sang hệ thống kỹ thuật bao gồm chip, khung máy, mạng và phần mềm, mục tiêu là tối thiểu hóa TCO để đạt tối đa throughput suy luận, AI bước vào giai đoạn “vận hành nhà máy”.
Nvidia rất chú trọng thiết kế hệ thống cấp cao, Rubin đồng thời nâng cao hiệu năng và kinh tế trong huấn luyện và suy luận, có thể thay thế Blackwell một cách dễ dàng, tích hợp liền mạch từ Blackwell.
Về định hướng nền tảng, Nvidia vẫn coi huấn luyện là then chốt, vì chỉ khi huấn luyện nhanh ra các mô hình tiên tiến nhất, nền tảng suy luận mới thực sự hưởng lợi, do đó trong GPU Rubin đã đưa NVFP4 vào huấn luyện, nâng cao hiệu năng và giảm TCO.
Cùng lúc, gã khổng lồ tính toán AI này liên tục mở rộng theo chiều dọc và chiều ngang, tăng cường khả năng truyền thông mạng, và xem ngữ cảnh là điểm nghẽn chính, thực hiện thiết kế phối hợp giữa lưu trữ, mạng và tính toán.
Nvidia vừa mở nguồn mã rộng rãi, vừa làm phần cứng, liên kết, thiết kế hệ thống ngày càng “không thể thay thế”, chiến lược mở rộng liên tục này, thúc đẩy tiêu thụ token, mở rộng quy mô suy luận, cung cấp hạ tầng hiệu suất cao, đang xây dựng cho Nvidia một rào cản cạnh tranh vững chắc hơn bao giờ hết.