Nhóm NVIDIA AI đã phát hành Cosmos 3, một bộ mô hình thế giới đa phương thức dành cho AI vật lý. Các mô hình này kết hợp khả năng suy luận vật lý, tạo thế giới và tạo hành động. Cả ba khả năng này đều nằm trong một mô hình mở duy nhất. NVIDIA đã công khai các điểm kiểm tra (checkpoints), tập lệnh huấn luyện (training scripts), công cụ triển khai (deployment tools) và bộ dữ liệu (datasets). Bản phát hành Cosmos 3 hướng đến các nhóm nghiên cứu về robot, phương tiện tự hành và giám sát kho bãi.
NVIDIA Cosmos 3
Các hệ thống AI vật lý phải hiểu thế giới trước khi hành động trong đó. Robot và phương tiện cần nhận thức, dự đoán và sau đó hành động. Các bản phát hành Cosmos trước đây đã phân chia các công việc này.
Nhóm NVIDIA AI đã phát hành Cosmos 3, một dòng mô hình thế giới đa phương thức dành cho AI vật lý. Các mô hình này kết hợp khả năng suy luận vật lý, tạo thế giới và tạo hành động. Cả ba khả năng này đều được tích hợp trong một mô hình mở duy nhất. NVIDIA đã công khai các điểm kiểm tra (checkpoints), tập lệnh huấn luyện (training scripts), công cụ triển khai (deployment tools) và bộ dữ liệu (datasets). Phiên bản Cosmos 3 hướng đến các nhóm phát triển robot, phương tiện tự hành và giám sát kho bãi.
NVIDIA Cosmos 3
Các hệ thống AI vật lý phải hiểu thế giới trước khi hành động trong đó. Robot và phương tiện cần nhận thức, dự đoán và sau đó hành động. Các phiên bản Cosmos trước đây phân chia các công việc này cho các mô hình riêng biệt. Cosmos 3 hợp nhất chúng bằng kiến trúc Mixture-of-Transformers (MoT). Kiến trúc này được xây dựng xung quanh hai tháp.
Tháp suy luận (reasoner tower) là một mô hình thị giác-ngôn ngữ (VLM). Nó diễn giải hình ảnh, video và văn bản bằng kiến trúc tự hồi quy (autoregressive architecture). Nó hiểu chuyển động, tương tác đối tượng và các ngữ cảnh vật lý khác. Nhóm NVIDIA mô tả tháp này là bộ não của mô hình.
Tháp tạo (generator tower) tạo ra các quan sát và chuỗi hành động trong tương lai. Nó sử dụng quy trình dựa trên khuếch tán (diffusion-based process) cho video và hành động nhận biết vật lý. Các đầu ra này được điều kiện hóa dựa trên sự hiểu biết của tháp suy luận. Thông tin chảy một chiều, từ tháp suy luận đến tháp tạo. Tháp suy luận có thể chạy độc lập. Tháp tạo luôn kích hoạt cả hai tháp để tạo ra kết quả có hướng dẫn.
Do đó, một mô hình duy nhất có thể xử lý cả suy luận và tạo cùng lúc.
https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3
Dòng mô hình
Nhóm NVIDIA mô tả ba quy mô mô hình: Edge, Nano và Super. Mỗi quy mô đều sử dụng thiết kế Mixture-of-Transformers hai tháp. Hai tháp được khởi tạo từ trọng số Qwen3-VL đã được huấn luyện trước. Điều này làm tăng gần gấp đôi số lượng tham số của bộ biến đổi (transformer) cốt lõi.
Cosmos3-Nano là mô hình 16B được xây dựng trên bộ biến đổi 8B dày đặc. Nó điều chỉnh kiến trúc Qwen3-VL 8B. Nano hướng đến suy luận hiệu quả trên GPU máy trạm. Nó chạy trên các phần cứng như NVIDIA RTX PRO 6000. Điều này phù hợp với robot thời gian thực và AI vật lý trên thiết bị.
Cosmos3-Super là mô hình 64B được xây dựng trên bộ biến đổi 32B dày đặc. Nó điều chỉnh kiến trúc Qwen3-VL 32B. Super hướng đến các GPU trung tâm dữ liệu, bao gồm NVIDIA Hopper và Blackwell. Nó phù hợp cho việc tạo dữ liệu tổng hợp quy mô lớn và suy luận nâng cao.
Phiên bản này cung cấp Nano và Super, cùng với các biến thể dành riêng cho tác vụ. Bao gồm Super Text2Image, Super Image2Video và Nano-Policy-DROID.
Cách thiết kế hợp nhất hoạt động
Cả hai tháp đều chia sẻ một kiến trúc bộ biến đổi và một toán tử chú ý chung. Chúng sử dụng một nhúng vị trí quay đa phương thức 3D (mRoPE). mRoPE căn chỉnh các mã thông báo video, âm thanh và hành động trên một trục thời gian. Ở Chế độ suy luận (Reasoner Mode), các mã thông báo đi qua cơ chế tự chú ý nhân quả (causal self-attention). Điều này cho phép dự đoán mã thông báo tiếp theo cho nhận thức, lập kế hoạch và suy luận. Ở Chế độ tạo (Generator Mode), các mã thông báo nhiễu được khử nhiễu thông qua cơ chế chú ý đầy đủ (full attention). Các mã thông báo tự hồi quy không bao giờ được cập nhật bởi các mã thông báo khuếch tán.
Mô hình coi hành động là một phương thức cốt lõi với các mã thông báo hành động chuyên dụng. Các đầu vào được hỗ trợ bao gồm văn bản, hình ảnh, video và mảng hành động JSON. Các đầu ra bao gồm hình ảnh, video, âm thanh đồng bộ, trạng thái hành động và văn bản. Tháp suy luận tuân theo các quy ước tin nhắn tương thích với Qwen3-VL cho các đầu vào thị giác.
Quá trình tạo hỗ trợ các độ phân giải 256p, 480p và 720p. Số lượng khung hình dao động từ 5 đến 300, mặc định là 189. Điều này tương đương khoảng 7,9 giây video ở tốc độ 24 khung hình/giây. Âm thanh được tạo dưới dạng AAC stereo ở tần số 48 kHz. Điều kiện hành động bao gồm các thể hiện camera, phương tiện, egocentric, một cánh tay, hai cánh tay và hình người. Mỗi thể hiện sử dụng một chiều hành động cố định, ví dụ 9D cho camera.
Trường hợp đánh giá chuẩn
Nhóm NVIDIA đã đánh giá Cosmos 3 trên các bộ suy luận và tạo. Về suy luận, Super và Nano dẫn đầu VANTAGE-Bench ở các cấp độ tương ứng. VANTAGE-Bench kiểm tra các VLM trên cảnh quay camera cố định trong thế giới thực. Nó bao gồm nhà kho, giao thông vận tải và không gian thông minh. Cosmos 3 cũng đứng đầu bảng xếp hạng Traffic Anomaly Reasoning (TAR). TAR là bảng xếp hạng chính thức cho AI City Challenge 2026 Track 3.
Về tạo, NVIDIA báo cáo kết quả tiên tiến nhất (SOTA) mã nguồn mở. Cosmos 3 là SOTA mã nguồn mở trên R-Bench. Nó cũng dẫn đầu PAI-Bench, Physics-IQ và RoboLab trên các bảng xếp hạng công khai. Trên Artificial Analysis, nó dẫn đầu hai bảng xếp hạng mã nguồn mở. Các bảng xếp hạng này bao gồm chuyển văn bản thành hình ảnh và chuyển hình ảnh thành video không có âm thanh.
Nhóm NVIDIA cũng giới thiệu khung đánh giá con người Cosmos của mình, được gọi là HUE. HUE phân tích từng video được tạo thành các câu hỏi thực tế có/không. Nó chấm điểm bốn chiều trên bảy lĩnh vực AI vật lý. Các chiều này là sự phù hợp ngữ nghĩa, định luật vật lý, suy luận hình học và tính toàn vẹn hình ảnh. Một quy trình VLM soạn thảo các câu hỏi, và các chuyên gia con người tinh chỉnh chúng.
Giải thích trực quan của Marktechpost
marktechpost@guide ~ /nvidia/cosmos-3
01 / 09
HƯỚNG DẪN DÀNH CHO NHÀ PHÁT TRIỂN · AI VẬT LÝ
NVIDIA Cosmos 3
Các mô hình thế giới đa phương thức mở cho AI vật lý.
Phát hành ngày 31/5/2026. Một mô hình cho suy luận vật lý, tạo thế giới và tạo hành động.
Hỗn hợp các Transformer
Trọng số mở
OpenMDW-1.1
Sử dụng ← → hoặc vuốt để điều hướng
01 · ĐÓ LÀ GÌ
Một mô hình thống nhất để hiểu và tạo
Cosmos 3 là một họ các mô hình thế giới đa phương thức cho AI vật lý. Các phiên bản Cosmos trước đây chia công việc cho các mô hình riêng biệt. Cosmos 3 hợp nhất chúng trong một mô hình mở duy nhất.
Suy luận vật lý trên hình ảnh, video và văn bản.
Tạo thế giới video và âm thanh nhận biết vật lý.
Tạo hành động cho robot và hệ thống tự hành.
Bao gồm các VLM, trình tạo video, trình mô phỏng thế giới và mô hình hành động thế giới.
02 · KIẾN TRÚC
Hai tháp, một transformer
THÁP SUY LUẬN
Một mô hình ngôn ngữ-thị giác (VLM) tự hồi quy. Nó diễn giải chuyển động, tương tác đối tượng và ngữ cảnh vật lý. NVIDIA gọi đây là bộ não của mô hình.
THÁP TẠO
Một đường dẫn dựa trên khuếch tán cho video và hành động nhận biết vật lý.
Nguồn tin: MarkTechPost — Tác giả: Asif Razzaq. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.