Tại CVPR, NVIDIA đang giới thiệu các kỹ năng tác nhân AI vật lý mới giúp các nhà nghiên cứu và nhà phát triển đẩy nhanh quá trình phát triển xe tự hành, robot và hệ thống AI thị giác.
Thách thức cốt lõi trong nghiên cứu AI vật lý không chỉ đơn thuần là phát triển các mô hình mạnh mẽ hơn. Đó là xây dựng một quy trình làm việc hoàn chỉnh xung quanh chúng — tái tạo các cảnh trong thế giới thực, tạo ra các kịch bản biên, huấn luyện các chính sách, đánh giá hành vi và lặp lại nhanh chóng. Hiện nay, các bước này bị phân mảnh trên các công cụ riêng biệt, làm chậm tốc độ thử nghiệm khi các nhà nghiên cứu gặp khó khăn trong việc kết nối chúng lại với nhau.
Đầu tuần này, NVIDIA đã công bố
Tại CVPR, NVIDIA đang công bố các kỹ năng tác nhân AI vật lý mới giúp các nhà nghiên cứu và nhà phát triển đẩy nhanh quá trình phát triển xe tự hành, robot và hệ thống AI thị giác.
Thách thức cốt lõi trong nghiên cứu AI vật lý không chỉ đơn thuần là phát triển các mô hình mạnh hơn. Đó là xây dựng một quy trình làm việc hoàn chỉnh xung quanh chúng – tái tạo các cảnh trong thế giới thực, tạo ra các kịch bản trường hợp biên, đào tạo chính sách, đánh giá hành vi và lặp lại nhanh chóng. Ngày nay, các bước này bị phân mảnh trên các công cụ riêng biệt, làm chậm tốc độ thử nghiệm khi các nhà nghiên cứu gặp khó khăn trong việc ghép nối chúng lại với nhau.
Đầu tuần này, NVIDIA đã công bố NVIDIA Cosmos 3, mô hình biên giới mở cho AI vật lý và là omnimodel đầy đủ đầu tiên trên thế giới thống nhất lý luận thị giác, thế giới và tạo hành động. Dẫn đầu trên các bảng xếp hạng công khai mô hình mở trung tâm cho AI vật lý, mô hình nền tảng thế giới cung cấp các khả năng cốt lõi cho phát triển AI vật lý. Các kỹ năng AI vật lý của NVIDIA kết hợp với Cosmos, các thư viện và khung mô phỏng của NVIDIA để giúp các nhà nghiên cứu chuyển từ khả năng mô hình sang quy trình làm việc đầu cuối có thể mở rộng nhanh hơn bao giờ hết.
Thúc đẩy nghiên cứu xe tự hành vượt xa quãng đường đã ghi nhận
Đối với các nhà nghiên cứu AV, vấn đề là "đuôi dài" của việc lái xe – các tương tác hiếm gặp, hình dạng đường bất thường, thay đổi ánh sáng và các hành vi trường hợp biên khó thu thập lặp đi lặp lại, nhưng rất quan trọng cho việc đào tạo và xác thực.
https://blogs.nvidia.com/wp-content/uploads/2026/06/NeuralReconstructionDemo.mp4
Bản demo kỹ năng Tái tạo thần kinh (Neural Reconstruction) trong OpenClaw, hiển thị một video được kết xuất lại từ góc nhìn cảm biến ảo nâng cao.
Với các kỹ năng xe tự hành của NVIDIA, các nhà nghiên cứu và nhà phát triển có thể giao nhiệm vụ cho các tác nhân AI tự động hóa quy trình làm việc để tái tạo cảnh từ dữ liệu đội xe và tạo ra các kịch bản tổng hợp. Các kỹ năng Tái tạo thần kinh giúp các tác nhân AI biến dữ liệu thu thập được từ đội xe thành các cảnh 3D có thể chỉnh sửa để mô phỏng và tạo dữ liệu tổng hợp, trong khi các công nghệ bao gồm NVIDIA Omniverse NuRec, InstantNuRec, Harmonizer và bộ kết xuất tăng tốc HiGS giúp tăng tốc tái tạo, cải thiện tính chân thực của cảnh và tạo ra các góc nhìn mới.
https://blogs.nvidia.com/wp-content/uploads/2026/06/InstantNuRec.mp4
InstantNuRec cho phép tái tạo cảnh đường 3D Gaussian nhanh chóng từ hình ảnh mà không cần tối ưu hóa từng cảnh.
Đối với các nhà nghiên cứu AV, mô phỏng lặp lại giúp thay đổi điều kiện, so sánh phản ứng của hệ thống và khám phá các chế độ lỗi trong các kịch bản vượt xa những gì có thể thu thập được trong dữ liệu thế giới thực.
NVIDIA AlpaGym, một khung học tăng cường vòng kín mã nguồn mở, mở rộng cách tiếp cận đó bằng cách kết nối các triển khai chính sách và mô phỏng độ trung thực cao với các kỹ năng tác nhân, mở rộng trên hàng nghìn GPU, để giúp các nhà nghiên cứu thực hiện thiết lập, triển khai và đánh giá. NVIDIA OmniDreams, một mô hình thế giới tạo sinh có điều kiện hành động, bổ sung kết xuất chân thực vào vòng lặp mô phỏng, tạo ra các khung camera phản ứng trực tiếp với các hành động chính sách trong thời gian thực.
NVIDIA cũng đang thúc đẩy nghiên cứu AV với mô hình nền tảng lái xe mở mạnh mẽ nhất cho đến nay: NVIDIA Alpamayo 2 Super, một mô hình hành động ngôn ngữ thị giác (VLA) lý luận 32 tỷ tham số mở, lý luận, lập kế hoạch và hành động trên toàn bộ ngăn xếp lái xe để phát triển và triển khai cấp độ 4 an toàn hơn, có thể mở rộng.
Thúc đẩy hệ thống AI thị giác cho thế giới thực
Đối với nghiên cứu AI thị giác, nút thắt cổ chai là tạo ra đủ các ví dụ được kiểm soát để nghiên cứu cách các mô hình hoạt động khi điều kiện thị giác, trạng thái đối tượng hoặc các sự kiện tạm thời thay đổi. Các công trình trong phát hiện bất thường zero-shot, tạo bất thường tổng hợp và nhận dạng lỗi few-shot đều gặp phải cùng một vấn đề về dữ liệu.
https://blogs.nvidia.com/wp-content/uploads/2026/06/Delta-Defect-Image-Generation.mp4
Các kỹ năng mới cho kiểm tra thị giác tạo ra nhiều lỗi hiếm trên các bề mặt khác nhau.
Các kỹ năng NVIDIA Metropolis mới đang giúp các nhà nghiên cứu và nhà phát triển sử dụng các tác nhân AI để tạo ra các kịch bản thị giác tổng hợp, bao gồm các bất thường, tăng cường dữ liệu và hỗ trợ gán nhãn giả. Các kỹ năng này được hưởng lợi từ kiến trúc mixture-of-transformers của Cosmos 3, sử dụng một bộ biến đổi suy luận để phân tích các quan sát và cung cấp hướng dẫn cho một tháp tạo, giúp mở rộng các thế giới ảo có cơ sở vật lý.
Các nhà nghiên cứu xây dựng các mô hình kiểm tra thị giác có độ chính xác cao có thể sử dụng kỹ năng Tạo ảnh lỗi (Defect Image Generation) để tạo ra các ví dụ về các lỗi khác nhau trên các bề mặt khác nhau bằng cách sử dụng hình ảnh thực. Quy trình làm việc này kết hợp NVIDIA Isaac Sim để mô phỏng, Cosmos 3 và NVIDIA OSMO để điều phối và suy luận ngôn ngữ thị giác – cho phép các nhà nghiên cứu tạo ra các trường hợp thị giác hiếm và đánh giá xem các mô hình có phản ứng chính xác hay không.
https://blogs.nvidia.com/wp-content/uploads/2026/06/VSS3_Demo.mp4
Các kỹ năng NVIDIA Metropolis VSS Blueprint mới trích xuất thông tin chi tiết từ khối lượng lớn dữ liệu video.
Đối với các tác nhân AI video, các kỹ năng NVIDIA Metropolis Blueprint cho tìm kiếm và tóm tắt video (VSS), NVIDIA TAO và Tăng cường video giúp trích xuất thông tin chi tiết từ khối lượng lớn dữ liệu video, tinh chỉnh các mô hình và tự động hóa vòng lặp xây dựng-đánh giá. Điều này mang lại cho các nhà nghiên cứu một cách tiếp cận có thể lặp lại hơn để phát triển các tác nhân AI thị giác suy luận có thể phát hiện các sự kiện, suy luận trên các cảnh phức tạp, tóm tắt hoạt động và gửi cảnh báo.
Mở rộng học máy robot với quy trình làm việc mô phỏng sẵn sàng cho tác nhân
Dạy robot các kỹ năng như điều hướng hoặc thao tác phụ thuộc vào sự lặp lại. Đối với các nhà nghiên cứu, nút thắt cổ chai là xây dựng đủ môi trường được kiểm soát và triển khai chính sách để hiểu cách hành vi của robot thay đổi trên các nhiệm vụ, cài đặt và thể hiện – công việc thường có nghĩa là ghép nối các môi trường mô phỏng, các biến thể nhiệm vụ, đào tạo chính sách và đánh giá thủ công.
https://blogs.nvidia.com/wp-content/uploads/2026/06/Isaac-Sim.mp4
NVIDIA Isaac Sim 6.0 bao gồm các kỹ năng thân thiện với tác nhân và các trình kết nối để giúp tự động hóa quy trình làm việc.
Với các kỹ năng robot của NVIDIA, các nhà nghiên cứu có thể giao nhiệm vụ cho các tác nhân AI để tự động hóa hầu hết các bước phát triển phổ biến trong việc chuẩn bị cảnh, mô phỏng và học máy robot với NVIDIA Omniverse.
Nguồn tin: NVIDIA AI Blog — Tác giả: Pranjali Joshi. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.