NVIDIA Research M

Giá trị của một bộ kẹp robot không nằm ở khả năng nhặt một vật thể, mà ở chỗ nó có thể nhặt vật thể tiếp theo, và vật thể sau đó nữa, bằng một công cụ mà nó chưa từng cầm nắm trước đây. Sự an toàn của một hệ thống xe tự hành không chỉ nằm ở khả năng suy luận trong một tình huống, mà còn ở chỗ nó có thể thực hiện điều đó đủ nhanh trên phần cứng thực tế được lắp đặt trong xe. Khả năng của một tác nhân ảo được tạo nên từ việc tiếp xúc với càng nhiều môi trường khác tốt càng tốt trước khi đối mặt với thế giới thực. Tại hội nghị Thị giác Máy tính và Nhận dạng Mẫu (CVPR) năm nay, NVIDIA Research đang trình bày ba bài báo.

Điều làm cho một bộ kẹp robot hữu ích không phải là khả năng nhặt một vật thể, mà là khả năng nhặt vật thể tiếp theo và vật thể sau đó, bằng một công cụ mà nó chưa từng cầm trước đây. Điều làm cho một hệ thống xe tự hành an toàn không chỉ là khả năng suy luận qua một tình huống, mà là khả năng thực hiện điều đó đủ nhanh trên phần cứng thực tế được lắp đặt trong xe. Điều làm cho một tác nhân ảo có năng lực là việc tiếp xúc với càng nhiều môi trường khác nhau càng tốt trước khi nó đối mặt với thế giới thực. Tại hội nghị Computer Vision and Pattern Recognition (CVPR) năm nay, NVIDIA Research đang trình bày ba bài báo giải quyết từng thách thức này – và chia sẻ một chủ đề chung: đào tạo ở quy mô lớn tạo ra các hệ thống có khả năng khái quát hóa trên các ứng dụng đa dạng. Ba bài báo bao gồm các thách thức khác nhau trong nghiên cứu AI vật lý: GraspGen-X, mô hình nền tảng đầu tiên cho việc nắm bắt không cần huấn luyện (zero-shot grasping), được đào tạo trên hàng tỷ lần nắm bắt mô phỏng để hoạt động với bất kỳ bộ kẹp nào được hiển thị. LCDrive giới thiệu một mô hình thay thế suy luận dựa trên văn bản tốn kém bằng các biểu diễn tiềm ẩn nhỏ gọn, cho phép xe tự hành suy nghĩ nhanh hơn trên phần cứng nhúng. NitroGen là một mô hình nền tảng AI trò chơi tổng quát, khai thác kiến trúc mô hình nền tảng robot NVIDIA Isaac GR00T để giúp đào tạo các tác nhân có hình thể trong môi trường ảo qua hàng chục nghìn giờ tương tác. NVIDIA cũng đã công bố tại CVPR các kỹ năng tác nhân AI vật lý mới giúp các nhà nghiên cứu và nhà phát triển tăng tốc phát triển xe tự hành, robot và hệ thống AI thị giác. Mô hình nền tảng đầu tiên cho việc nắm bắt Hầu hết các hệ thống AI cho việc nắm bắt robot đều là chuyên gia. Một chính sách thị giác-ngôn ngữ-hành động được đào tạo cho một bộ kẹp hai ngón chỉ học cách nắm bằng hai ngón đó. Tương tự, một chính sách cho việc nắm khéo léo sẽ chỉ hoạt động cho bộ kẹp đa ngón tùy chỉnh mà nó được đào tạo. Đối với mỗi hình dạng mới, quy trình thường cần được lặp lại – yêu cầu dữ liệu đào tạo mới, tinh chỉnh và xác thực. Hạn chế này có nghĩa là hầu hết các công ty robot chọn một bộ kẹp, đào tạo cho nó và gắn bó với nó. GraspGen-X là mô hình nền tảng đầu tiên cho việc nắm bắt được xây dựng để loại bỏ nút thắt này. Giống như một mô hình ngôn ngữ lớn có thể áp dụng sự hiểu biết về ngôn ngữ của mình cho một nhiệm vụ mới mà không cần đào tạo lại, GraspGen-X áp dụng sự hiểu biết về hình học và tiếp xúc của mình cho bất kỳ bộ kẹp robot nào mà nó gặp phải. Với hình học của một bộ kẹp mới và một vật thể chưa từng thấy trước đây, mô hình tạo ra các đề xuất tư thế nắm đáng tin cậy để cho phép robot nắm vật thể. https://blogs.nvidia.com/wp-content/uploads/2026/06/GraspGenX.mp4 Để đạt được điều đó, các nhà nghiên cứu cần một tập dữ liệu không thể thu thập trong thế giới thực ở quy mô lớn. Họ đã tạo ra 2 tỷ lần nắm bắt mô phỏng trên hàng nghìn hình dạng vật thể và cấu hình bộ kẹp tổng hợp, bao gồm sự đa dạng về yếu tố hình thức mà một robot được triển khai có thể gặp phải. Đối với các nhà phát triển robot, mô hình nền tảng này loại bỏ nhu cầu về chu kỳ đào tạo cho từng bộ kẹp và có thể được áp dụng ngay lập tức cho một số bộ kẹp thường được sử dụng. GraspGenX có thể được sử dụng cùng với curoboV2, một thư viện lập kế hoạch chuyển động mới được tăng tốc bởi CUDA, để đạt được các tư thế nắm này trong môi trường không xác định. Dựa trên nền tảng nghiên cứu GraspGen, một bài báo khác, Grasp-MPC – được trình bày tại ICRA 2026 – tiến thêm một bước trong quy trình: chuyển từ tạo nắm bắt sang thực hiện nắm bắt vòng kín. Dạy xe tự hành suy nghĩ nhanh hơn Trong những năm gần đây, các nhà nghiên cứu đã phát hiện ra rằng việc cho phép AI suy luận – tạo ra các bước tư duy trung gian trước khi đưa ra câu trả lời – giúp cải thiện đáng kể khả năng ra quyết định của nó. Đối với xe tự hành, thách thức là thực hiện quá trình suy luận đó trên phần cứng bên trong một chiếc xe thực tế. Suy luận chuỗi tư duy dựa trên văn bản tạo ra các từ, và mỗi từ là một token (mã thông báo) cần thời gian để tạo ra. Trên bộ xử lý chạy bên trong xe, số lượng token là một hạn chế thực sự đối với tốc độ phản hồi của hệ thống. LCDrive giải quyết vấn đề này bằng cách thay thế các từ bằng các biểu diễn tiềm ẩn được nén. Thay vì tạo ra các bước suy luận mà con người có thể đọc được, hệ thống suy nghĩ trong một không gian tiềm ẩn nhỏ gọn – các trạng thái nắm bắt thông tin không gian thay vì tạo ra văn bản. Kiến trúc này luân phiên giữa hai loại tư duy: đề xuất các hành động ứng cử viên, sau đó dự đoán thế giới sẽ trông như thế nào nếu những hành động đó được thực hiện. Nó sử dụng trạng thái thế giới được dự đoán đó để tinh chỉnh bước tiếp theo của mình. Đây là cùng một vòng lặp suy luận – chỉ ở dạng hiệu quả hơn về mặt tính toán so với ngôn ngữ tự nhiên. Kết quả: chất lượng quỹ đạo đầu ra tương đương với suy luận dựa trên văn bản, sử dụng khoảng một nửa số token. Mô hình được xây dựng trên NVIDIA Alpamayo và được đào tạo bằng cách sử dụng sự giám sát từ dữ liệu xe hiện có. Các tác nhân có thể hiện thực hóa được đào tạo trong thế giới ảo Isaac GR00T – mô hình nền tảng mở của NVIDIA dành cho robot hình người – được xây dựng trên một nguyên tắc đơn giản: cho một mô hình tiếp xúc với đủ các tình huống đa dạng, và nó sẽ khái quát hóa sang những tình huống mà nó chưa từng thấy. NitroGen mở rộng nguyên tắc đó sang môi trường ảo, sử dụng kiến trúc GR00T để đào tạo một mô hình nền tảng cho các tác nhân có thể hiện thực hóa được trên nhiều thế giới ảo. Trò chơi điện tử mang đến một điều khó có thể xây dựng từ đầu: những thế giới có cấu trúc, đa dạng với các mục tiêu xác định và các điều kiện thành công được chỉ định rõ ràng. Chúng là những môi trường đào tạo chất lượng cao, có sẵn ở quy mô lớn. NitroGen coi chúng như vậy – như một sân tập cho các tác nhân cuối cùng sẽ được đào tạo để xử lý các tình huống thế giới thực hoặc mô phỏng mới lạ, chẳng hạn như cung cấp năng lượng cho một robot giúp việc nhà dựa trên các hướng dẫn rộng như, “Cất những món đồ này vào tủ đựng thức ăn.” Được đào tạo trên hơn 1.000 trò chơi và 40.000 giờ tương tác bằng cách sử dụng một mô hình dựa trên GR00T, các tác nhân thu được học cách khái quát hóa trên các môi trường. Mô hình đã được đánh giá trên một loạt các trò chơi nhập vai hành động, trò chơi platformer, roguelike và trò chơi thế giới mở, thể hiện các hành vi chơi game bao gồm hợp tác.