Ngành robot đang bước vào một giai đoạn mới: chuyển từ các bản trình diễn được kiểm soát và tự động hóa theo kịch bản sang khả năng tự chủ đáng tin cậy, có thể tổng quát hóa trong thế giới thực.
Tại Hội nghị Quốc tế về Robot và Tự động hóa (ICRA), 8 trong số 28 bài báo được chấp nhận của NVIDIA Research cho thấy cách thức chuyển giao từ mô phỏng sang thực tế đang trở thành nền tảng cho sự thay đổi đó, giúp robot nhận thức, suy luận, lập kế hoạch và hành động trong các môi trường năng động, khó đoán.
Các bài báo này cùng nhau bao quát toàn bộ các thách thức mà nhà phát triển robot phải đối mặt: điều phối nhiều cánh tay robot song song, xây dựng các chính sách có thể tổng quát hóa trên nhiều robot.
Người máy đang bước vào một giai đoạn mới: chuyển từ các bản trình diễn được kiểm soát và tự động hóa theo kịch bản sang khả năng tự chủ đáng tin cậy, có thể tổng quát hóa trong thế giới thực.
Tại Hội nghị Quốc tế về Người máy và Tự động hóa (ICRA), 8 trong số 28 bài báo được chấp nhận của NVIDIA Research cho thấy cách chuyển giao từ mô phỏng sang thực tế đang trở thành nền tảng cho sự thay đổi đó, giúp người máy nhận thức, suy luận, lập kế hoạch và hành động trong các môi trường năng động, khó đoán.
Các bài báo này bao gồm toàn bộ các thách thức mà các nhà phát triển người máy phải đối mặt: phối hợp nhiều cánh tay song song, xây dựng các chính sách có thể tổng quát hóa trên các loại thân người máy khác nhau, nắm bắt các vật thể mới trong môi trường lộn xộn, thực hiện lắp ráp chính xác và phát triển các mô hình thị giác-ngôn ngữ-hành động có khả năng suy luận trước khi di chuyển.
Điểm chung rõ ràng là: mô phỏng-thực tế đang trở thành nền tảng cho những người máy có thể thích nghi, tổng quát hóa và hoạt động với độ tin cậy cao hơn bên ngoài phòng thí nghiệm.
Phối hợp cánh tay, điều hướng cơ thể, nắm bắt vật thể
Hãy hình dung một phòng thí nghiệm dược phẩm được vận hành bởi các cánh tay robot: nhặt ống nghiệm, chuyển chất lỏng, trộn thuốc thử – mỗi bước mất một lượng thời gian khác nhau, tất cả đều đòi hỏi sự phối hợp cẩn thận.
Phần mềm lập lịch robot truyền thống xử lý các bước đó theo trình tự, từng cánh tay một.
ScheduleStream thay đổi điều đó bằng cách chạy các phép tính trên GPU, cho phép nhiều cánh tay lập kế hoạch di chuyển và hoạt động song song. Kết quả là tăng tốc độ 3 lần trong các kịch bản lập kế hoạch đa cánh tay, trên phần cứng như nền tảng AI biên NVIDIA Jetson. Mã nguồn cho framework này có sẵn trên GitHub.
https://blogs.nvidia.com/wp-content/uploads/2026/05/supplementary.mp4
Một robot học cách điều hướng trong không gian – tránh chướng ngại vật và tìm đích đến – thường học cách thực hiện điều đó trong một cơ thể. Đặt cùng một phần mềm điều hướng vào một robot có hình dạng khác và nó thường bị lỗi, vì các bộ phận của nó di chuyển khác nhau.
Khung chính sách COMPASS giải quyết vấn đề này bằng cách trước tiên xây dựng chức năng điều hướng cơ bản bằng cách sử dụng học bắt chước (imitation learning) và sau đó sử dụng học tăng cường dư thừa (residual reinforcement learning) trong NVIDIA Isaac Lab để xây dựng các chuyên gia cho các loại thân robot đa dạng. Điều quan trọng là không có dữ liệu robot thực tế nào được sử dụng ở bất kỳ giai đoạn nào: mọi thứ đều được huấn luyện trong mô phỏng Isaac Lab.
So với một đường cơ sở học bắt chước, COMPASS đạt được cải thiện 4,5 lần về tỷ lệ thành công trung bình. Nó cũng chuyển giao liền mạch sang môi trường thế giới thực, thể hiện tỷ lệ thành công khoảng 80% trong 20 thử nghiệm điều hướng thế giới thực trên robot di động tự hành và người máy hình người.
COMPASS thân thiện với tác nhân, với các kỹ năng chuyên biệt – và các nhà phát triển có thể kết nối đường ống với NVIDIA Omniverse NuRec để huấn luyện và xác thực robot trong một bản sao kỹ thuật số của một môi trường mới trước khi triển khai.
Hầu hết các hệ thống nắm bắt xác định vật thể, dự đoán cách nắm, lập kế hoạch đường đi, sau đó thực hiện. Nhưng vài centimet cuối cùng là nơi những lỗi nhỏ nhất cũng quan trọng.
Grasp-MPC tính toán thích ứng các cách nắm của robot, liên tục điều chỉnh chuyển động của robot khi nó tiếp cận vật thể, thay vì thực hiện một kế hoạch cố định – giống như cách một người nắm lấy thứ gì đó bằng cảm giác thay vì tính toán trước mọi góc khớp.
Để xây dựng chính sách này, các nhà nghiên cứu đã tạo ra 2 triệu quỹ đạo mô phỏng trên 8.000 vật thể bằng cách sử dụng các chú thích từ tập dữ liệu GraspGen và dữ liệu lập kế hoạch chuyển động từ cuRobo, một thư viện tăng tốc CUDA để tạo chuyển động robot.
Sau khi được huấn luyện trên cả các quỹ đạo thành công và thất bại, Grasp-MPC đã học cách nắm bắt các vật thể mới trên mặt bàn và kệ lộn xộn, đạt tỷ lệ thành công tổng thể khoảng 75% trên robot thực tế, so với mức cơ sở là 41%.
https://blogs.nvidia.com/wp-content/uploads/2026/05/Sequential-Object-Grasping-2.mp4
Deformable Cluster Manipulation giới thiệu một khuôn khổ giải quyết một thách thức tương tự: cho phép các hệ thống nắm bắt không chỉ một vật thể mà cả một bó vật liệu mềm, rối rắm cùng một lúc.
Khuôn khổ này được thúc đẩy bởi một nhiệm vụ trong thế giới thực: dọn dẹp một khối cành cây đã mọc che đường dây điện, nơi không có một vật thể sạch sẽ nào để nắm. Hệ thống sử dụng toàn bộ cánh tay của nó, không chỉ bộ kẹp: quấn quanh cụm cành cây và quét nó sang một bên, giống như cách một người có thể gom một bó dây cáp hoặc đẩy một mớ cây bụi ra khỏi đường.
Các nhà nghiên cứu đã xây dựng một trình tạo cây bằng cách sử dụng các phương trình tăng trưởng sinh học để tạo ra các cây tổng hợp với nhiều hình dạng và kích cỡ khác nhau, sau đó huấn luyện hệ thống trên hàng nghìn cây trong các khuôn khổ mô phỏng mở NVIDIA Isaac.
Chính sách này được triển khai cho các cành cây thực tế mà không cần huấn luyện thêm (zero shot). Ngoài đường dây điện, các nhà nghiên cứu nhận thấy tiềm năng trong quản lý cáp, kiểm tra nông nghiệp và bất cứ nơi nào robot cần xử lý một mớ hỗn độn thay vì một vật thể đơn lẻ có thể nắm bắt được.
Dọn dẹp cành cây trong triển khai từ mô phỏng sang thực tế (sim-to-real) không cần huấn luyện thêm.
Lắp ráp với độ chính xác
Lắp ráp chính xác – luồn đai ốc vào bu lông, lắp bánh răng vào trục bánh răng, ấn chốt vào lỗ – nổi tiếng là khó thực hiện đúng chỉ bằng mô phỏng.
Thế giới thực rất phức tạp. Các bề mặt thực tế không hoàn toàn nhẵn. Các cảm biến không hoạt động như đã chỉ định. Những khác biệt nhỏ mà một trình mô phỏng bỏ qua có thể khiến robot dừng lại.
Phương pháp SPARR giải quyết vấn đề này bằng cách chia công việc thành hai phần. Một chính sách được huấn luyện trong Isaac Lab học chiến lược chung cho nhiệm vụ lắp ráp trong mô phỏng. Sau đó, trên phần cứng thực tế, một lớp thứ hai học cách sửa chữa những gì trình mô phỏng đã sai – sử dụng camera của robot và không cần bất kỳ sự hướng dẫn hoặc minh họa nào của con người.
SPARR cải thiện tỷ lệ thành công 38% và giảm thời gian chu kỳ khoảng 30% so với các phương pháp cơ sở từ mô phỏng sang thực tế không cần huấn luyện thêm.
Trong các nhiệm vụ lắp ráp của Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) chưa từng thấy trong quá trình huấn luyện, tỷ lệ thành công tăng gần 75% – tiếp cận kết quả của các phương pháp yêu cầu con người tham gia.
Khuôn khổ Refinery giải quyết cấp độ khó tiếp theo trong lắp ráp: các nhiệm vụ có nhiều bước tuần tự, trong đó cách hoàn thành bước một quyết định liệu bước hai có khả thi hay không.
Nguồn tin: NVIDIA AI Blog — Tác giả: Katie Washabaugh. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.