Bỏ qua tới nội dung chính
Quay lại tin tức

Mô hình hành động thế giới cung cấp cho robot khả năng mô phỏng hậu quả trước khi chúng di chuyển

The Decoder· Jonathan Kemper· 17/5/2026general

Mô hình hành động thế giới giải quyết điểm yếu cơ bản của AI robot ngày nay: các mô hình hiện tại tìm hiểu chuyển động nào khớp với hình ảnh camera nào, nhưng kết quả là họ không hiểu thế giới thực sự thay đổi như thế nào. Một cuộc khảo sát mới sắp xếp khoảng một trăm bài viết thành hai dòng kiến ​​trúc và cho thấy một lợi thế quan trọng: những mô hình này có thể học hỏi từ các video hàng ngày không chứa nhãn hành động của robot. Loại dữ liệu đó gần như vô dụng đối với AI chế tạo robot truyền thống. Bài viết World Action Models cung cấp cho robot khả năng mô phỏng hậu quả trước khi chúng di chuyển xuất hiện đầu tiên trên The Decode.

nghiên cứu AI Sao chép url vào clipboard Chia sẻ bài viết này Vào phần bình luận Mô hình hành động thế giới cung cấp cho robot khả năng mô phỏng hậu quả trước khi chúng di chuyển Jonathan Kemper Xem hồ sơ LinkedIn của Jonathan Kemper Ngày 17 tháng 5 năm 2026 Nano Banana Pro được nhắc nhở bởi THE DECODER Những điểm chính Một bài đánh giá gần đây giới thiệu một khung hệ thống cho "Mô hình hành động thế giới" (WAM), một lớp mô hình dành cho robot cho phép đào tạo hệ thống AI bằng cách sử dụng các video hàng ngày không được gắn nhãn. Không giống như các phương pháp tiếp cận thông thường, WAM không chỉ học hành động nào sẽ tuân theo một hình ảnh camera nhất định. Họ cũng mô phỏng cách môi trường sẽ thay đổi do hành động đó, xây dựng một cách hiệu quả mô hình bên trong của thế giới vật chất. Khoảng một trăm bài viết được phân tích trong bài đánh giá thuộc hai loại kiến ​​trúc chính. Một dòng công việc trước tiên tạo ra một video được dự đoán trong tương lai, sau đó lấy các lệnh điều khiển từ video đó, trong khi dòng còn lại xử lý song song các hành động và đầu vào trực quan. Hỏi về bài viết này… Tìm kiếm AI của robot ngày nay có một điểm yếu cơ bản: các mô hình học cách ánh xạ hình ảnh camera trực tiếp theo chuyển động. Nhưng họ không hiểu thế giới thực sự thay đổi như thế nào do hành động của họ. Một bài khảo sát mới của Đại học Fudan, Viện Đổi mới Thượng Hải và Đại học Quốc gia Singapore là nghiên cứu đầu tiên lập danh mục một cách có hệ thống một loại mô hình được thiết kế để thu hẹp khoảng cách đó: Mô hình hành động thế giới. Các tác giả lập bản đồ tất cả các Mô hình Hành động Thế giới hiện tại dọc theo hai nhánh chính, cho thấy các kiến ​​trúc liên kết và xếp tầng đã phân nhánh như thế nào kể từ năm 2024. | Hình ảnh: Wang và cộng sự. Robot mô phỏng tương lai gần của chính chúng Các mô hình tầm nhìn-ngôn ngữ-hành động hiện tại chủ yếu học cách ánh xạ trực tiếp từ quan sát đến hành động phù hợp. Các Mô hình Hành động Thế giới còn tiến xa hơn nữa. Họ cũng lập mô hình về khả năng thay đổi của môi trường, sau đó kết hợp dự đoán đó để tạo ra hành động. Các tác giả cho biết, việc hoàn trả là thực tế. Một mô hình mô phỏng kết quả của một chuyển động trước khi thực hiện sẽ khái quát hóa tốt hơn đối với các đối tượng và bối cảnh không quen thuộc. Quan trọng hơn, nó có thể học hỏi từ các cảnh quay video mà không có hành động nào của robot được gắn nhãn—chẳng hạn như các video góc nhìn thứ nhất hàng ngày. Loại dữ liệu đó gần như vô dụng đối với robot truyền thống AI.Ad DEC_D_Incontent-1 Trình tạo video thuần túy có thể tạo ra các khung hình hợp lý trong tương lai nhưng chúng không bị ràng buộc với tín hiệu điều khiển. Một nhóm nghiên cứu tại Đại học Bắc Kinh gần đây đã rút ra chính xác sự khác biệt đó trong định nghĩa thống nhất về các mô hình thế giới. Mô hình Hành động Thế giới đáp ứng cả hai điều kiện cùng một lúc. Không giống như các mô hình VLA tiêu chuẩn, WAM không chỉ tìm hiểu các hành động mà còn tìm hiểu khung tiếp theo được dự đoán của môi trường. | Hình ảnh: Wang và cộng sự. Hai kiến trúc cốt lõi Các nhà nghiên cứu sắp xếp khoảng một trăm tờ giấy thành hai dòng kiến trúc. Đầu tiên, WAM xếp tầng, hoạt động theo hai bước. Trước tiên, mô hình thế giới tạo ra hình ảnh hoặc video về cảnh tiếp theo sẽ trông như thế nào. Sau đó, mô-đun thứ hai sẽ lấy các lệnh điều khiển phù hợp từ đầu ra đó. Công việc ban đầu như UniPi tạo ra các video hoàn chỉnh và tạo ra chuyển động thông qua mô hình nghịch đảo đã học.Quảng cáo Trong kiến ​​trúc xếp tầng, trước tiên, trình tạo video lên kế hoạch cho trạng thái tiếp theo trước khi mô-đun thứ hai thực hiện các hành động cụ thể từ trạng thái đó. | Hình ảnh: Wang và cộng sự. Các phương pháp khác như AVDC hoặc 3DFlowAction sử dụng các trường chuyển động mà từ đó quỹ đạo của robot có thể được tính toán về mặt hình học. Vẫn còn những người khác - ví dụ như VPP hoặc LAPA - bỏ qua hoàn toàn các hình ảnh hiển thị và dự đoán tương lai dưới dạng biểu diễn trừu tượng, nén. Điều đó giúp tiết kiệm tính toán cần thiết để hiển thị từng pixel. Dòng thứ hai, WAM chung, kết hợp cả hai nhiệm vụ trong một mô hình duy nhất. Hoạt động như GR-1, GR-2 hoặc WorldVLA xử lý hình ảnh và hành động dưới dạng chuỗi mã thông báo thống nhất. Các biến thể dựa trên sự khuếch tán như PAD, UWM hoặc DreamZero tạo ra khung hình tương lai và chuyển động song song. Chính sách vũ trụ của Nvidia có thể sử dụng kiến trúc giống như bộ điều khiển, trình mô phỏng hoặc mô hình đánh giá.Quảng cáo DEC_D_Incontent-2 WAM chung tạo ra khung tương lai và chuyển động trong cùng một mô hình. Đôi khi cả hai chia sẻ một mạng; đôi khi chúng chạy theo các luồng riêng biệt để trao đổi thông tin. | Hình ảnh: Wang và cộng sự. Nvidia theo đuổi vai trò kép tương tự với DreamDojo, một mô hình thế giới nhận các lệnh điều khiển và tạo ra một tương lai trực quan mô phỏng từ các lệnh đó. Cuộc khảo sát cũng thảo luận về π0,7, sử dụng mô hình thế giới không phải để thay thế mà là nhà cung cấp. Nó đưa các khung hình tưởng tượng trong tương lai vào bối cảnh của AI chế tạo robot đã được đào tạo trước, sau đó tạo ra chuyển động. Nút thắt thực sự là dữ liệu Cả một chương đào sâu vào nguồn gốc của dữ liệu đào tạo. Bốn nguồn định hình trường. Dữ liệu vận hành từ xa từ các robot điều khiển từ xa rất chính xác nhưng đắt tiền và bị giới hạn ở một số môi trường. Các bộ dữ liệu như Open X-Embodiment hoặc DROID cố gắng khắc phục điều đó bằng cách tổng hợp dữ liệu từ nhiều phòng thí nghiệm. Các công cụ demo di động như Giao diện Thao tác Đa năng giúp loại bỏ sự phụ thuộc phần cứng: mọi người thực hiện các tác vụ bằng dụng cụ kẹp cầm tay trong cài đặt hàng ngày. Nguồn dữ liệu càng dễ mở rộng quy mô thì càng khó chuyển sang robot. Những video về con người lấy cái tôi làm trung tâm là trường hợp cực đoan. | Hình ảnh: Wang và cộng sự. Bộ dữ liệu RDT2 thu thập khoảng 10.000 giờ tài liệu theo cách này. Các mô phỏng như RoboCasa hoặc RoboTwin 2.0 cung cấp quỹ đạo không giới hạn với dữ liệu có chiều sâu hoàn hảo nhưng lại có khoảng cách giữa sim và thực thường gặp. Nvidia tập trung vào phương pháp này với GR00T N1, chủ yếu đào tạo robot hình người trong môi trường tổng hợp. Các video hàng ngày lấy cá nhân làm trung tâm từ Ego4D cung cấp sự đa dạng không giới hạn nhưng không chứa nhãn hành động. Đây là nơi các Mô hình Hành động Thế giới thể hiện lợi thế của họ. Họ có thể sử dụng những video đó để dự đoán các khung hình trong tương lai ngay cả khi không có dữ liệu chuyển động. Đánh giá không theo kịp sự phát triển Các tác giả đặc biệt phê phán về

Nguồn tin: The Decoder — Tác giả: Jonathan Kemper. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.