Bỏ qua tới nội dung chính
Quay lại tin tức

Tương lai của AI vật lý không phải là những robot thông minh hơn, mà là những giao diện thông minh hơn.

IEEE Spectrum AI· Wetour Robotics· 21/5/2026general

Bài viết được tài trợ này do Wetour Robotics cung cấp. Một kỹ thuật viên hiện trường trên tuabin gió, dây đai an toàn đã được cài, hai tay đang giữ cờ lê, cần gửi lệnh đến thiết bị chẩn đoán treo ở thắt lưng. Một nhân viên hậu cần tại bến bốc dỡ, đeo găng tay, mắt tập trung vào pallet, cần điều hướng một xe nâng đã kết nối. Một người sử dụng thiết bị hỗ trợ di chuyển trên đường phố đông đúc muốn đẩy thiết bị tiến lên mà không cần lấy điện thoại ra hoặc nói thành tiếng. Không khoảnh khắc nào trong số này đòi hỏi một robot thông minh hơn. Chúng đòi hỏi một cách thức thông minh hơn để được các cỗ máy hiện có lắng nghe. Ngành công nghiệp đã và đang xây dựng

Bài viết được tài trợ bởi Wetour Robotics. Một kỹ thuật viên hiện trường trên tuabin gió, dây an toàn đã được cài, cả hai tay đang giữ cờ lê, cần gửi lệnh đến thiết bị chẩn đoán treo ở thắt lưng. Một nhân viên hậu cần tại bến bốc dỡ, đeo găng tay, mắt tập trung vào pallet, cần điều hướng một xe nâng đã kết nối. Một người sử dụng thiết bị hỗ trợ di chuyển trên một con phố đông đúc muốn đẩy thiết bị tiến lên mà không cần lấy điện thoại ra hoặc nói thành tiếng. Không khoảnh khắc nào trong số này đòi hỏi một robot thông minh hơn. Chúng đòi hỏi một cách thông minh hơn để được các cỗ máy hiện có lắng nghe. Ngành công nghiệp đã xây dựng từ một phía Ba năm qua của Trí tuệ nhân tạo vật lý (Physical AI) là câu chuyện về những tiến bộ đáng kể ở phía robot của vòng lặp. Các công ty như Boston Dynamics, Figure và Unitree đã phát triển bộ truyền động, khả năng di chuyển và sự khéo léo đến mức mà một thập kỷ trước dường như không thể tin được. Gemini Robotics của Google DeepMind đã định nghĩa lại những gì các mô hình thị giác-ngôn ngữ-hành động có thể làm trong các môi trường không có cấu trúc. Quỹ đạo của phần cứng và các mô hình nền tảng là có thật, và nó đang tăng tốc. Nhưng có một khía cạnh khác của vòng lặp này, và nó đã bị coi là một vấn đề đã được giải quyết quá lâu. Giao diện giữa con người và máy móc đã mặc định, trong 40 năm, ba phương thức nhập liệu: màn hình, nút bấm và giọng nói. Mỗi phương thức đó đều giả định người dùng có thể dừng lại, nhìn xuống và chuyển đổi ý định thành các lệnh có cấu trúc. Giả định đó sụp đổ ngay khi công việc di chuyển vào một môi trường thực tế. Trên tuabin. Trên bến cảng. Trên vỉa hè. Trong bất kỳ môi trường nào mà tay đang bận, mắt đang tập trung hoặc việc nói chuyện không thực tế, ngăn xếp giao diện thông thường sẽ lặng lẽ thất bại. Spatial Intent Fusion (Hợp nhất ý định không gian) là quá trình xử lý đồng thời ba luồng thông tin lấy con người làm trung tâm, cụ thể là vị trí không gian, ngữ cảnh hình ảnh và ý định cử chỉ: Cơ thể của bạn là giao diện. Nút thắt cổ chai ở phía con người đang trở nên quan trọng như nút thắt ở phía máy móc. Và để giải quyết vấn đề này đòi hỏi một câu hỏi khác. Không phải làm thế nào để robot có năng lực hơn, mà là làm thế nào để con người có thể tham gia vào hệ thống máy tính một cách tự nhiên như robot đã làm. Wetour Robotics đặt cược: đưa con người trở lại vòng lặp tính toán. Wetour Robotics đang đặt cược rằng bước nhảy vọt kiến trúc tiếp theo trong AI vật lý không phải là làm cho robot có năng lực hơn. Đó là biến con người thành một nút hạng nhất trong mạng máy tính, với sự tham gia có độ trễ thấp, độ trung thực cao mà các thiết bị được kết nối đã có. Các kỹ sư của Wetour Robotics đặt vấn đề như sau: một chiếc vòng tay nhận dạng cử chỉ là không đủ. Một camera nhận dạng một cảnh là không đủ. Thông tin mà con người mang theo về những gì họ sắp làm được phân phối qua nhiều kênh, bao gồm vị trí cơ thể của họ trong không gian, những gì mắt họ đang chú ý và những gì cơ bắp của họ đang chuẩn bị làm, và bất kỳ kênh đơn lẻ nào được quan sát riêng lẻ đều mơ hồ. Tái tạo ý định một cách đáng tin cậy có nghĩa là hợp nhất các kênh đó ở cấp độ hệ điều hành, với độ trễ đủ thấp để vòng lặp cảm thấy khép kín chứ không phải được điều hòa. Cách tiếp cận này có một tên gọi. Wetour Robotics gọi đó là Spatial Intent Fusion (Hợp nhất ý định không gian): xử lý đồng thời ba luồng thông tin lấy con người làm trung tâm, cụ thể là vị trí không gian, ngữ cảnh hình ảnh và ý định cử chỉ, được hợp nhất thành một lệnh thời gian thực duy nhất cho bất kỳ thiết bị vật lý được kết nối nào. Đây là triển khai kỹ thuật đằng sau một tuyên bố định vị đơn giản hơn mà công ty sử dụng bên ngoài: cơ thể của bạn là giao diện. Orchestra là một trung tâm thông minh di động chạy hệ điều hành xử lý hợp nhất cảm biến, suy luận ý định, dịch lệnh và phân xử an toàn. Nền tảng tính toán tham chiếu là NVIDIA Jetson Orin Nano Super, cung cấp đủ khả năng suy luận trên thiết bị để giữ toàn bộ vòng điều khiển ở biên, không phụ thuộc vào đám mây trên đường dẫn quan trọng. Wetour Robotics Kiến trúc: ba lớp, bốn công cụ, một vòng lặp Orchestra không phải là một thiết bị duy nhất mà là một nền tảng phân lớp, được thiết kế ngay từ đầu để linh hoạt về cảm biến và không phụ thuộc vào bộ truyền động. Kiến trúc phân tách thành ba lớp nhận thức và bốn công cụ phối hợp. Bản thân Orchestra là lõi tính toán và điều phối cục bộ: một trung tâm thông minh di động chạy hệ điều hành xử lý hợp nhất cảm biến, suy luận ý định, dịch lệnh và phân xử an toàn. Nền tảng tính toán tham chiếu là NVIDIA Jetson Orin Nano Super, cung cấp đủ khả năng suy luận trên thiết bị để giữ toàn bộ vòng điều khiển ở biên, không phụ thuộc vào đám mây trên đường dẫn quan trọng. Suy luận biên là không thể thương lượng đối với ứng dụng này. Độ trễ toàn chuỗi từ thu nhận tín hiệu sinh học đến lệnh bộ truyền động được giữ dưới 100 mili giây, giới hạn mà trong đó điều khiển vòng kín cảm thấy tự nhiên chứ không bị trễ. VisionLink xử lý nhận thức thị giác và không gian. Camera cấp dữ liệu cho các mô hình thị giác xác định đối tượng, ước tính khoảng cách và theo dõi ngữ cảnh môi trường. VisionLink được thiết kế không phải là một lớp nhận dạng thụ động mà là một bộ tạo lệnh thời gian thực: đầu ra của nó cấp trực tiếp vào Hệ điều hành Orchestra để được hợp nhất với dữ liệu tín hiệu sinh học. Conductor là đường ống tín hiệu sinh học. Nó thu nhận dữ liệu điện cơ bề mặt (sEMG) thô từ một thiết bị đeo ở cổ tay, phân loại các mẫu thời gian thành các cử chỉ rời rạc hoặc tín hiệu điều khiển liên tục. và xuất ra các lệnh điều khiển bộ truyền động. Đặc tính kỹ thuật thú vị của sEMG trong trường hợp sử dụng này là tín hiệu xuất hiện trước chuyển động có thể nhìn thấy. Điện thế hoạt động của đơn vị vận động xuất hiện trên bề mặt da khoảng 50 đến 80 mili giây trước khi ngón tay hoàn thành cử chỉ tương ứng. Wetour Robotics gọi đặc tính này là cảm biến ý định tiền chuyển động, và đây là điều cho phép Orchestra dự đoán ý định của người dùng thay vì phản ứng lại. Ngoài ba lớp nhận thức, Orchestra OS còn vận hành bốn công cụ điều phối. Công cụ Nhận thức thu thập và chuẩn hóa các luồng cảm biến thô. Công cụ Ý định thực hiện Hợp nhất Ý định Không gian trên các phương thức.

Nguồn tin: IEEE Spectrum AI — Tác giả: Wetour Robotics. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.