ByteDance giới thiệu Astra: Kiến trúc mô hình kép để điều hướng…

Sự tích hợp ngày càng tăng của robot trong nhiều lĩnh vực khác nhau, từ sản xuất công nghiệp đến cuộc sống hàng ngày, làm nổi bật nhu cầu ngày càng tăng về các hệ thống định vị tiên tiến. Tuy nhiên, các hệ thống định vị robot hiện đại phải đối mặt với những thách thức đáng kể trong môi trường trong nhà đa dạng và phức tạp, bộc lộ những hạn chế của các phương pháp truyền thống. Giải quyết các câu hỏi cơ bản như “Tôi đang ở đâu?”, “Tôi sẽ đi đâu?” và “Làm cách nào để đến đó?”, ByteDance đã phát triển Astra, một kiến trúc mô hình kép cải tiến được thiết kế để khắc phục các tắc nghẽn điều hướng truyền thống này và hỗ trợ các rô-bốt di động có mục đích chung. Các hệ thống định vị truyền thống thường bao gồm nhiều mô-đun nhỏ hơn và thường dựa trên quy tắc để xử lý các thách thức cốt lõi về bản địa hóa mục tiêu, tự bản địa hóa và lập kế hoạch đường dẫn. Bản địa hóa mục tiêu liên quan đến việc hiểu ngôn ngữ tự nhiên hoặc tín hiệu hình ảnh để xác định điểm đến trên bản đồ. Khả năng tự bản địa hóa yêu cầu robot xác định vị trí chính xác của nó trong bản đồ, đặc biệt thách thức trong các môi trường lặp đi lặp lại như nhà kho nơi các phương pháp truyền thống thường dựa vào các mốc nhân tạo (ví dụ: mã QR). Lập kế hoạch đường đi còn chia thành lập kế hoạch toàn cầu để tạo tuyến đường thô và lập kế hoạch cục bộ để tránh chướng ngại vật theo thời gian thực và đến các điểm trung gian. Trong khi các mô hình nền tảng tỏ ra hứa hẹn trong việc tích hợp các mô hình nhỏ hơn để giải quyết các nhiệm vụ rộng hơn, số lượng mô hình tối ưu và sự tích hợp hiệu quả của chúng để điều hướng toàn diện vẫn là một câu hỏi mở. ByteDance's Astra, được trình bày chi tiết trong bài báo của họ “Astra: Hướng tới robot di động có mục đích chung thông qua học tập đa phương thức phân cấp” (trang web: https://astra-mobileity.github.io/), giải quyết những hạn chế này. Theo mô hình Hệ thống 1/Hệ thống 2, Astra có hai mô hình phụ chính: Astra-Global và Astra-Local. Astra-Global xử lý các tác vụ tần suất thấp như mục tiêu và tự định vị, trong khi Astra-Local quản lý các tác vụ tần suất cao như lập kế hoạch đường đi cục bộ và ước tính đo đường. Kiến trúc này hứa hẹn sẽ cách mạng hóa cách robot điều hướng các không gian phức tạp trong nhà. Astra-Global: Bộ não thông minh để bản địa hóa toàn cầu Astra-Global đóng vai trò là lõi thông minh của kiến trúc Astra, chịu trách nhiệm thực hiện các nhiệm vụ quan trọng có tần suất thấp: tự bản địa hóa và bản địa hóa mục tiêu. Nó hoạt động như một Mô hình ngôn ngữ lớn đa phương thức (MLLM), có khả năng xử lý cả đầu vào ngôn ngữ và hình ảnh để đạt được vị trí toàn cầu chính xác trong bản đồ. Điểm mạnh của nó nằm ở việc sử dụng biểu đồ ngữ nghĩa tôpô lai làm đầu vào theo ngữ cảnh, cho phép mô hình xác định chính xác các vị trí dựa trên hình ảnh truy vấn hoặc lời nhắc văn bản. Việc xây dựng hệ thống bản địa hóa mạnh mẽ này bắt đầu bằng việc lập bản đồ ngoại tuyến. Nhóm nghiên cứu đã phát triển một phương pháp ngoại tuyến để xây dựng đồ thị ngữ nghĩa tôpô lai G=(V,E,L): V (Nút): Các khung hình chính, thu được bằng cách lấy mẫu xuống theo thời gian của video đầu vào và tư thế máy ảnh 6 bậc tự do (DoF) theo ước tính của SfM, hoạt động như các nút mã hóa tư thế máy ảnh và tham chiếu mốc. E (Cạnh): Các cạnh vô hướng thiết lập kết nối dựa trên vị trí nút tương đối, rất quan trọng cho việc lập kế hoạch đường dẫn toàn cầu. L (Mốc): Thông tin về mốc ngữ nghĩa được Astra-Global trích xuất từ dữ liệu trực quan tại mỗi nút, làm phong phú thêm hiểu biết về ngữ nghĩa của bản đồ. Các mốc này lưu trữ các thuộc tính ngữ nghĩa và được kết nối với nhiều nút thông qua các mối quan hệ đồng hiển thị. Trong bản địa hóa thực tế, khả năng tự bản địa hóa và bản địa hóa mục tiêu của Astra-Global thúc đẩy quy trình hai giai đoạn từ thô đến tinh tế để bản địa hóa ngôn ngữ hình ảnh. Giai đoạn thô phân tích hình ảnh đầu vào và lời nhắc bản địa hóa, phát hiện các mốc, thiết lập sự tương ứng với bản đồ mốc được tạo sẵn và lọc các ứng cử viên dựa trên tính nhất quán trực quan. Sau đó, giai đoạn tinh tế sử dụng hình ảnh truy vấn và đầu ra thô để lấy mẫu các nút bản đồ tham chiếu từ bản đồ ngoại tuyến, so sánh thông tin hình ảnh và vị trí của chúng để xuất trực tiếp tư thế được dự đoán. Để bản địa hóa mục tiêu dựa trên ngôn ngữ, mô hình diễn giải các hướng dẫn ngôn ngữ tự nhiên, xác định các mốc có liên quan bằng cách sử dụng mô tả chức năng của chúng trong bản đồ và sau đó tận dụng các cơ chế liên kết giữa các điểm mốc để xác định vị trí các nút có liên quan, truy xuất hình ảnh mục tiêu và tư thế 6-DoF. Để trao quyền cho Astra-Global khả năng bản địa hóa mạnh mẽ, nhóm đã sử dụng một phương pháp đào tạo tỉ mỉ. Sử dụng Qwen2.5-VL làm xương sống, họ đã kết hợp Tinh chỉnh được giám sát (SFT) với Tối ưu hóa chính sách tương đối nhóm (GRPO). SFT liên quan đến các bộ dữ liệu đa dạng cho các nhiệm vụ khác nhau, bao gồm bản địa hóa thô và tinh, phát hiện khả năng hiển thị đồng thời và ước tính xu hướng chuyển động. Trong giai đoạn GRPO, chức năng khen thưởng dựa trên quy tắc (bao gồm định dạng, trích xuất mốc, khớp bản đồ và phần thưởng mốc bổ sung) đã được sử dụng để đào tạo bản địa hóa ngôn ngữ hình ảnh. Các thử nghiệm cho thấy GRPO đã cải thiện đáng kể khả năng khái quát hóa không bắn của Astra-Global, đạt được độ chính xác bản địa hóa 99,9% trong môi trường gia đình không nhìn thấy, vượt qua các phương pháp chỉ SFT. Astra-Local: Trợ lý thông minh cho quy hoạch địa phương Astra-Local đóng vai trò là trợ lý thông minh cho các tác vụ tần suất cao của Astra, một mạng đa tác vụ có khả năng tạo ra các đường dẫn cục bộ một cách hiệu quả và ước tính chính xác phép đo đường từ dữ liệu cảm biến. Kiến trúc của nó bao gồm ba thành phần cốt lõi: bộ mã hóa không gian-thời gian 4D, đầu lập kế hoạch và đầu đo hình. Bộ mã hóa không gian-thời gian 4D thay thế các mô-đun dự đoán và nhận biết ngăn xếp di động truyền thống. Nó bắt đầu với bộ mã hóa không gian 3D xử lý N hình ảnh đa hướng thông qua Vision Transformer (ViT) và Lift-Splat-Shoot để chuyển đổi các tính năng hình ảnh 2D thành các tính năng voxel 3D. Bộ mã hóa 3D này được đào tạo bằng cách sử dụng phương pháp học tự giám sát thông qua kết xuất thần kinh có thể vi phân theo thể tích 3D. Sau đó, bộ mã hóa không gian-thời gian 4D được xây dựng dựa trên bộ mã hóa 3D, lấy các tính năng voxel trước đây và dấu thời gian trong tương lai

ByteDance giới thiệu Astra: Kiến trúc mô hình kép để điều hướng robot tự động