Lập kế hoạch dựa trên độ dốc cho các mô hình thế giới ở tầm…

GRASP là một công cụ lập kế hoạch dựa trên độ dốc mới cho các động lực đã học ("mô hình thế giới") giúp lập kế hoạch trong thời gian dài trở nên thực tế bằng cách (1) nâng quỹ đạo lên các trạng thái ảo để tối ưu hóa song song theo thời gian, (2) thêm tính ngẫu nhiên trực tiếp vào trạng thái lặp lại để khám phá và (3) định hình lại độ dốc để các hành động nhận được tín hiệu rõ ràng trong khi chúng ta tránh các độ dốc "đầu vào trạng thái" dễ vỡ thông qua các mô hình tầm nhìn nhiều chiều. Các mô hình thế giới rộng lớn, có học thức ngày càng trở nên có năng lực. Họ có thể dự đoán chuỗi dài các quan sát trong tương lai trong không gian thị giác nhiều chiều và khái quát hóa các nhiệm vụ theo những cách mà vài năm trước khó có thể tưởng tượng được. Khi các mô hình này mở rộng quy mô, chúng bắt đầu trông ít giống các công cụ dự đoán dành riêng cho nhiệm vụ hơn và giống các trình mô phỏng có mục đích chung hơn. Nhưng việc có một mô hình dự đoán mạnh mẽ không đồng nghĩa với việc có thể sử dụng nó một cách hiệu quả để kiểm soát/học tập/lập kế hoạch. Trong thực tế, việc lập kế hoạch dài hạn với các mô hình thế giới hiện đại vẫn còn mong manh: việc tối ưu hóa trở nên thiếu điều kiện, cấu trúc không tham lam tạo ra các cực tiểu cục bộ xấu và các không gian tiềm ẩn nhiều chiều tạo ra các dạng thất bại tinh vi. Trong bài đăng trên blog này, tôi mô tả các vấn đề đã thúc đẩy dự án này và cách tiếp cận của chúng tôi để giải quyết chúng: tại sao việc lập kế hoạch bằng các mô hình thế giới hiện đại lại có thể mong manh một cách đáng ngạc nhiên, tại sao tầm nhìn dài lại là bài kiểm tra căng thẳng thực sự và những gì chúng tôi đã thay đổi để khiến việc lập kế hoạch dựa trên độ dốc trở nên mạnh mẽ hơn nhiều. Bài đăng trên blog này thảo luận về công việc được thực hiện với Mike Rabbat, Aditi Krishnapriyan, Yann LeCun và Amir Bar (* biểu thị vai trò cố vấn bình đẳng), trong đó chúng tôi đề xuất GRASP. Mô hình thế giới là gì? Ngày nay, thuật ngữ “mô hình thế giới” khá quá tải và tùy thuộc vào ngữ cảnh có thể có nghĩa là một mô hình động lực rõ ràng hoặc một trạng thái nội bộ tiềm ẩn, đáng tin cậy nào đó mà một mô hình tổng quát dựa vào (ví dụ: khi LLM tạo ra các nước cờ, liệu có một số biểu diễn bên trong của bàn cờ hay không). Chúng tôi đưa ra định nghĩa làm việc lỏng lẻo dưới đây. Giả sử bạn thực hiện các hành động $a_t \in \mathcal{A}$ và quan sát các trạng thái $s_t \in \mathcal{S}$ (hình ảnh, vectơ tiềm ẩn, khả năng cảm nhận bản thể). Mô hình thế giới là một mô hình đã học được, dựa trên trạng thái hiện tại và chuỗi hành động trong tương lai, dự đoán điều gì sẽ xảy ra tiếp theo. Về mặt hình thức, nó xác định phân phối dự đoán trên một chuỗi các trạng thái được quan sát $s_{t-h:t}$ và hành động hiện tại $a_t$: \[P_\theta(s_{t+1} \mid s_{t-h:t},\; a_t)\] gần đúng với điều kiện thực sự của môi trường $P(s_{t+1} \mid s_{t-h:t},\; a_t)$. Đối với bài đăng trên blog này, chúng tôi sẽ giả sử mô hình Markovian $P(s_{t+1} \mid s_{t-h:t},\; a_t)$ để đơn giản (tất cả các kết quả ở đây có thể được mở rộng sang trường hợp tổng quát hơn) và khi mô hình mang tính quyết định, nó sẽ giảm xuống thành bản đồ trên các trạng thái: \[s_{t+1} = F_\theta(s_t, a_t).\] Trong thực tế, trạng thái $s_t$ thường là một biểu diễn tiềm ẩn đã học (ví dụ: được mã hóa từ pixel), do đó mô hình hoạt động trong một không gian nhỏ gọn (về mặt lý thuyết), có thể vi phân. Điểm mấu chốt là mô hình thế giới cung cấp cho bạn một trình mô phỏng có thể phân biệt được; bạn có thể cuộn nó về phía trước theo chuỗi hành động giả định và truyền ngược lại thông qua các dự đoán. Lập kế hoạch: lựa chọn hành động bằng cách tối ưu hóa thông qua mô hình Với khởi đầu $s_0$ và mục tiêu $g$, người lập kế hoạch đơn giản nhất sẽ chọn chuỗi hành động $\mathbf{a}=(a_0,\dots,a_{T-1})$ bằng cách triển khai mô hình và giảm thiểu lỗi thiết bị đầu cuối: \[\min_{\mathbf{a}} \; \| s_T(\mathbf{a}) - g \|_2^2, \quad \text{where } s_T(\mathbf{a}) = \mathcal{F__{\theta}^{T}(s_0,\mathbf{a}).\] Ở đây, chúng tôi sử dụng $\mathcal{F}^T$ làm tốc ký cho quá trình triển khai đầy đủ thông qua mô hình thế giới (sự phụ thuộc vào các tham số mô hình $\theta$ là ẩn): \[\mathcal{F__{\theta}^{T}(s_0, \mathbf{a}) = F_\theta(F_\theta(\cdots F_\theta(s_0, a_0), \cdots, a_{T-2}), a_{T-1}).\] Trong những chân trời ngắn và hệ thống có chiều thấp, điều này có thể hoạt động khá tốt. Nhưng khi tầm nhìn mở rộng và các mô hình trở nên lớn hơn và có tính biểu cảm cao hơn, điểm yếu của nó càng được khuếch đại. Vậy tại sao điều này không hoạt động ở quy mô lớn? Tại sao việc lập kế hoạch dài hạn lại khó khăn (ngay cả khi mọi thứ đều có thể khác biệt được) Có hai điểm yếu riêng biệt đối với mô hình thế giới tổng quát hơn, cộng với điểm thứ ba dành riêng cho các mô hình dựa trên học tập sâu, đã học. 1) Triển khai theo chiều dài tạo ra các biểu đồ tính toán sâu, không có điều kiện Những người quen thuộc với backprop xuyên thời gian (BPTT) có thể nhận thấy rằng chúng ta đang phân biệt thông qua một mô hình được áp dụng cho chính nó nhiều lần, điều này sẽ dẫn đến vấn đề độ dốc bùng nổ/biến mất. Cụ thể là, nếu chúng ta lấy đạo hàm (lưu ý rằng chúng ta đang vi phân các hàm có giá trị vectơ, dẫn đến các hàm Jacobian mà chúng ta biểu thị bằng $D_x (\cdots)$) đối với các hành động trước đó (ví dụ: $a_0$): \[D_{a_0} \mathcal{F__{\theta}^{T}(s_0, \mathbf{a}) = \Bigl(\prod_{t=1}^T D_s F_\theta(s_t, a_t)\Bigr) D_{a_0}F_\theta(s_0, a_0).\] Chúng ta thấy rằng điều hòa Jacobian tỉ lệ theo cấp số nhân theo thời gian $T$: \[\sigma_{\text{max/min}}(D_{a_0}\mathcal{F__{\theta}^{T}) \sim \sigma_{\text{max/min}}(D_s F_\theta)^{T-1},\] dẫn đến sự bùng nổ hoặc biến mất của gradient. 2) Cảnh quan không tham lam và đầy cạm bẫy Trong tầm nhìn ngắn hạn, giải pháp tham lam, trong đó chúng ta tiến thẳng tới mục tiêu ở mỗi bước, thường là đủ tốt. Nếu bạn chỉ cần lên kế hoạch trước một vài bước, quỹ đạo tối ưu thường không lệch nhiều so với “hướng tới $g$” ở mỗi bước. Khi chân trời mở rộng, có hai điều xảy ra. Đầu tiên, những nhiệm vụ dài hơn có nhiều khả năng yêu cầu hành vi không tham lam: đi vòng qua bức tường, định vị lại trước khi đẩy, lùi lại để đi đường tốt hơn. Và khi tầm nhìn mở rộng, những bước đi không tham lam này thường cần thiết hơn. Thứ hai, không gian tối ưu hóa tự mở rộng theo đường chân trời: $\mathrm{dim}(\mathcal{A} \times \cdots \times \mathcal{A}) = T\mathrm{dim}(\mathcal{A})$, tiếp tục mở rộng không gian cực tiểu cục bộ cho bài toán tối ưu hóa. Khoảng cách đến mục tiêu dọc theo con đường tối ưu là không đơn điệu và kết quả là bối cảnh tổn thất có thể khó khăn. Cách khắc phục có tầm nhìn dài: dỡ bỏ ràng buộc động lực học Giả sử chúng ta xử lý ràng buộc động $s_{t+1} = F_{\theta}(s_t

Lập kế hoạch dựa trên độ dốc cho các mô hình thế giới ở tầm nhìn xa hơn