Lựa chọn cơ bản trong Học tăng cường: On-Policy và Off-Policy |…

Lựa chọn cơ bản trong Học tăng cường: On-Policy và Off-Policy Bài viết Lựa chọn cơ bản trong Học tăng cường: On-Policy và Off-Policy xuất hiện đầu tiên trên Towards Data Science.

Học tăng cường Sự lựa chọn cơ bản trong học tăng cường: Theo chính sách so với Ngoài chính sách Cách một lựa chọn đơn giản định hình sự khám phá, an toàn và hiệu quả Ananya Bhattacharyya Ngày 5/6/2026 18 phút đọc Chia sẻ Học tăng cường thường được giới thiệu thông qua một danh sách dài các thuật toán. SARSA, Q-learning, PPO, DQN, SAC, v.v. Mỗi tên dường như chỉ ra một phương pháp khác nhau, một thủ thuật khác nhau hoặc một công thức toán học khác nhau. Nhưng nhiều thuật toán này được xây dựng dựa trên một câu hỏi đơn giản hơn nhiều: Liệu một tác nhân chỉ nên học từ hành vi mà nó hiện đang sử dụng, hay nó cũng có thể học từ hành vi được tạo ra theo một cách khác? Đó là sự khác biệt cốt lõi giữa học theo chính sách và học ngoài chính sách. Để làm cho sự phân biệt đó trở nên trực quan, chúng ta cần một định nghĩa cơ bản. Trong học tăng cường, một chính sách là quy tắc hoặc chiến lược mà một tác nhân sử dụng để quyết định hành động nào sẽ thực hiện trong mỗi tình huống. Khi ý tưởng đó rõ ràng, sự tương phản sẽ dễ nhận thấy hơn. Một phương pháp theo chính sách học từ cùng một chiến lược mà tác nhân hiện đang tuân theo. Một phương pháp ngoài chính sách tách biệt hai điều này. Tác nhân có thể hành xử theo một chiến lược trong khi học về một chiến lược khác. Đây không chỉ là thuật ngữ. Nó ảnh hưởng đến một số thuộc tính quan trọng nhất của thuật toán học: cách nó khám phá, lượng dữ liệu nó cần, liệu nó có thể học từ kinh nghiệm cũ hay không và mức độ ổn định của quá trình huấn luyện. Trong các trường hợp dữ liệu rẻ, đây có vẻ là một lựa chọn kỹ thuật. Trong các trường hợp dữ liệu tốn kém, chậm hoặc rủi ro khi thu thập, nó trở thành một điều cần thiết thực tế. Hãy xem xét một robot học cách di chuyển trong một nhà kho bận rộn. Vì lý do an toàn, hành vi của nó trong quá trình huấn luyện có thể cần phải thận trọng. Một phương pháp theo chính sách cải thiện trực tiếp hành vi thận trọng đó. Một phương pháp ngoài chính sách cho phép một điều linh hoạt hơn, ví dụ: robot có thể tiếp tục hành động thận trọng trong khi học, từ kinh nghiệm thu thập được, về một chiến lược khác có thể hoạt động tốt hơn. Sự tách biệt giữa cách một tác nhân hành xử và những gì nó học được là ý tưởng chính đằng sau học ngoài chính sách. Sự phân biệt duy nhất này giúp tổ chức một phần lớn của học tăng cường. Nó giải thích sự tương phản cổ điển giữa SARSA và Q-learning, và nó tiếp tục định hình nhiều phương pháp học tăng cường sâu hiện đại. Trong bài viết này, chúng ta sẽ phân tích cẩn thận ý tưởng đó, bắt đầu từ cài đặt dạng bảng nơi mọi cập nhật đều minh bạch, và sau đó sử dụng nền tảng đó để xây dựng trực giác cho bối cảnh học tăng cường rộng lớn hơn. Những gì bạn sẽ nhận được: Các phương pháp theo chính sách học từ cùng một chiến lược mà tác nhân hiện đang sử dụng để tương tác với môi trường. Chúng thường ổn định hơn và dễ hiểu hơn, nhưng chúng thường không thể sử dụng nhiều dữ liệu cũ. SARSA là ví dụ dạng bảng tiêu chuẩn về học theo chính sách. Các phương pháp ngoài chính sách học về một chiến lược mục tiêu bằng cách sử dụng dữ liệu được thu thập từ một chiến lược hành vi khác. Điều này làm cho chúng hiệu quả hơn về dữ liệu và cho phép chúng học từ bộ đệm phát lại, dữ liệu đã ghi hoặc kinh nghiệm của một tác nhân khác, nhưng quá trình huấn luyện có thể kém ổn định hơn. Q-learning là ví dụ dạng bảng tiêu chuẩn về học ngoài chính sách. Expected SARSA nằm giữa chúng bằng cách lấy kỳ vọng trên các hành động tiếp theo, nó thường làm giảm phương sai và có thể được sử dụng trong cả cài đặt theo chính sách hoặc ngoài chính sách. Sự phân biệt này ảnh hưởng đến một số thuộc tính quan trọng nhất của hệ thống học tăng cường, bao gồm khám phá, hiệu quả mẫu, sự ổn định và an toàn trong quá trình học. Các phương pháp dạng bảng không chỉ là những bước đệm lịch sử, mà còn cung cấp cách rõ ràng nhất để xây dựng trực giác cho những ý tưởng tương tự xuất hiện trong học tăng cường sâu (Deep RL) hiện đại. Để phân biệt rõ ràng điều này, chúng ta cần lùi lại và đặt một câu hỏi cơ bản hơn: một tác nhân học tăng cường (RL agent) thực sự đang cố gắng học điều gì? Trước khi so sánh các thuật toán như SARSA và Q-learning, việc hiểu đối tượng mà chúng đang cập nhật sẽ hữu ích. Trong hầu hết các phương pháp RL dạng bảng, tác nhân không học trực tiếp các hành động; mà học các ước tính về mức độ tốt của các hành động khác nhau trong các tình huống khác nhau. Khi ý tưởng đó rõ ràng, sự khác biệt giữa học theo chính sách (on-policy) và học ngoài chính sách (off-policy) sẽ dễ nhận thấy hơn nhiều. 1. Tác nhân đang cố gắng học điều gì? Hãy tưởng tượng một tác nhân đang di chuyển trong một thế giới. Ở mỗi bước, tác nhân ở một trạng thái s nào đó, chọn một hành động a, nhận một phần thưởng r, và đến một trạng thái mới s'. Mục tiêu của tác nhân: tối đa hóa tổng phần thưởng thu thập được theo thời gian. Nhưng để làm được điều đó, tác nhân cần một cách để đánh giá các lựa chọn của mình. Tác nhân phải trả lời các câu hỏi như: Thực hiện hành động (a) trong trạng thái (s) có phải là một ý tưởng tốt không? Liệu lựa chọn đó có dẫn đến phần thưởng tốt hơn sau này không? Câu trả lời phụ thuộc vào những gì tác nhân làm tiếp theo đến mức nào? Một khái niệm trung tâm trong học tăng cường là hàm giá trị hành động, thường được viết là (Q(s, a)). Nói một cách đơn giản, hàm này đo lường mức độ tốt của việc thực hiện hành động (a) trong trạng thái (s), không chỉ tính đến phần thưởng tức thì, mà còn cả những phần thưởng trong tương lai có thể theo sau. Chính xác hơn, theo một chính sách π, hàm giá trị hành động được định nghĩa là lợi nhuận kỳ vọng khi chúng ta bắt đầu ở trạng thái s, thực hiện hành động a, và sau đó tuân theo chính sách π mãi mãi: trong đó (Gt) là tổng lợi nhuận chiết khấu từ bước thời gian (t): Kết hợp những điều đó lại, chúng ta có thể viết hàm giá trị hành động một cách rõ ràng như sau: Ký hiệu có vẻ phức tạp lúc đầu, nhưng trực giác rất đơn giản: Nếu tôi thực hiện hành động (a) trong trạng thái (s) bây giờ, và sau đó tiếp tục tuân theo chính sách (π), tôi nên mong đợi tổng phần thưởng là bao nhiêu? Giá trị của một hành động không chỉ phụ thuộc vào những gì xảy ra ngay sau khi nó được thực hiện. Nó còn phụ thuộc vào những gì tác nhân làm sau đó. Cùng một hành động có thể có các giá trị khác nhau dưới các chiến lược tương lai khác nhau. Đó là lý do tại sao hàm giá trị hành động luôn được định nghĩa theo một chính sách. Và đây chính là nơi bắt đầu sự phân biệt giữa học theo chính sách và học ngoài chính sách. Chúng ta phải nhớ hai thuật ngữ quan trọng: Chính sách mục tiêu (π): chính sách mà tác nhân đang cố gắng đánh giá hoặc cải thiện. Chính sách hành vi (b): chính sách thực sự