Cộng đồng mã nguồn mở đang ủng hộ OpenEnv cho Học tăng cường (RL) dựa trên tác tử (Agentic RL).
Trở lại các bài viết
Cộng đồng mã nguồn mở đang hỗ trợ OpenEnv cho Agentic RL
Đã xuất bản
Ngày 8/6/2026
Cập nhật trên GitHub
Bình chọn 1
ben burtenshaw burtenshaw Theo dõi
Joseph Spisak spisakjo Theo dõi
Lysandre lysandre Theo dõi
Davide Testuggine darktex Theo dõi
will brown willcb Theo dõi
Charles Frye charlesfrye Theo dõi
Chris Wing cwing-nv Theo dõi
Daniel (Unsloth) danielhanchen Theo dõi
Andrew Zhou andrewzhou Theo dõi
Michael Han shimmyshimmer Theo dõi
Hamid Shojanazeri Hamid-Nazeri Theo dõi
Sanyam Bhutani Sanyam Theo dõi
Zach Wentz zkwentz Theo dõi
Emre Guven emre0 Theo dõi
Lewis Tunstall lewtun Theo dõi
Sergio Paniego sergiopaniego Theo dõi
Tại sao chúng ta cần OpenEnv để đào tạo các tác nhân mã nguồn mở
Tại sao chúng ta cần cởi mở hơn nữa
Một lớp giao thức, không phải một khung phần thưởng
Những gì tiếp theo
Tham gia
OpenEnv là một công cụ để tạo môi trường thực thi tác nhân (agentic execution environment) như thiết bị đầu cuối (terminals), trình duyệt (browsers) hoặc bất kỳ thứ gì mà một tác nhân có thể tương tác. Hôm nay, chúng tôi vui mừng thông báo rằng OpenEnv đang trở nên cởi mở hơn nữa, nhằm hướng tới tương lai đào tạo các tác nhân mã nguồn mở.
Bắt đầu từ hôm nay, OpenEnv sẽ được điều phối bởi một ủy ban hiện bao gồm Meta-PyTorch, Reflection, Unsloth, Modal, Prime Intellect, Nvidia, Mercor, Fleet AI và Hugging Face. OpenEnv hiện có tại huggingface/OpenEnv.
Dự án OpenEnv được hỗ trợ và áp dụng bởi một số tổ chức hàng đầu trong hệ sinh thái AI, bao gồm PyTorch Foundation, vLLM, SkyRL (UCB), Lightning AI, Axolotl AI, Stanford Scaling Intelligence Lab, Mithril, OpenMined, Scaler AI Labs, Scale AI, Patronus AI, Surge AI, Halluminate, Turing, Scorecard và Snorkel AI.
Tại sao chúng ta cần OpenEnv để đào tạo các tác nhân mã nguồn mở
Các công cụ tác nhân như Claude Code, Codex, OpenClaw và Hermes không ngừng được cải thiện. Một lý do cho sự cải thiện này là các mô hình như GPT-5.5 và Opus 4.8 được đào tạo để sử dụng các công cụ tương ứng của chúng.
Chúng tôi cũng mong muốn đạt được những thành tựu đó với các mô hình mã nguồn mở: đào tạo các mô hình cục bộ sử dụng hiệu quả các công cụ và tiết kiệm điện toán bằng cách chuyên biệt hóa các mô hình cho các tác vụ cụ thể.
Tại sao chúng ta cần cởi mở hơn nữa
Các phòng thí nghiệm tiên phong đào tạo các mô hình và công cụ mà, phần lớn, hoạt động ăn khớp với nhau. Mô hình được đào tạo để sử dụng công cụ và được tối ưu hóa cho các đặc tính của nó. Các mô hình có thể khái quát hóa vượt ra ngoài các công cụ này, ở một mức độ nào đó, nhưng không gì sánh bằng hiệu quả của việc đào tạo.
Trong môi trường mở, điều này không xảy ra. Các nhà phát triển sử dụng bất kỳ công cụ nào, bất kỳ mô hình nào, bất kỳ công cụ suy luận nào, trên bất kỳ trường hợp sử dụng nào mà họ đánh giá cao. Điều này là nền tảng cho cộng đồng, nhưng nó cũng là một thách thức đòi hỏi cơ sở hạ tầng và công cụ để giải quyết.
Đó là lúc OpenEnv phát huy tác dụng. Đây là một thư viện để giao tiếp giữa công cụ, môi trường và bộ đào tạo, hoạt động trên bất kỳ mô hình nào. Để điều này thành công, nó sẽ cần được sở hữu bởi tất cả các bên liên quan chính.
Một lớp giao thức, không phải một khung phần thưởng
Cùng với sự thay đổi về quản trị, chúng tôi đang siết chặt định nghĩa về OpenEnv.
Trong các bản phát hành gần đây, OpenEnv đã trở thành một lớp tương tác cho các môi trường học tăng cường (RL environments). Nhiệm vụ của nó là chuẩn hóa cách các môi trường được xuất bản, triển khai và sử dụng bởi các tác nhân. Nó sẽ không quy định cách xác định phần thưởng hoặc cách hoạt động của các vòng lặp đào tạo. Định nghĩa phần thưởng, tiêu chí chấm điểm và logic dành riêng cho bộ đào tạo thuộc về các thư viện chuyên biệt. OpenEnv là ổ cắm chung mà tất cả chúng có thể kết nối.
Trong thực tế, điều này có nghĩa là:
Một giao diện, nhiều môi trường, tất cả đều cung cấp API quen thuộc theo kiểu Gymnasium (reset(), step(), state()) chạy trên kiến trúc client/server. Một trình huấn luyện giao tiếp với OpenEnv có thể điều khiển bất kỳ môi trường tương thích nào mà không cần mã tùy chỉnh.
Các giao thức quen thuộc và đóng gói chuẩn. Các môi trường được phục vụ qua các giao thức tiêu chuẩn như HTTP và WebSocket và được đóng gói bằng Docker. MCP là một thành phần hạng nhất, do đó các môi trường OpenEnv tương thích ngay lập tức với các máy chủ MCP và cùng một môi trường hoạt động nhất quán trong cả chế độ mô phỏng (huấn luyện/đánh giá) và sản xuất.
Khả năng tương tác giữa các thư viện môi trường. Người dùng có thể định nghĩa và sử dụng các môi trường trên các hệ sinh thái khác nhau (verifiers, harbor và các hệ thống khác) cũng như trên cơ sở hạ tầng và trung tâm lựa chọn của mình. OpenEnv là lớp triển khai và giao diện bên dưới chúng, chứ không phải là đối thủ cạnh tranh.
Tiếp theo là gì
Trong những tháng tới, chúng tôi sẽ tập trung vào những yếu tố biến OpenEnv từ một dự án đang phát triển nhanh chóng thành một tiêu chuẩn đáng tin cậy:
Các bộ tác vụ thông qua tập dữ liệu: kết nối các tác vụ môi trường với các tập dữ liệu Hugging Face để các môi trường và điểm chuẩn được kết hợp một cách rõ ràng (RFC 006).
Phần thưởng bên ngoài: cho phép định nghĩa phần thưởng trong bất kỳ thư viện nào người dùng đang sử dụng, với OpenEnv là lớp triển khai (RFC 007).
Tiếp tục tích hợp Harness: hỗ trợ hạng nhất cho các harness tác nhân.
Các ví dụ từ đầu đến cuối: hướng dẫn huấn luyện và đánh giá đầy đủ trong TRL, Unsloth và các nền tảng khác.
Tự động xác thực: đo lường chất lượng môi trường và đóng góp vào việc học của mô hình. Điều này sẽ cung cấp cho cộng đồng một cách có thể mở rộng để đánh giá môi trường của họ và nâng cao chất lượng (hãy nghĩ đến các cuộc thi hackathon!). RFC 008.
Tham gia
OpenEnv được thiết kế lấy cộng đồng làm trung tâm và vẫn đang trong giai đoạn đầu – hãy chấp nhận những điểm chưa hoàn thiện và giúp chúng tôi cải thiện. Hãy xem mã nguồn và các RFC tại: github.com/huggingface/OpenEnv
Xin cảm ơn tất cả những người đã giúp quá trình chuyển đổi này diễn ra. Hãy cùng nhau xây dựng nền tảng chung cho RL tác nhân mã nguồn mở.
Thêm bài viết từ Blog của chúng tôi
thông báo mã nguồn mở cộng đồng
OpenEnv trong thực tế: Đánh giá các tác nhân sử dụng công cụ trong môi trường thế giới thực
+1
33
Ngày 12/02/2026
thông báo mã nguồn mở cộng đồng
Cùng nhau xây dựng hệ sinh thái tác nhân mở: Giới thiệu OpenEnv
+6
162
Ngày 23/10/2025
Cộng đồng
Chỉnh sửa Xem trước
Tải lên hình ảnh, âm thanh và video bằng cách kéo vào ô nhập văn bản, dán hoặc nhấp vào đây.
Chạm hoặc dán vào đây để tải lên hình ảnh
Bình luận · Đăng ký hoặc đăng nhập để bình luận
Bình chọn
Nguồn tin: Hugging Face Blog. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.