Bỏ qua tới nội dung chính
Quay lại tin tức

Cộng đồng mã nguồn mở đang ủng hộ OpenEnv cho Học tăng cường (RL) dựa trên tác tử (Agentic RL).

Hugging Face Blog· 8/6/2026opensource
Trở lại các bài viết Cộng đồng mã nguồn mở đang hỗ trợ OpenEnv cho Agentic RL Đã xuất bản Ngày 8/6/2026 Cập nhật trên GitHub Bình chọn 1 ben burtenshaw burtenshaw Theo dõi Joseph Spisak spisakjo Theo dõi Lysandre lysandre Theo dõi Davide Testuggine darktex Theo dõi will brown willcb Theo dõi Charles Frye charlesfrye Theo dõi Chris Wing cwing-nv Theo dõi Daniel (Unsloth) danielhanchen Theo dõi Andrew Zhou andrewzhou Theo dõi Michael Han shimmyshimmer Theo dõi Hamid Shojanazeri Hamid-Nazeri Theo dõi Sanyam Bhutani Sanyam Theo dõi Zach Wentz zkwentz Theo dõi Emre Guven emre0 Theo dõi Lewis Tunstall lewtun Theo dõi Sergio Paniego sergiopaniego Theo dõi Tại sao chúng ta cần OpenEnv để đào tạo các tác nhân mã nguồn mở Tại sao chúng ta cần cởi mở hơn nữa Một lớp giao thức, không phải một khung phần thưởng Những gì tiếp theo Tham gia OpenEnv là một công cụ để tạo môi trường thực thi tác nhân (agentic execution environment) như thiết bị đầu cuối (terminals), trình duyệt (browsers) hoặc bất kỳ thứ gì mà một tác nhân có thể tương tác. Hôm nay, chúng tôi vui mừng thông báo rằng OpenEnv đang trở nên cởi mở hơn nữa, nhằm hướng tới tương lai đào tạo các tác nhân mã nguồn mở. Bắt đầu từ hôm nay, OpenEnv sẽ được điều phối bởi một ủy ban hiện bao gồm Meta-PyTorch, Reflection, Unsloth, Modal, Prime Intellect, Nvidia, Mercor, Fleet AI và Hugging Face. OpenEnv hiện có tại huggingface/OpenEnv. Dự án OpenEnv được hỗ trợ và áp dụng bởi một số tổ chức hàng đầu trong hệ sinh thái AI, bao gồm PyTorch Foundation, vLLM, SkyRL (UCB), Lightning AI, Axolotl AI, Stanford Scaling Intelligence Lab, Mithril, OpenMined, Scaler AI Labs, Scale AI, Patronus AI, Surge AI, Halluminate, Turing, Scorecard và Snorkel AI. Tại sao chúng ta cần OpenEnv để đào tạo các tác nhân mã nguồn mở Các công cụ tác nhân như Claude Code, Codex, OpenClaw và Hermes không ngừng được cải thiện. Một lý do cho sự cải thiện này là các mô hình như GPT-5.5 và Opus 4.8 được đào tạo để sử dụng các công cụ tương ứng của chúng. Chúng tôi cũng mong muốn đạt được những thành tựu đó với các mô hình mã nguồn mở: đào tạo các mô hình cục bộ sử dụng hiệu quả các công cụ và tiết kiệm điện toán bằng cách chuyên biệt hóa các mô hình cho các tác vụ cụ thể. Tại sao chúng ta cần cởi mở hơn nữa Các phòng thí nghiệm tiên phong đào tạo các mô hình và công cụ mà, phần lớn, hoạt động ăn khớp với nhau. Mô hình được đào tạo để sử dụng công cụ và được tối ưu hóa cho các đặc tính của nó. Các mô hình có thể khái quát hóa vượt ra ngoài các công cụ này, ở một mức độ nào đó, nhưng không gì sánh bằng hiệu quả của việc đào tạo. Trong môi trường mở, điều này không xảy ra. Các nhà phát triển sử dụng bất kỳ công cụ nào, bất kỳ mô hình nào, bất kỳ công cụ suy luận nào, trên bất kỳ trường hợp sử dụng nào mà họ đánh giá cao. Điều này là nền tảng cho cộng đồng, nhưng nó cũng là một thách thức đòi hỏi cơ sở hạ tầng và công cụ để giải quyết. Đó là lúc OpenEnv phát huy tác dụng. Đây là một thư viện để giao tiếp giữa công cụ, môi trường và bộ đào tạo, hoạt động trên bất kỳ mô hình nào. Để điều này thành công, nó sẽ cần được sở hữu bởi tất cả các bên liên quan chính. Một lớp giao thức, không phải một khung phần thưởng Cùng với sự thay đổi về quản trị, chúng tôi đang siết chặt định nghĩa về OpenEnv. Trong các bản phát hành gần đây, OpenEnv đã trở thành một lớp tương tác cho các môi trường học tăng cường (RL environments). Nhiệm vụ của nó là chuẩn hóa cách các môi trường được xuất bản, triển khai và sử dụng bởi các tác nhân. Nó sẽ không quy định cách xác định phần thưởng hoặc cách hoạt động của các vòng lặp đào tạo. Định nghĩa phần thưởng, tiêu chí chấm điểm và logic dành riêng cho bộ đào tạo thuộc về các thư viện chuyên biệt. OpenEnv là ổ cắm chung mà tất cả chúng có thể kết nối. Trong thực tế, điều này có nghĩa là: Một giao diện, nhiều môi trường, tất cả đều cung cấp API quen thuộc theo kiểu Gymnasium (reset(), step(), state()) chạy trên kiến trúc client/server. Một trình huấn luyện giao tiếp với OpenEnv có thể điều khiển bất kỳ môi trường tương thích nào mà không cần mã tùy chỉnh. Các giao thức quen thuộc và đóng gói chuẩn. Các môi trường được phục vụ qua các giao thức tiêu chuẩn như HTTP và WebSocket và được đóng gói bằng Docker. MCP là một thành phần hạng nhất, do đó các môi trường OpenEnv tương thích ngay lập tức với các máy chủ MCP và cùng một môi trường hoạt động nhất quán trong cả chế độ mô phỏng (huấn luyện/đánh giá) và sản xuất. Khả năng tương tác giữa các thư viện môi trường. Người dùng có thể định nghĩa và sử dụng các môi trường trên các hệ sinh thái khác nhau (verifiers, harbor và các hệ thống khác) cũng như trên cơ sở hạ tầng và trung tâm lựa chọn của mình. OpenEnv là lớp triển khai và giao diện bên dưới chúng, chứ không phải là đối thủ cạnh tranh. Tiếp theo là gì Trong những tháng tới, chúng tôi sẽ tập trung vào những yếu tố biến OpenEnv từ một dự án đang phát triển nhanh chóng thành một tiêu chuẩn đáng tin cậy: Các bộ tác vụ thông qua tập dữ liệu: kết nối các tác vụ môi trường với các tập dữ liệu Hugging Face để các môi trường và điểm chuẩn được kết hợp một cách rõ ràng (RFC 006). Phần thưởng bên ngoài: cho phép định nghĩa phần thưởng trong bất kỳ thư viện nào người dùng đang sử dụng, với OpenEnv là lớp triển khai (RFC 007). Tiếp tục tích hợp Harness: hỗ trợ hạng nhất cho các harness tác nhân. Các ví dụ từ đầu đến cuối: hướng dẫn huấn luyện và đánh giá đầy đủ trong TRL, Unsloth và các nền tảng khác. Tự động xác thực: đo lường chất lượng môi trường và đóng góp vào việc học của mô hình. Điều này sẽ cung cấp cho cộng đồng một cách có thể mở rộng để đánh giá môi trường của họ và nâng cao chất lượng (hãy nghĩ đến các cuộc thi hackathon!). RFC 008. Tham gia OpenEnv được thiết kế lấy cộng đồng làm trung tâm và vẫn đang trong giai đoạn đầu – hãy chấp nhận những điểm chưa hoàn thiện và giúp chúng tôi cải thiện. Hãy xem mã nguồn và các RFC tại: github.com/huggingface/OpenEnv Xin cảm ơn tất cả những người đã giúp quá trình chuyển đổi này diễn ra. Hãy cùng nhau xây dựng nền tảng chung cho RL tác nhân mã nguồn mở. Thêm bài viết từ Blog của chúng tôi thông báo mã nguồn mở cộng đồng OpenEnv trong thực tế: Đánh giá các tác nhân sử dụng công cụ trong môi trường thế giới thực +1 33 Ngày 12/02/2026 thông báo mã nguồn mở cộng đồng Cùng nhau xây dựng hệ sinh thái tác nhân mở: Giới thiệu OpenEnv +6 162 Ngày 23/10/2025 Cộng đồng Chỉnh sửa Xem trước Tải lên hình ảnh, âm thanh và video bằng cách kéo vào ô nhập văn bản, dán hoặc nhấp vào đây. Chạm hoặc dán vào đây để tải lên hình ảnh Bình luận · Đăng ký hoặc đăng nhập để bình luận Bình chọn

Nguồn tin: Hugging Face Blog. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.