Hexo Labs công bố mã nguồn mở SIA: Một tác nhân tự cải thiện…

Hầu hết các tác nhân AI ngừng cải thiện khi con người ngừng điều chỉnh chúng. Mô hình được cố định. Khung xung quanh nó cũng được cố định. Hexo Labs muốn thay đổi cả hai cùng một lúc. Tuần này, công ty đã phát hành SIA (AI tự cải thiện) dưới dạng một framework mã nguồn mở theo giấy phép MIT. Tuyên bố cốt lõi của nghiên cứu này là hẹp nhưng cụ thể. SIA chỉnh sửa cả khung của tác nhân và trọng số của mô hình trong một vòng lặp tự cải thiện duy nhất. SIA (AI tự cải thiện) là gì? SIA chia một tác nhân cụ thể theo nhiệm vụ thành hai phần. Phần đầu tiên là harness, còn được gọi là scaffold. Phần này bao gồm lời nhắc hệ thống, logic điều phối công cụ, r

Hầu hết các tác nhân AI ngừng cải thiện khi con người ngừng điều chỉnh chúng. Mô hình được cố định. Khung xung quanh nó cũng được cố định. Hexo Labs muốn di chuyển cả hai cùng một lúc. Tuần này, Hexo Labs đã phát hành SIA (AI tự cải thiện) dưới dạng một khung mã nguồn mở theo giấy phép MIT. Tuyên bố cốt lõi của nghiên cứu này là hẹp nhưng cụ thể. SIA chỉnh sửa cả khung của tác nhân và trọng số của mô hình trong một vòng lặp tự cải thiện. SIA (AI tự cải thiện) là gì SIA chia một tác nhân cụ thể theo nhiệm vụ thành hai phần. Phần đầu tiên là harness, còn được gọi là scaffold (khung). Phần này bao gồm lời nhắc hệ thống, logic điều phối công cụ, chính sách thử lại và mã trích xuất câu trả lời. Phần thứ hai là chính trọng số của mô hình. Ba thành phần LLM điều khiển vòng lặp. Một Meta-Agent (tác nhân siêu cấp) viết khung ban đầu từ một đặc tả nhiệm vụ và bất kỳ mã tham chiếu nào. Một Task-Specific Agent (tác nhân cụ thể theo nhiệm vụ) chạy nhiệm vụ và ghi lại mọi bước. Sau đó, một Feedback-Agent (tác nhân phản hồi) đọc toàn bộ quỹ đạo đó và quyết định những gì cần thay đổi. Quyết định đó là ý tưởng then chốt. Sau mỗi lần chạy, Feedback-Agent chọn một trong hai hành động. Nó có thể viết lại khung trong khi trọng số vẫn cố định. Hoặc nó có thể kích hoạt cập nhật trọng số trong khi khung vẫn cố định. Mô hình cơ sở là openai/gpt-oss-120b. Các bản cập nhật trọng số sử dụng LoRA, một bộ điều hợp thứ hạng thấp, ở thứ hạng 32. Meta-Agent và Feedback-Agent đều chạy trên Claude Sonnet 4.6. Quá trình huấn luyện chạy trên GPU H100 thông qua Modal, nền tảng RL của nhóm. Nhóm nghiên cứu gắn nhãn hai điểm hoạt động của mình là SIA-H và SIA-W+H. SIA-H chỉ sử dụng các bản cập nhật harness. SIA-W+H bổ sung thêm các bản cập nhật trọng số. https://arxiv.org/pdf/2605.27276 Trường hợp điểm chuẩn Nhóm nghiên cứu đã thử nghiệm SIA trên ba lĩnh vực khác nhau một cách có chủ ý. Mô hình này được giữ nguyên trên cả ba lĩnh vực. Các bản cập nhật trọng số đã bổ sung thêm lợi ích vượt xa những gì chỉ chỉnh sửa khung đạt được. "Ban đầu" là mô hình cơ sở thông qua khung đầu tiên của Meta-Agent, trước bất kỳ phản hồi nào. Nhiệm vụ Ban đầu SOT trước SIA-H (chỉ harness) SIA-W+H (harness + trọng số) LawBench (độ chính xác top-1) 13,5% 45,0% 50,0% 70,1% AlphaEvolve TriMul (phần thưởng) 0,105 1,292 0,120 1,475 Khử nhiễu (mse_norm) 0,048 0,240 0,241 0,289 Trên LawBench, nhiệm vụ là phân loại tội danh hình sự Trung Quốc 191 lớp. Lặp lại harness đã xây dựng một đường ống TF-IDF cộng với LinearSVC và đạt mức ổn định 50,0%. Các bản cập nhật trọng số thông qua PPO sau đó đã đẩy độ chính xác lên 70,1%. Đó là mức tăng 20,1 điểm phần trăm so với mức tốt nhất chỉ sử dụng harness. Nhiệm vụ TriMul yêu cầu một nhân CUDA tùy chỉnh trên GPU H100. Nhân này tính toán một phép toán cốt lõi trong mô-đun Evoformer của AlphaFold2. Các chỉnh sửa khung đã đạt được tốc độ tăng 1,14 lần so với mức cơ bản. Các bản cập nhật trọng số sau đó đã giảm thời gian chạy từ 12.483 xuống 1.017 micro giây. Đó là mức giảm 91,9% so với mức cao nhất chỉ sử dụng harness. Một lưu ý trung thực xuất hiện trong cùng biểu đồ. Tác nhân mã hóa Claude Code đạt 1,50 lần trên TriMul mà không cần hỗ trợ, đánh bại 1,14 lần của SIA-H. SIA-W+H vẫn dẫn đầu tổng thể ở mức 14,02 lần. Để khử nhiễu, tác nhân điều chỉnh MAGIC, một phương pháp ước tính RNA đơn bào. Các lần quét siêu tham số của harness đã ổn định ở mức 0,241 mse_norm. Điểm kiểm tra cập nhật trọng số đầu tiên đã thêm một bước hai dòng mà không có khung nào tạo ra. Nó làm tròn các số đếm ước tính thành số nguyên không âm, nâng điểm lên 0,289. Cách Feedback-Agent chọn hành động của mình SIA không chạy một công thức RL cố định. Feedback-Agent chọn một thuật toán huấn luyện dựa trên tín hiệu phần thưởng mà nó quan sát được. Trên LawBench, phần thưởng là một giá trị vô hướng dựa trên kết quả rõ ràng, do đó hệ thống đã sử dụng PPO với GAE. Trên TriMul, hầu hết các nhân (kernel) không biên dịch được, vì vậy hệ thống đã sử dụng phương pháp trọng số lợi thế entropy. Phương pháp này tăng cường các lần chạy có phần thưởng cao hiếm gặp. Trong tác vụ khử nhiễu (denoising), hệ thống đã sử dụng GRPO, loại bỏ hoàn toàn mạng giá trị. Nhóm nghiên cứu cũng liệt kê REINFORCE với KL-to-base, DPO và nhân bản hành vi best-of-N. Mỗi phương pháp tương ứng với một dạng phần thưởng và rủi ro thất bại khác nhau. Điểm mạnh và những điều cần theo dõi Điểm mạnh: Là hệ thống đầu tiên chỉnh sửa cả khung sườn (scaffold) và trọng số trong một vòng lặp, theo bảng so sánh của các tác giả. Đạt được những cải tiến nhất quán so với các hệ thống SOTA (State-of-the-Art) trước đây trên ba lĩnh vực không liên quan. Mã nguồn mở theo giấy phép MIT, có thể cài đặt dưới dạng sia-agent, với bốn tác vụ đi kèm. Việc lựa chọn thuật toán được điều chỉnh dựa trên các phần thưởng quan sát được, không theo một lịch trình cố định. Những điều cần theo dõi: Nghiên cứu báo cáo ba tác vụ; kết quả lựa chọn thuật toán rộng hơn sẽ được công bố sau. Cả hai đòn bẩy đều tối ưu hóa cùng một bộ xác minh cố định, có nguy cơ gây ra hiệu ứng Goodhart liên kết. Nghiên cứu cảnh báo rằng điểm cố định chung có thể dễ bị tổn thương dưới sự nhiễu loạn. Giải thích trực quan của Marktechpost Hexo Labs · Mã nguồn mở (MIT) SIA: AI tự cải thiện Cập nhật khung sườn + trọng số Một vòng lặp tự cải thiện chỉnh sửa cả khung sườn của tác nhân và trọng số mô hình của nó, không cần điều chỉnh thêm từ con người. gpt-oss-120b LoRA rank 32 3 tiêu chuẩn Tác nhân Claude Sonnet 4.6 Khoảng cách Hai silo, hoạt động độc lập Trường phái khung sườn Chỉnh sửa khung sườn Một siêu tác nhân (meta-agent) viết lại các lời nhắc (prompts), công cụ và logic thử lại. Trọng số mô hình được giữ cố định. Huấn luyện thời gian thử nghiệm Chỉnh sửa trọng số Một quy trình RL (Reinforcement Learning) cập nhật mô hình dựa trên phản hồi tác vụ. Khung sườn được giữ cố định. SIA thu hẹp khoảng cách bằng cách đưa cả hai đòn bẩy vào một vòng lặp. Cấu trúc SIA thực sự là gì Khung sườn (scaffold): lời nhắc hệ thống, logic điều phối công cụ, chính sách thử lại và mã trích xuất câu trả lời. Trọng số: các tham số riêng của mô hình, được điều chỉnh bằng LoRA ở rank 32. Ba thành phần LLM (Large Language Model) điều khiển vòng lặp: một Siêu tác nhân (Meta-Agent), một Tác nhân cụ thể theo tác vụ (Task-Specific Agent) và một Tác nhân phản hồi (Feedback-Agent). Vòng lặp Một vòng lặp, hai đòn bẩy Sau mỗi lần chạy, Tác nhân phản hồi đọc toàn bộ quỹ đạo và chọn một hành động. Hành động A Cập nhật khung sườn Viết lại khung sườn. Trọng số được giữ cố định. Hành động B Cập nhật trọng số Huấn luyện trọng số LoRA. Khung sườn được giữ cố định. Hai đòn bẩy xen kẽ tự do, không theo các giai đoạn tuần tự cố định. Bằng chứng Kết quả tiêu chuẩn Tác vụ Ban đầu SOTA trước đây SIA-H SIA-W+H LawBench (độ chính xác top-1) 13,5% 45,0% 50,0% 70,1% AlphaEvolve TriMul (phần thưởng) 0,105 1,292 0,120 1,475 Khử nhiễu (mse_norm) 0,048 0,240 0,241 0,289 SIA-W+H (khung sườn +)

Hexo Labs công bố mã nguồn mở SIA: Một tác nhân tự cải thiện, có khả năng cập nhật cả bộ điều khiển và trọng số mô hình.