Harness, Scaffold và các thuật ngữ AI Agent cần được hiểu đúng…

Quay lại các bài viết **Harness, Scaffold và các thuật ngữ AI Agent cần được hiểu đúng** Đăng ngày 25/5/2026 Cập nhật trên GitHub Lượt ủng hộ: 2 Sergio Paniego sergiopaniego Theo dõi Aritra Roy Gosthipaty ariG23498 Theo dõi Mục lục Mô hình Giàn giáo (Scaffolding) Harness Tác nhân (Agent) Kỹ thuật ngữ cảnh (Context Engineering) Chính sách (Policy) Sử dụng công cụ (Tool Use) Kỹ năng (Skills) Tác nhân phụ (Sub-agents) Môi trường huấn luyện RL (Training RL Environment) Huấn luyện viên (Trainer) Triển khai (Rollout) Phần thưởng (Reward) Tìm hiểu thêm Khi một lĩnh vực phát triển nhanh chóng, từ vựng của nó thường phát triển nhanh hơn sự hiểu biết chung. Các thuật ngữ bắt đầu trở nên mơ hồ, được sử dụng lại trong các ngữ cảnh khác nhau, hoặc trở thành cách gọi tắt cho những ý tưởng không bao giờ được giải thích đầy đủ. Chúng ta hiện đang chứng kiến điều này xảy ra trong lĩnh vực AI Agents, nơi các khái niệm đang bị lẫn lộn, một số được đổi tên, và những khái niệm khác được sử dụng rộng rãi trong vài tháng rồi lặng lẽ biến mất. Điều này có thể gây choáng ngợp cho những người mới bắt đầu, và ngay cả đối với các chuyên gia đang cố gắng theo kịp những phát triển mới nhất. Sau ICLR 2026, một trong số chúng tôi (@ariG23498) đã đăng một câu hỏi thể hiện rõ sự bối rối này: "Bạn định nghĩa các thuật ngữ 'harness' và 'scaffold' trong ngữ cảnh của các tác nhân như thế nào? Tôi đã nghe rất nhiều giải thích khi ở ICLR, nhưng tôi không thể hiểu tại sao chúng lại không hội tụ về một giải thích duy nhất." Bảng thuật ngữ này là nỗ lực của chúng tôi nhằm làm rõ các thuật ngữ thường xuyên xuất hiện mà không có giải thích rõ ràng, nhất quán. Nó không nhằm mục đích trở thành một từ điển toàn diện về mọi thuật ngữ trong lĩnh vực này. Thay vào đó, chúng tôi tập trung vào các khái niệm thường bị lẫn lộn, được sử dụng lại theo những cách khác nhau, hoặc được cho là hiển nhiên trong khi thực tế không phải vậy. Hầu hết các thuật ngữ này xuất hiện dù bạn đang xây dựng một tác nhân, triển khai một tác nhân, hay chỉ sử dụng các công cụ như Claude Code, Codex, hoặc Hermes Agent. Phần cuối cùng bao gồm các khái niệm cụ thể để huấn luyện mô hình, điều này phù hợp hơn nếu bạn làm việc trong lĩnh vực đó. Nhiều thuật ngữ này chưa có định nghĩa được chấp nhận rộng rãi, và các khung công tác khác nhau sử dụng cùng một từ theo những cách khác nhau. Mục tiêu ở đây không phải là áp đặt một bộ từ vựng đúng duy nhất, mà là cung cấp một mô hình tư duy thực tế giúp các cuộc thảo luận dễ theo dõi hơn. Hãy bắt đầu. Mục lục Mô hình Giàn giáo (Scaffolding) Harness Tác nhân (Agent) Kỹ thuật ngữ cảnh (Context Engineering) Chính sách (Policy) Sử dụng công cụ (Tool Use) Kỹ năng (Skills) Tác nhân phụ (Sub-agents) Huấn luyện Môi trường RL (RL Environment) Huấn luyện viên (Trainer) Triển khai (Rollout) Phần thưởng (Reward) Tìm hiểu thêm **Mô hình** Mô hình là LLM (mô hình ngôn ngữ lớn): nó nhận văn bản đầu vào và tạo ra văn bản đầu ra (ví dụ: Claude, Qwen, GPT, Kimi, DeepSeek…). Bản thân nó không có bộ nhớ giữa các lần gọi và không có vòng lặp. Mô hình có thể thể hiện ý định gọi một công cụ, nhưng nó cần một harness để thực sự thực thi. Nó trả lời một lời nhắc và dừng lại. Bọc nó trong scaffolding và một harness, nó sẽ trở thành một tác nhân. **Giàn giáo (Scaffolding)** Lớp định nghĩa hành vi xung quanh mô hình: lời nhắc hệ thống (system prompt), mô tả công cụ, cách phản hồi của mô hình được phân tích cú pháp, những gì nó ghi nhớ qua các bước (quản lý ngữ cảnh). Nó định hình cách mô hình nhìn thế giới và hành động trong đó, dù trong quá trình huấn luyện hay suy luận. Các sản phẩm như Claude Code, Codex và Antigravity CLI gọi toàn bộ hệ thống là một "harness". Tài liệu của Claude Code cũng trực tiếp nêu rõ: "Claude Code đóng vai trò là harness tác tử xung quanh Claude." Đây là cách sử dụng rộng rãi: harness bao gồm mọi thứ không phải là mô hình. Sự phân biệt giữa scaffold (khung sườn) và harness trở nên quan trọng nhất khi cần xem xét chúng một cách riêng biệt, ví dụ trong một quy trình huấn luyện. Thuật ngữ "scaffold" cũng được sử dụng rộng rãi hơn để chỉ bất kỳ cơ sở hạ tầng nào mà harness dựa vào: các hook, cấu hình thời gian chạy, thậm chí cả cấu trúc thư mục. Một số sản phẩm như Claude Code và Codex được liên kết chặt chẽ với các mô hình của nhà cung cấp. Các sản phẩm khác như Antigravity CLI và Hermes Agent cho phép người dùng tích hợp bất kỳ mô hình nào. **Harness** Harness là lớp thực thi bên trong tác tử: nó gọi mô hình, xử lý các lệnh gọi công cụ của mô hình và quyết định thời điểm dừng. Harness là yếu tố giúp tác tử hoạt động. Scaffolding, được định nghĩa ở trên, là những gì mô hình dựa vào để hoạt động: các hướng dẫn, công cụ và định dạng của nó. Kỹ thuật harness là ngành thiết kế lớp này một cách hiệu quả: quyết định khi nào tác tử nên dừng, cách xử lý lỗi và các rào cản bảo vệ để giữ cho tác tử đi đúng hướng. Nó được áp dụng cả trong quá trình huấn luyện và suy luận. Bài viết của Addy Osmani và tài khoản của OpenAI về việc xây dựng với Codex đều đề cập đến khía cạnh này từ phía suy luận. Tại thời điểm đánh giá, cùng một mô hình xuất hiện dưới dạng một eval harness: thay vì thu thập dữ liệu huấn luyện, nó chạy một tập hợp các kịch bản cố định tại một điểm kiểm tra mô hình và ghi lại các số liệu thay vì cập nhật trọng số. **Agent (Tác tử)** Thuật ngữ này xuất phát từ học tăng cường, trong đó một tác tử đơn giản là một hàm nhận một quan sát và trả về một hành động. Môi trường thực hiện hành động đó và trả về một quan sát mới, và vòng lặp lặp lại. Vòng lặp đó vẫn là cốt lõi của cách các tác tử LLM hoạt động. Trong thế giới LLM, thuật ngữ này đã được mở rộng. Một tác tử là một mô hình cộng với mọi thứ xung quanh nó cho phép nó hành động, không chỉ phản hồi. Nó biến việc tạo văn bản thô thành một thứ có thể hành động trong một vòng lặp: tiếp nhận thông tin, quyết định phải làm gì và hành động dựa trên kết quả. Lấy một tác tử mã hóa làm ví dụ cụ thể. Lời nhắc hệ thống, mô tả công cụ và định dạng đầu ra mà mô hình tuân theo tạo thành scaffolding. Vòng lặp gọi mô hình, xử lý các lệnh gọi công cụ của nó và quyết định khi nào dừng là harness. Tại thời điểm huấn luyện, harness cũng chạy nhiều vòng lặp này song song và đưa kết quả trở lại để cập nhật mô hình. Trong cộng đồng, thường được diễn đạt là Tác tử = Mô hình + Harness (tham khảo tweet của @Vtrivedy10 và Will Brown). Nếu không phải là mô hình, thì đó là harness. Sự khác biệt tinh tế giữa harness và scaffold gây ra hầu hết sự nhầm lẫn là điều mà hai phần trên đã giải quyết. Khi mọi người nói về các sản phẩm như Claude Code, Codex hoặc Cursor, họ đang đề cập đến một harness cụ thể được xây dựng trên một mô hình cụ thể, được thiết kế và tối ưu hóa cùng nhau. Hai sản phẩm sử dụng cùng một mô hình cơ bản có thể mang lại cảm giác hoàn toàn khác nhau vì harness của chúng đưa ra các lựa chọn khác nhau. Và việc thay thế một mô hình tốt hơn vào cùng một harness.