Một bài đánh giá mới lập luận rằng mã (code) là cách các tác…

Một bài đánh giá mới lập luận rằng nút thắt cổ chai thực sự đối với các tác nhân AI tự trị không phải là bản thân mô hình ngôn ngữ mà là lớp phần mềm bao bọc quanh nó. Các công cụ, bộ nhớ, thử nghiệm và ranh giới quyền hạn biến một mô hình phi trạng thái thành một tác nhân hoạt động. Deepseek đã thành lập một nhóm "Harness" chuyên trách tại Bắc Kinh với công thức cốt lõi xác nhận luận điểm này: mô hình cộng với harness bằng tác nhân AI. Bài viết New review paper argues code is how AI agents think and act, not just what they produce xuất hiện lần đầu trên The Decoder.

Nghiên cứu AI Sao chép URL vào khay nhớ tạm Chia sẻ bài viết này Đi tới phần bình luận Bài đánh giá mới lập luận rằng mã (code) là cách các tác nhân AI suy nghĩ và hành động, không chỉ là sản phẩm chúng tạo ra Jonathan Kemper Xem hồ sơ LinkedIn của Jonathan Kemper Ngày 29/5/2026 Nano Banana Pro theo gợi ý của THE DECODER Những điểm chính Một bài đánh giá của Meta, Stanford và Đại học Illinois Urbana-Champaign cho thấy mã ngày càng đóng vai trò là nền tảng để các tác nhân AI suy luận, hành động và phối hợp với nhau. Trọng tâm của sự thay đổi này là một lớp phần mềm bao quanh được gọi là "harness" (bộ điều khiển), cung cấp các công cụ và môi trường biệt lập để biến các mô hình không trạng thái thành các hệ thống chức năng có khả năng lập kế hoạch, thực thi và kiểm thử trong một vòng lặp liên tục. Các hệ thống thương mại như Claude Code và OpenAI's Codex đã hoạt động dựa trên nguyên tắc này, nhưng các tác giả cảnh báo về sự tin tưởng sai lầm: các thử nghiệm phần mềm hiện tại thường không đầy đủ và có thể che giấu rủi ro, khiến các cơ chế đánh giá minh bạch hơn trở nên cần thiết. Hỏi về bài viết này… Tìm kiếm Một bài đánh giá mới từ các nhà nghiên cứu tại Đại học Illinois Urbana-Champaign, Meta và Stanford muốn thay đổi cách chúng ta nghĩ về các tác nhân AI. Lập luận của họ là mã là nền tảng mà các tác nhân sử dụng để suy luận, hành động và làm việc cùng nhau. Vì vậy, nút thắt cổ chai thực sự đối với các hệ thống tự trị, họ nói, trở thành lớp phần mềm bao quanh mô hình, điều này có lẽ khiến Gary Marcus rất hài lòng. Các tác giả gọi lớp này là "harness", và nó bao gồm mọi thứ từ các công cụ và giao diện đến môi trường thực thi hộp cát (sandboxed execution environments), bộ nhớ, kiểm thử, ranh giới quyền hạn, vòng lặp thực thi và kênh phản hồi. Nếu không có nó, một mô hình ngôn ngữ chỉ là không trạng thái. Với nó, mô hình trở thành một tác nhân hoạt động có thể thực hiện các tác vụ trong thời gian dài. Tổng quan trung tâm của bài báo cho thấy mã hoạt động như một lớp có thể thực thi, kiểm thử và có trạng thái giữa mô hình và môi trường. | Hình ảnh: Ning và cộng sự. Tại sao mã là định dạng phù hợp Các tác giả xem mã là một phần đang chạy của hành vi tác nhân, và họ đưa ra một số lý do tại sao. Mã có thể thực thi, vì vậy đầu ra của mô hình trở thành các hoạt động mà bạn thực sự có thể kiểm tra. Nó có thể theo dõi được vì các phép tính trung gian hiển thị dưới dạng các dấu vết có cấu trúc mà hệ thống có thể đọc và lưu trữ. Và nó tồn tại qua các bước vì chương trình đang chạy ghi lại tiến trình tác vụ dưới dạng mà tác nhân có thể tiếp tục sau này. DEC_D_Incontent-1 Bài báo chia các hệ thống tác nhân chạy dài thành ba phần. Có khả năng của mô hình, như suy luận và lập kế hoạch. Sau đó là cơ sở hạ tầng mà hệ thống cung cấp. Và cuối cùng, mã mà tác nhân viết ngay lập tức, mọi thứ từ các tập lệnh kiểm thử và các công cụ trợ giúp dùng một lần đến các kỹ năng có thể tái sử dụng và quy trình làm việc có thể thực thi. Các tác giả nói rằng những tạo phẩm tự tạo này chưa nhận được đủ sự chú ý nghiên cứu. Ba lớp tổ chức lĩnh vực Ở cấp độ đầu tiên, mã kết nối mô hình và môi trường của nó. Các phương pháp như Program-of-Thoughts hoặc Chain of Code chuyển các phép tính thực tế sang các chương trình có thể thực thi thay vì chỉ mô tả chúng bằng lời nói. Các hệ thống khác, như Code as Policies, biến các hướng dẫn ngôn ngữ tự nhiên trực tiếp thành mã điều khiển robot. Độ tin cậy đến từ các chuyển đổi trạng thái được quy định rõ ràng trong một vòng lặp kiểm soát xung quanh mô hình. | Hình ảnh: Ning và cộng sự. Cấp độ thứ hai bao gồm những yếu tố giúp một tác nhân (agent) duy trì độ tin cậy qua nhiều bước. Điều này có nghĩa là lập kế hoạch, bộ nhớ, sử dụng công cụ và một chu trình lặp lại gồm lập kế hoạch, thực thi và xác minh. Chu trình này thay thế việc khắc phục sự cố một lần bằng các kiểm tra có hệ thống. Các kế hoạch nêu rõ những gì tác nhân dự định thay đổi. Việc thực thi diễn ra trong môi trường hộp cát (sandboxed environments) với các quyền được xác định. Bước xác minh sau đó quyết định liệu kết quả có được chấp nhận, sửa đổi hay chuyển đến một người đánh giá là con người. Cấp độ thứ ba là về nhiều tác nhân làm việc cùng nhau. Các bộ sưu tập mã, kiểm thử và nhật ký thực thi trở thành một không gian làm việc chung, nơi các vai trò chuyên biệt như quản lý, lập kế hoạch, lập trình viên, người đánh giá và người kiểm thử chia sẻ công việc. Các hệ thống như ChatDev và MetaGPT đã đưa điều này vào thực tế, và theo các nhà nghiên cứu, nó đã được triển khai trong các sản phẩm thực tế. Claude Code hiện có thể giao việc đánh giá yêu cầu kéo (pull request reviews) cho một nhóm tác nhân AI để quét lỗi, lỗ hổng bảo mật và hồi quy (regressions) song song mà không thể tự phê duyệt các thay đổi. Ở cấp độ thứ ba, các tác nhân chuyên biệt chia sẻ công việc thông qua một không gian làm việc mã chung và phối hợp các giao thức kiểm thử và thực thi. | Hình ảnh: Ning và cộng sự. Các hệ thống sản xuất đã tuân theo mô hình này. Các tác giả chỉ ra các sản phẩm thương mại làm ví dụ. Claude Code của Anthropic kết nối thiết bị đầu cuối cục bộ, môi trường phát triển và trình duyệt thành một quy trình làm việc duy nhất, nơi tác nhân chỉnh sửa tệp, chạy lệnh và phải tuân thủ các quy tắc cấp phép. Các tác nhân lập trình Codex của OpenAI và GitHub Copilot di chuyển các quy trình làm việc tương tự đến môi trường đám mây được quản lý, gói gọn các thay đổi thông qua các đầu ra yêu cầu kéo có thể theo dõi. Mức độ quan trọng của lớp này trở nên rõ ràng một cách tình cờ khi Anthropic làm rò rỉ khoảng 500.000 dòng mã nguồn của Claude Code. Trong đó có một chức năng "mơ mộng" (dreaming function) để hợp nhất tác vụ và các thủ thuật khác để điều khiển các mô hình như các tác nhân lập trình. Anthropic sau đó đã gỡ bỏ hơn 8.000 bản sao và bản phân nhánh (forks) khỏi GitHub thông qua yêu cầu gỡ bỏ bản quyền. Các phòng thí nghiệm AI khác cũng đang bắt kịp. Deepseek có kế hoạch cạnh tranh trực tiếp với Claude Code và Codex thông qua sản phẩm của riêng mình, Deepseek Code, và đang xây dựng một nhóm "Harness" chuyên trách tại Bắc Kinh để xử lý mọi thứ ngoài mô hình, từ sử dụng công cụ đến lập kế hoạch và lưu trữ. Công thức cốt lõi của nhóm là mô hình cộng với harness bằng tác nhân AI. Các hệ thống sản xuất này cũng đang trở thành dữ liệu đào tạo cho các vòng mô hình tiếp theo. Trình soạn thảo của Cursor đào tạo bằng học tăng cường liên tục trên các dấu vết sử dụng thực tế. Codex-1, GPT-5-Codex và GPT-5.1-Codex-Max của OpenAI đang được đào tạo.

Một bài đánh giá mới lập luận rằng mã (code) là cách các tác nhân AI suy nghĩ và hành động, không chỉ là sản phẩm mà chúng tạo ra.