Hệ điều hành Agent có mười một hệ thống con. Bạn có thể có hai…

Bạn không xây dựng một tác nhân. Bạn đang viết một hệ điều hành. Một phiên Cursor chạy Claude Opus 4.6 đã mất 9 giây để xóa cơ sở dữ liệu sản xuất của PocketOS vào đầu tháng này. Tác nhân không được yêu cầu làm điều đó. Nó đang thực hiện một việc không liên quan, nhận thấy một mã thông báo API nằm trong một tệp mà nó đã đọc để lấy ngữ cảnh, quyết định mã thông báo đó có liên quan đến nhiệm vụ mà nó tự tạo ra và đã sử dụng nó. Khối lượng Railway chứa cơ sở dữ liệu cũng chứa các bản sao lưu. Chúng cũng bị xóa. Đọc bản phân tích sau sự cố và có ba cách khắc phục hợp lý. Xoay vòng mã thông báo. Cô lập các bản sao lưu trên một khối lượng khác.

Bạn không xây dựng một tác nhân. Bạn đang viết một hệ điều hành. Một phiên Cursor chạy Claude Opus 4.6 đã mất 9 giây để xóa cơ sở dữ liệu sản xuất PocketOS vào đầu tháng này. Tác nhân không được yêu cầu làm điều đó. Nó đang thực hiện một công việc không liên quan, nhận thấy một mã thông báo API nằm trong một tệp mà nó đã đọc để lấy ngữ cảnh, quyết định mã thông báo đó có liên quan đến nhiệm vụ mà nó tự tạo ra và đã sử dụng nó. Khối lượng Railway chứa cơ sở dữ liệu cũng chứa các bản sao lưu. Chúng cũng biến mất. Đọc bản phân tích sự cố và có ba cách khắc phục hợp lý. Xoay vòng mã thông báo. Cô lập các bản sao lưu trên một khối lượng khác. Thu hẹp phạm vi của thông tin xác thực để nó không thể xóa bảng ngay từ đầu. Mỗi cách đó đều đúng, và mỗi cách đó cũng là một giải pháp một lần. Hình thức thất bại tương tự sẽ xảy ra ở một cửa hàng khác vào tháng tới với một thông tin xác thực khác, một công cụ khác, một phạm vi ảnh hưởng khác. Vá lỗi từng sự cố một sẽ kéo dài mãi mãi. Đến một lúc nào đó, bạn ngừng vá lỗi và đặt câu hỏi cấu trúc: hệ thống mà họ thực sự đang xây dựng là loại hệ thống nào, để đây là một chế độ thất bại mạch lạc? Câu trả lời là họ đang xây dựng một hệ điều hành mà không thừa nhận điều đó. Và tất cả những người khác đang triển khai các tác nhân vào sản xuất hiện nay cũng vậy. Khi bạn nhìn thấy hình dạng này, sự chồng chất của các nhà cung cấp trong tháng này (Microsoft RAMPART, GitHub Agentic Workflows với theo dõi OpenTelemetry, kiến trúc tham chiếu MCP doanh nghiệp của Cloudflare, Oracle Deep Data Security 26ai, các đường hầm Managed Agents tự lưu trữ của Anthropic, Microsoft’s Agent Governance Toolkit) không còn giống như năm lần ra mắt không liên quan trong một tuần. Chúng là năm nhà cung cấp khác nhau, mỗi nhà cung cấp đang cung cấp một phần của cùng một hệ điều hành, mà không có ai cung cấp toàn bộ. Câu hỏi thú vị không phải là cái nào trong số chúng tốt nhất. Mà là những hệ thống con nào mà nhóm của bạn phải sở hữu vì không có nhà cung cấp nào sẽ cung cấp. Của tôi là buổi chiều tôi theo dõi một cuộc gọi MCP bên ngoài xuyên suốt ngăn xếp của chúng tôi. Nó đến dưới dạng một lời gọi công cụ có phạm vi OAuth từ một đối tác. Nó kích hoạt một tác nhân được quản lý chạy bên trong mạng của chúng tôi. Tác nhân đó tự quyết định gọi ba API phụ trợ của chúng tôi. Mỗi dịch vụ đó đều xác thực bằng tài khoản dịch vụ riêng của nó. Đến khi công việc đến Postgres, bốn thực thể khác nhau đã chạm vào yêu cầu và không có thực thể nào là đối tác đã thực sự ủy quyền cho nó. Tôi đã nói với mọi người rằng chúng tôi có xác thực. Chúng tôi có bốn loại xác thực và một xương đòn. Hạt nhân tác nhân, được đặt tên theo từng hệ thống con Phân tích PocketOS một cách chậm rãi và bạn đã có thể thấy các mảnh hạt nhân còn thiếu. Không có ranh giới nào phân biệt "mã thông báo mà tác nhân này nên tìm thấy" với "mã thông báo mà nó không nên tìm thấy". Hãy gọi đó là một hệ thống con ủy quyền. Tệp mà tác nhân đang đọc để lấy ngữ cảnh và thông tin xác thực nằm bên trong nó chia sẻ một miền tin cậy duy nhất, đó là điều mà những người làm OS muốn nói khi họ nói về sự cô lập tiến trình. Không ai có thể nắm bắt quá trình chạy ở giây thứ bảy và tạm dừng nó. Đó là một vấn đề của người giám sát. Và dấu vết kiểm toán duy nhất sau đó là "tác nhân đã phát hành DROP, sau đó phát hành một lệnh khác", nghĩa là khả năng quan sát thực sự không tồn tại. Mỗi khoảng trống đó đều có một cái tên trong các hệ điều hành. Hầu hết chúng đều có các câu trả lời hoạt động đã có từ bốn mươi năm trước. Đi theo một tác nhân sản xuất thực sự theo cùng một cách và bạn sẽ tìm thấy khoảng mười một danh mục nơi mô hình này lặp lại. Một số là những nơi bạn đã âm thầm tái tạo một cái gì đó mà những người làm OS đã giải quyết. Những nơi khác là những nơi bạn chưa tái tạo nó, và hậu quả đang chờ đợi. Các danh mục không phải là tùy tiện. Đây là những gì xuất hiện trên bảng trắng khi một tác nhân (agent) đủ thực tế để cần một lịch trình trực. Định danh và chủ thể. Nếu sai ở điểm này, mọi hệ thống con khác sẽ kế thừa lỗi. Tác nhân là ai. Tác nhân hành động thay mặt cho ai. Tập hợp quyền hạn nào của người dùng mà tác nhân được thừa hưởng, tập hợp nào bị loại bỏ tại ranh giới. Bốn câu hỏi này cần có câu trả lời duy nhất, có thể bảo vệ được trước khi bất kỳ lớp nào khác có thể thực hiện công việc hữu ích. Các hệ thống đa người thuê (multi-tenant systems) đã học được một cách khó khăn rằng định danh dịch vụ và định danh người dùng cuối phải có thể tách rời. Deep Data Security của Oracle 26ai là cơ sở dữ liệu chính thống đầu tiên thực thi điều này cho các tác nhân: phiên làm việc biết định danh của con người ngay cả khi tác nhân đang điều khiển. Hầu hết các ứng dụng Postgres vẫn chưa thực hiện điều này. Ủy quyền. Khi bạn biết chủ thể, nó được phép làm gì. Các tệp có rwx (quyền đọc, ghi, thực thi). Các hệ thống hiện đại có khả năng (capabilities), phạm vi (scopes), chính sách (policies) và ACL (danh sách kiểm soát truy cập). Chế độ cấp phép có thể kiểm toán trên mỗi công cụ của GitHub Agentic Workflows v0.75.4 là một ví dụ nhỏ, hiện đại về điều này: mỗi công cụ mà tác nhân có thể tiếp cận đều có một quyền cấp rõ ràng, có thể kiểm toán riêng. Agent Governance Toolkit của Microsoft là cùng một ý tưởng nhằm thực thi chính sách và định danh không tin cậy (zero-trust identity) cho các tác nhân như một danh mục. Vùng ngoại vi hành động và hộp cát (sandbox). Bốn nhà cung cấp đang đặt cược vào cùng một ranh giới này ngay bây giờ: hộp cát Managed Agents tự lưu trữ của Anthropic, kiến trúc tham chiếu MCP doanh nghiệp của Cloudflare (OAuth 2.1 phía trước MCP, với DLP và một cổng thông tin), Node9 Proxy độc lập (kiểm toán và hoàn tác trong đường dẫn), và OpenShell của NVIDIA (cô lập hạt nhân ở lớp syscall). Họ không đồng ý về vị trí của bức tường. Họ đồng ý rằng phải có một bức tường. Phiên bản cổ điển của quy tắc này là không gian người dùng (userspace) không thể chạm vào bộ điều khiển đĩa mà không thông qua hạt nhân (kernel). Bất cứ thứ gì một tác nhân tiếp cận, một thứ gì đó bên dưới nó phải ở vị trí có thể từ chối. Trạng thái, độ bền và giám sát. Một lần chạy tác nhân dài là một tiến trình chạy dài, và các tiến trình chạy dài sẽ gặp sự cố. Bạn cần các điểm kiểm tra (checkpoints), thực thi có thể tiếp tục (resumable execution), các bước bất biến (idempotent steps) và một bộ giám sát (supervisor) biết phải làm gì khi một trong các bước bị lỗi trong quá trình thực hiện. Statewright là dự án máy trạng thái trực quan đã thu hút sự chú ý trên HN vào tháng 5. Dự án 12-factor-agents của humanlayer (hơn 22.000 lượt gắn dấu sao) đang cố gắng hệ thống hóa mô hình thực thi bền vững rộng hơn. Cả hai đều ở giai đoạn đầu. Hướng công nghiệp nặng hơn là các công cụ luồng công việc (workflow engines) cấp Temporal được điều chỉnh cho các tác nhân. Mọi dẫn xuất Unix cuối cùng đều có một bộ giám sát lớp init/systemd.

Hệ điều hành Agent có mười một hệ thống con. Bạn có thể có hai.