Cấu trúc bên trong một tác nhân AI: Vòng lặp ReAct với khoảng…

Tôi muốn xây dựng một phiên bản đơn giản hóa của tác nhân AI của riêng mình – để nhìn xuyên qua những lời cường điệu và tìm hiểu những thay đổi khi các ứng dụng của chúng ta bắt đầu chạy một tác nhân. Tôi đã có các mảnh ghép rải rác nhưng chưa bao giờ thực sự bắt tay vào thực hiện. Đầu tiên, tôi phác thảo nó bằng mã giả, đọc một vài bài báo đã định hình những gì hiện đang được sản xuất, trò chuyện với các tác nhân chính thống để lấp đầy những khoảng trống và cuối cùng cho ra kết quả như sau: Nó đơn giản, và cũng hơi dễ mắc lỗi vì tôi đang chạy một mô hình cục bộ nhỏ thay vì một mô hình Frontier. Đôi khi nó trả lời sai, và một bước sai duy nhất sẽ làm hỏng toàn bộ chuỗi. Tuy nhiên, điểm tôi thực sự muốn nhấn mạnh là các Hành động có thể là bất cứ điều gì – và điều đó nguy hiểm như thế nào khi bạn ngừng coi nó như một bản demo. Các tiêu đề sản xuất mà tất cả chúng ta đã thấy chính xác là như thế này: các cam kết git (git commits) với bí mật bên trong, các tệp source.zip được đẩy vào các kho lưu trữ npm, các tác nhân được kích hoạt vào các shell mà chúng không nên có mặt. Một Hành động là bất kỳ lệnh gọi hàm nào bạn kết nối. Nếu bạn kết nối shell.exec, bạn đã kết nối rm -rf cho mô hình, cho phép nó xóa các tệp của bạn theo ý muốn. Vòng lặp cũng làm rõ một điều khác: cửa sổ ngữ cảnh (context window) rất quan trọng, bởi vì mỗi bước đều gửi lại toàn bộ lịch sử. Giữ nó nhỏ hoặc phải trả giá cho mỗi lần lặp. Đây là cách nó thường trông trong các triển khai khác: Và ngay cả với tất cả các giải pháp thay thế – bộ nhớ đệm lời nhắc (prompt caching), nén (/compaction), tóm tắt – hãy thành thật mà nói: việc giúp bạn chi tiêu ít token hơn không phải là lợi ích của nhà cung cấp. Đó là cách họ thực sự kiếm lợi từ điều này. Điều mà chúng ta với tư cách là Kỹ sư phần mềm nên làm là xem xét nghiêm túc việc quản lý ngữ cảnh và bắt đầu xây dựng các tác nhân tùy chỉnh cho các lĩnh vực của riêng mình, nơi các Hành động có thể là: Các lệnh gọi API nội bộ. Tạo cảnh báo. Tra cứu cơ sở dữ liệu. Tìm kiếm trên web. Thực hiện quy trình nội bộ. Vấn đề là một khi bạn đã tự viết vòng lặp, mọi "trợ lý AI" sẽ không còn là một hộp đen nữa. Bạn bắt đầu đặt những câu hỏi đúng: ngữ cảnh của tôi có gì, công cụ của tôi có thể chạm vào những gì, điều gì xảy ra khi mô hình sai, lời nhắc (Prompt) có liên quan đến mức nào? (gợi ý: rất nhiều).

Cấu trúc bên trong một tác nhân AI: Vòng lặp ReAct với khoảng 300 dòng mã.