
Từ nguyên mẫu đến lợi nhuận: Giải quyết vấn đề đốt token của tác nhân
Thiết kế các quy trình làm việc tự thích ứng, tiết kiệm token cho sản xuất Bài viết "Từ nguyên mẫu đến lợi nhuận: Giải quyết vấn đề tiêu tốn token của tác nhân" xuất hiện lần đầu trên Towards Data Science.
AI Tác nhân
Từ nguyên mẫu đến lợi nhuận: Giải quyết vấn đề "đốt" token của AI tác nhân
Tại sao các tác nhân bị ràng buộc cứng nhắc thất bại và cách thiết kế quy trình làm việc tự thích ứng, hiệu quả về token.
Rahul Vir
Ngày 23/5/2026
7 phút đọc
Chia sẻ
Hình ảnh được tạo bằng Gemini
Bài viết này được đồng tác giả bởi Rahul Vir và Reya Vir.
Sự chuyển dịch từ năng lực sang hiệu quả token
Chúng ta đã chính thức vượt qua giai đoạn tạo mẫu AI. Dựa trên các khái niệm trong bài viết "Thoát khỏi ảo ảnh nguyên mẫu" [1], các nhóm sản phẩm và kỹ thuật trên mọi ngành công nghiệp hiện đang triển khai các ứng dụng tác nhân giải quyết các quy trình làm việc trước đây bị chi phối bởi công việc thủ công. Việc xây dựng các nguyên mẫu tác nhân tự động này giờ đây trở nên dễ dàng. Nó đơn giản như việc sử dụng các khái niệm chính như Vòng lặp tác nhân đệ quy (Quan sát-Suy nghĩ-Hành động) để thực thi, thiết lập các cổng không giao diện để kết nối các tác nhân thông qua ứng dụng trò chuyện và dựa vào trạng thái được lưu trữ tồn tại qua các lần khởi động lại (như đã giải thích trong [1]). Nhưng việc đưa chúng lên thành sản phẩm đáng tin cậy lại là một câu chuyện khác. Biên giới mới không phải là chứng minh các tác nhân có thể hoạt động, mà là chứng minh chúng có thể hoạt động có lợi nhuận.
Đồng thời, các chỉ số nội bộ tại các doanh nghiệp như "token maxing" (sử dụng token không giới hạn để đạt được kết quả tốt nhất) vốn phù hợp cho giai đoạn tạo mẫu đang chuyển sang đo lường tỷ lệ "giá trị trên token đã chi" khi các sản phẩm tác nhân mở rộng quy mô. Rốt cuộc, hầu hết các sản phẩm cần phải có lợi nhuận và tối đa hóa lợi nhuận khi chúng chuyển từ việc tận dụng tính toán truyền thống giá rẻ (TradCompute) để giải quyết vấn đề của người dùng sang sử dụng trí tuệ AI cho cùng một mục đích.
Tuy nhiên, các mô hình cần sự tự do suy luận và các nghiên cứu gần đây đã chỉ ra rằng các quy trình làm việc tác nhân khám phá vượt trội hơn các đường dẫn cố định, mở ra các đường dẫn mới, tạo ra các công cụ MCP và xây dựng cơ sở hạ tầng để giải quyết vấn đề hiệu quả hơn trong hầu hết các trường hợp. Điều này đặt ra câu hỏi về việc cân bằng nhu cầu tự chủ của mô hình với thực tế kinh tế của chi phí suy luận.
Tại sao các tác nhân bị ràng buộc không thể hội tụ
Các bộ điều khiển tác nhân lưu trữ ngữ cảnh và mục tiêu nhiệm vụ của bạn trong các tệp markdown (*.md), thường không đại diện cho các quy trình làm việc chặt chẽ, mà thay vào đó phác thảo ý định hoặc mục tiêu bạn muốn đạt được.
Nghịch lý của thất bại mục tiêu: Trong các nghiên cứu về các tác nhân giải quyết các vấn đề phức tạp, các nhà nghiên cứu đã phát hiện ra rằng việc cung cấp các hướng dẫn nghiêm ngặt, bị ràng buộc chặt chẽ, trong đó mỗi hành động của tác nhân đưa nó đến gần mục tiêu hơn, dẫn đến việc bị mắc kẹt trong một cực tiểu cục bộ và chịu thất bại mục tiêu. Một ví dụ từ nghiên cứu của Giáo sư Jeff Clune về học tập tác nhân mở minh họa điều này một cách hoàn hảo: một tác nhân trong mê cung, khi liên tục được thưởng chỉ vì tìm kiếm con đường trực tiếp đến lối ra, sẽ liên tục đâm vào tường và bị mắc kẹt trong một cực tiểu cục bộ, không bao giờ đến được đích [2].
Sức mạnh của các bộ điều khiển không bị ràng buộc: Các bộ điều khiển tác nhân đương đại như Google Antigravity và Claude Code của Anthropic đã rất hiệu quả vì chúng cho phép các tác nhân tạo, điều phối, thực hiện các nhiệm vụ phức tạp và thậm chí tạo ra các công cụ của riêng mình mà không cần sự quản lý vi mô chặt chẽ của con người. Chúng thành công vì chúng được trao quyền tự do khám phá các con đường vòng.
Hãy xem xét một trường hợp đặc biệt trong quy trình tiếp nhận y tế định kỳ: nếu chúng ta giới hạn một tác nhân chăm sóc sức khỏe chỉ tuân theo một quy trình lên lịch được xác định trước, điều này sẽ không hiệu quả trong thực tế. Nếu bệnh nhân đề cập đến việc đau ngực giữa chừng trong quá trình tiếp nhận định kỳ đó, Vòng lặp tác nhân (Agentic Loop) của tác nhân phải có quyền tự chủ để ngay lập tức nhận ra tính khẩn cấp, từ bỏ quy trình lên lịch và kích hoạt leo thang an toàn. Nó nên sử dụng cái mà chúng ta đã định nghĩa trước đây là `No-Reply Token` để ngăn chặn các cuộc trò chuyện đặt lịch và chuyển ngữ cảnh trực tiếp đến một y tá [1]. Các nguyên mẫu bị giới hạn cứng nhắc thất bại một cách ngoạn mục trong thử nghiệm này vì chúng không thể thích ứng với ngữ cảnh quan trọng, nằm ngoài giới hạn.
Tìm kiếm mục tiêu vô hạn rất tốn kém
Mặc dù việc cung cấp quyền tự chủ là cần thiết để tìm ra giải pháp ban đầu, nhưng việc chạy một tìm kiếm mở hoàn toàn cho mọi yêu cầu quy trình làm việc của người dùng có thể dẫn đến việc tiêu thụ token lớn và không bền vững. Ở giai đoạn này, tác nhân đã tìm thấy một đường dẫn hợp lệ và cách tiếp cận này vốn dĩ cho phép nó khám phá lại hoặc "ảo giác" cấu trúc quy trình làm việc. Mặc dù điều này có thể tự điều chỉnh, nhưng các lần chạy tiếp theo của một yêu cầu tương tự sẽ phá hủy kinh tế token của doanh nghiệp.
Ví dụ, việc định tuyến các quy trình tiếp nhận y tế và thậm chí cả các trường hợp đặc biệt yêu cầu leo thang có thể được học trong một khoảng thời gian. Các quy trình làm việc của một phòng khám hoặc nhà cung cấp giải pháp sẽ chuyển sang các đường dẫn xác định trong phần lớn các trường hợp, chỉ dành một số quyền tự chủ cho các trường hợp ngoại lệ hiếm gặp và các trường hợp đặc biệt phức tạp.
Giải pháp kiến trúc thông qua cam kết sớm và phát lại xác định
Cam kết sớm (Early Commitment) đã cho thấy nhiều hứa hẹn trong việc giải quyết vấn đề có cấu trúc và nó cũng có thể được áp dụng cho các quy trình làm việc của tác nhân [3]. Nó liên quan đến việc phân loại vấn đề trước tiên, chẳng hạn bằng cách cấu trúc lời nhắc hệ thống để yêu cầu mô hình xuất ra một thẻ phân loại cụ thể. Bằng cách buộc một tác nhân phân loại loại vấn đề và thiết lập các ràng buộc trước khi nó tạo ra logic thực thi, bạn ngăn tác nhân ảo giác hoặc khám phá các đường dẫn bế tắc. Điều này loại bỏ nhiễu và tập trung tác nhân hoàn toàn vào việc thực thi thay vì khám phá liên tục.
Ví dụ, trong một quy trình phân loại y tế từ xa, chúng ta có thể thực thi Cam kết sớm bằng cách yêu cầu tác nhân phân loại dứt khoát cuộc gặp gỡ là "đơn thuốc định kỳ" trước khi thực hiện bất kỳ hành động nào. Một khi đã cam kết với ràng buộc cụ thể này, tác nhân sẽ giới hạn các lệnh gọi công cụ của mình nghiêm ngặt vào cơ sở dữ liệu dược phẩm, hoàn toàn bỏ qua các đường dẫn suy luận chẩn đoán tốn kém, mở rộng mà nó có thể đi lạc vào khi cố gắng chẩn đoán bệnh nhân.
Một nghiên cứu gần đây của Wang, X., et al. giới thiệu Khung công cụ kỹ năng LOOP (LOOP Skill Engine Framework), đưa cam kết sớm lên cấp độ cơ sở hạ tầng bằng cách sử dụng mô hình ghi một lần và phát lại xác định [4]. Tác nhân có thể tự động khám phá một lần bằng cách sử dụng lý luận đầy đủ, và hệ thống sau đó
Nguồn tin: Towards Data Science — Tác giả: Rahul Vir. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.