Hermes Agent mã nguồn mở của Nous Research hiện có tính năng Tìm kiếm Công cụ (Tool Search). Tính năng này trực tiếp giải quyết một nút thắt ngày càng lớn trong các hệ thống tác nhân AI: quá nhiều công cụ MCP (Model Context Protocol) lấp đầy cửa sổ ngữ cảnh. Trong bài viết giải thích này, chúng tôi sẽ phân tích tính năng Tìm kiếm Công cụ làm gì, cách thức hoạt động và thời điểm sử dụng.
Vấn đề: Các công cụ MCP đang chiếm dụng cửa sổ ngữ cảnh của bạn
Khi bạn kết nối nhiều máy chủ MCP với một tác nhân AI, lược đồ JSON của mọi công cụ sẽ được gửi đến mô hình trong mỗi lượt. Điều này xảy ra ngay cả khi mô hình chỉ cần một hoặc hai công cụ cho một tác vụ nhất định.
Triển khai trong thực tế
Tính năng Tìm kiếm Công cụ (Tool Search) của Hermes Agent mã nguồn mở của Nous Research hiện đã được tích hợp. Tính năng này trực tiếp giải quyết một nút thắt ngày càng lớn trong các hệ thống tác nhân AI: quá nhiều công cụ MCP (Model Context Protocol) làm đầy cửa sổ ngữ cảnh. Trong bài viết giải thích này, chúng tôi sẽ phân tích chi tiết về chức năng, cách hoạt động và thời điểm sử dụng của Tìm kiếm Công cụ.
Vấn đề: Các công cụ MCP đang chiếm dụng cửa sổ ngữ cảnh của bạn
Khi kết nối nhiều máy chủ MCP với một tác nhân AI, lược đồ JSON của mỗi công cụ sẽ được gửi đến mô hình trong mỗi lượt tương tác. Điều này xảy ra ngay cả khi mô hình chỉ cần một hoặc hai công cụ cho một tác vụ cụ thể.
Các triển khai thực tế cảm nhận ngay lập tức vấn đề này. Một triển khai Hermes với năm máy chủ MCP và 34 công cụ cho thấy kích thước lời nhắc trung bình là 45.000 token mỗi lượt. Khoảng 22.000 token trong số đó — khoảng 50% — chỉ là chi phí phụ trội của lược đồ công cụ.
Dữ liệu kỹ thuật của Anthropic cho thấy các định nghĩa công cụ có thể tiêu thụ 134.000 token trước khi tối ưu hóa. Tool Attention đo lường "Thuế công cụ MCP" ở mức 15.000–60.000 token mỗi lượt đối với các triển khai đa máy chủ điển hình.
Điều này tạo ra hai vấn đề riêng biệt:
Chi phí: Các lượt tạo cache-miss khi bắt đầu phiên có thể tốn 0,07–0,10 USD mỗi lượt.
Mất độ chính xác: Tình trạng tê liệt quyết định xảy ra khi mô hình nhìn thấy hàng trăm tùy chọn công cụ không liên quan cùng một lúc.
Nguồn: hermes-agent.nousresearch.com/docs · Nous Research 2026
Tìm kiếm Công cụ là gì?
Tìm kiếm Công cụ là lớp tiết lộ dần dần tùy chọn của Hermes Agent dành cho các công cụ MCP và plugin không cốt lõi. Thay vì tải mọi lược đồ công cụ ngay từ đầu, mô hình chỉ tải những gì cần thiết — theo yêu cầu, mỗi lượt.
Khi Tìm kiếm Công cụ được kích hoạt, các công cụ MCP và plugin được thay thế trong mảng công cụ hiển thị cho mô hình bằng ba công cụ cầu nối:
tool_search(query, limit?) — tìm kiếm danh mục công cụ bị trì hoãn
tool_describe(name) — tải toàn bộ lược đồ cho một công cụ
tool_call(name, arguments) — gọi một công cụ bị trì hoãn
Một tương tác điển hình trông như sau:
Mô hình: tool_search("tạo một vấn đề github")
→ { matches: [{ name: "mcp_github_create_issue", ... }] }
Mô hình: tool_describe("mcp_github_create_issue")
→ { parameters: { type: "object", properties: { ... } } }
Mô hình: tool_call("mcp_github_create_issue", { title: "...", body: "..." })
→ { ok: true, issue_number: 42 }
Mô hình tìm kiếm những gì cần thiết, tải lược đồ, sau đó gọi công cụ. Tất cả các hook, rào chắn và lời nhắc phê duyệt đều chạy dựa trên tên công cụ cơ bản thực tế — không phải dựa trên cầu nối.
Các con số về độ chính xác
Đây không chỉ là một tính năng tiết kiệm token. Tìm kiếm Công cụ còn cải thiện độ chính xác của mô hình trong các đánh giá MCP.
Theo các đánh giá MCP nội bộ của Anthropic:
Claude Opus 4: độ chính xác cải thiện từ 49% → 74% khi bật Tìm kiếm Công cụ
Claude Opus 4.5: độ chính xác cải thiện từ 79,5% → 88,1% khi bật Tìm kiếm Công cụ
Các danh mục công cụ lớn tạo ra "tình trạng tê liệt quyết định" — mô hình bị nhầm lẫn khi lựa chọn giữa nhiều tùy chọn không liên quan. Việc loại bỏ các tùy chọn đó khỏi cửa sổ ngữ cảnh giúp giảm thiểu các kết quả dương tính giả. Dữ liệu của Anthropic cũng cho thấy giảm 85% mức sử dụng token định nghĩa công cụ trong khi vẫn duy trì quyền truy cập vào toàn bộ thư viện công cụ.
Cách thức truy xuất hoạt động: BM25 + Dự phòng
Về cơ bản, Hermes sử dụng BM25 — một thuật toán truy xuất thông tin cổ điển — để khớp truy vấn của mô hình với danh mục tên công cụ, mô tả và tên tham số.
Nếu BM25 không trả về kết quả có điểm dương, hệ thống sẽ chuyển sang đối sánh chuỗi con theo nghĩa đen trên tên công cụ. Điều này giúp chống lại các trường hợp suy biến zero-IDF, chẳng hạn như tìm kiếm "github" trong danh mục mà mọi tên công cụ đều chứa "github".
Danh mục không có trạng thái giữa các lượt. Nó được xây dựng lại từ danh sách tool-defs hiện tại trên mỗi lần lắp ráp. Điều này ngăn chặn các lỗi trôi dạt khi một danh mục được lưu trữ không đồng bộ với kho công cụ trực tiếp.
Khi nào Tìm kiếm Công cụ được kích hoạt?
Theo mặc định, Tìm kiếm Công cụ chạy ở chế độ tự động. Nó chỉ kích hoạt khi các lược đồ công cụ có thể trì hoãn tiêu thụ ít nhất 10% cửa sổ ngữ cảnh của mô hình đang hoạt động.
Dưới ngưỡng đó, việc lắp ráp mảng công cụ là một quá trình truyền tải thuần túy. Người dùng không phải trả thêm chi phí.
Quyết định này được đánh giá lại trên mỗi lượt:
Một phiên chỉ với một vài công cụ MCP và một mô hình ngữ cảnh dài có thể không bao giờ kích hoạt Tìm kiếm Công cụ.
Một phiên với nhiều máy chủ MCP được đính kèm (thường là hơn 15 công cụ) bắt đầu kích hoạt nó.
Việc loại bỏ các máy chủ giữa phiên sẽ trả về đúng cách việc hiển thị công cụ trực tiếp trên lần lắp ráp tiếp theo.
Tài liệu cấu hình
Thêm đoạn mã sau vào tệp hermes.yaml để kiểm soát hành vi:
Copy CodeCopiedUse a different Browser
tools:
tool_search:
enabled: auto # auto (mặc định), on, hoặc off
threshold_pct: 10 # % ngữ cảnh mà chế độ tự động kích hoạt
search_default_limit: 5
max_search_limit: 20
KeyDefaultMeaningenabledautoauto kích hoạt trên ngưỡng; on luôn kích hoạt nếu có ít nhất một công cụ có thể trì hoãn; off tắt hoàn toànthreshold_pct10Phần trăm độ dài ngữ cảnh mà chế độ tự động kích hoạt. Phạm vi: 0–100search_default_limit5Số lượt truy cập được trả về khi mô hình gọi tool_search mà không có giới hạnmax_search_limit20Giới hạn trên cứng mà mô hình có thể yêu cầu thông qua giới hạn. Phạm vi: 1–50
Người dùng cũng có thể sử dụng cú pháp viết tắt boolean đơn giản:
Copy CodeCopiedUse a different Browser
tools:
tool_search: true # tương đương với {enabled: auto}
Giải thích trực quan của Marktechpost
Nous Research — Hermes Agent
01 / 07
Tìm kiếm Công cụ: Giải quyết vấn đề cửa sổ ngữ cảnh MCP
Khi nhiều máy chủ MCP kết nối với một tác nhân, lược đồ JSON của mọi công cụ sẽ được tải vào ngữ cảnh của mô hình trên mỗi lượt — ngay cả khi chỉ cần một công cụ. Tìm kiếm Công cụ của Hermes Agent khắc phục điều này bằng cách tiết lộ lược đồ dần dần.
~22K
token/lượt chi phí
trong thiết lập 5 máy chủ, 34 công cụ
85%
giảm mức sử dụng token định nghĩa công cụ
(dữ liệu Anthropic)
134K
token được tiêu thụ bởi các định nghĩa công cụ
trước khi tối ưu hóa (Anthropic)
Vấn đề
02 / 07
Chi phí công cụ MCP
Mọi máy chủ MCP được kết nối đều đổ toàn bộ lược đồ JSON của nó vào ngữ cảnh ngay từ đầu. Với nhiều máy chủ, điều này gây ra tình trạng tắc nghẽn
Nguồn tin: MarkTechPost — Tác giả: Asif Razzaq. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.