Bỏ qua tới nội dung chính
Quay lại tin tức

WebMCP: Tôi đã chuẩn bị trang web của mình cho tác nhân AI

Hacker News AI· aashu_bel· 21/5/2026general

URL bài viết: https://suganthan.com/blog/webmcp-implementation-guide/ URL bình luận: https://news.ycombinator.com/item?id=48219069 Điểm: 1 Bình luận: 0

Blog / WebMCP: Tôi đã biến trang web của mình sẵn sàng cho tác nhân AI (Đây là cách thực hiện) WebMCP: Tôi đã biến trang web của mình sẵn sàng cho tác nhân AI (Đây là cách thực hiện) Hướng dẫn thực tế để triển khai WebMCP trên trang web của bạn. WebMCP là gì, cách hoạt động và hướng dẫn đầy đủ về việc thêm các công cụ MCP vào một trang web cá nhân để các tác nhân AI có thể tương tác trực tiếp với nó. Bởi: Suganthan Mohanadasan · Cập nhật ngày 20/5/2026 · Xuất bản lần đầu ngày 12/5/2026 · Thời gian đọc 13 phút · Độ khó: Cần một số lắp ráp Thẻ: seo ai tools mcp Tóm tắt bằng AI ChatGPT Perplexity Claude Grok Cập nhật (tháng 5/2026): Google đã công bố tài liệu WebMCP chính thức trên developer.chrome.com và xác nhận thử nghiệm nguồn gốc trong Chrome 149. Đây là dấu hiệu cho thấy Google đang nghiêm túc trong việc triển khai nó. Cờ tính năng trước đây và bài đăng blog giải thích đã trở thành tài liệu API chính thức, mô hình bảo mật Permissions Policy, các ứng dụng mẫu chính thức và số phiên bản Chrome trong quá trình triển khai. Chi tiết đầy đủ bên dưới. Hiện tại, các tác nhân AI tương tác với các trang web giống như một khách du lịch không nói được ngôn ngữ. Chúng chụp ảnh màn hình. Chúng đoán nút nào làm gì. Chúng nhấp, đợi, chụp ảnh màn hình lại và hy vọng điều tốt nhất. Nó hoạt động. Một cách khó khăn. Và nó chậm, tốn kém và không đáng tin cậy một cách đáng kinh ngạc. WebMCP thay đổi điều đó. Thay vì bắt các tác nhân AI phải tìm hiểu trang web của bạn bằng cách nhìn vào nó, bạn chỉ cần cho chúng biết trang web của bạn có thể làm gì. Các chức năng có cấu trúc mà chúng có thể gọi trực tiếp. Không chụp ảnh màn hình. Không đoán mò. Tôi đã triển khai nó trên trang web này. Đây là tất cả những gì tôi đã học được. Vấn đề WebMCP giải quyết Hiện có hai cách mà một tác nhân AI có thể tương tác với một trang web, và cả hai đều có những hạn chế nghiêm trọng. Cách tiếp cận "tác nhân nhìn vào trang". Tác nhân có một cửa sổ trình duyệt và cố gắng tìm hiểu xem trang đó có thể làm gì. Một số công cụ chủ yếu dựa vào ảnh chụp màn hình và các mô hình thị giác (Claude Computer Use là ví dụ nổi bật). Hầu hết các tác nhân trình duyệt hiện đại (Browserbase, Stagehand, OpenAI’s Operator, các tác nhân dựa trên Playwright) hiện kết hợp ảnh chụp màn hình với cây khả năng truy cập của trang (dữ liệu có cấu trúc tương tự mà trình đọc màn hình sử dụng) và DOM thô. Sự kết hợp này nhanh hơn và đáng tin cậy hơn so với thị giác thuần túy ngay cả một năm trước, đặc biệt trên các trang có thể truy cập, có cấu trúc tốt. Nhưng tác nhân vẫn suy luận những gì trang có thể làm từ những gì trang trông như thế nào. Suy luận đó bị phá vỡ khi một menu chỉ xuất hiện khi di chuột, khi một nút di chuyển sau khi thiết kế lại, hoặc khi hai trang web bố trí thanh toán của họ theo những cách hoàn toàn khác nhau. Cây khả năng truy cập mô tả những gì tồn tại trên trang, không phải ý định đằng sau nó. Cách tiếp cận máy chủ MCP tùy chỉnh. Bạn xây dựng một máy chủ MCP chuyên dụng cho dịch vụ của mình và người dùng cài đặt nó trong ứng dụng khách AI của họ. Đây là điều tôi đã làm với máy chủ MCP Google Search Console của mình. Nó hoạt động xuất sắc sau khi thiết lập. Nhưng thực tế, không ai sẽ cài đặt một máy chủ MCP tùy chỉnh cho mọi trang web họ truy cập. Nó không mở rộng được. WebMCP là lựa chọn thứ ba. Trang web của bạn tự khai báo các khả năng của mình dưới dạng các công cụ có cấu trúc mà bất kỳ tác nhân AI nào cũng có thể khám phá và gọi. Không cần cài đặt. Không cần mô hình thị giác. Tác nhân truy cập trang của bạn, xem các công cụ có sẵn và sử dụng chúng. Hãy nghĩ theo cách này: thay vì đưa cho ai đó một thực đơn tiếng nước ngoài và xem họ chỉ vào các hình ảnh, bạn đưa cho họ một thực đơn bằng ngôn ngữ của họ với mô tả rõ ràng về mọi món ăn. Đó là WebMCP. Hai thứ được gọi là "WebMCP" (điều này quan trọng) Đây là điểm mà hầu hết các bài viết trở nên khó hiểu, vì thực tế có hai dự án khác nhau đều sử dụng tên "WebMCP". Chúng giải quyết cùng một vấn đề nhưng hoạt động rất khác nhau. Đặc tả trình duyệt W3C/Chrome Nhóm Chrome của Google và nhóm Edge của Microsoft đang xây dựng một API gốc trình duyệt có tên WebMCP. API này bổ sung một đối tượng navigator.modelContext trực tiếp vào trình duyệt, để các trang web có thể đăng ký công cụ bằng JavaScript hoặc thậm chí là các thuộc tính biểu mẫu HTML thuần túy. Đây là API mà bạn sẽ thấy được đề cập trong các bài viết từ Forbes, VentureBeat và blog nhà phát triển Chrome. API này hiện có sẵn dưới dạng bản xem trước sớm đằng sau một cờ tính năng trong Chrome Beta. Để dùng thử: Tải xuống Chrome Beta Điều hướng đến chrome://flags/#enable-webmcp-testing Bật và khởi động lại Đặc tả hỗ trợ hai API. Một API khai báo (Declarative API) nơi bạn thêm các thuộc tính toolname và tooldescription vào các biểu mẫu HTML hiện có, và một API mệnh lệnh (Imperative API) nơi bạn đăng ký công cụ thông qua JavaScript. Cách tiếp cận khai báo rất thông minh vì nó có nghĩa là các biểu mẫu hiện có có thể trở nên sẵn sàng cho tác nhân với hai thuộc tính bổ sung. Đặc tả cũng được bảo vệ bởi Chính sách quyền công cụ (tools Permissions Policy) mặc định là self. Các iframe khác nguồn gốc phải khai báo allow="tools" trước khi chúng có thể đăng ký bất cứ điều gì, vì vậy một tiện ích của bên thứ ba ngẫu nhiên được nhúng trên trang web của bạn không thể âm thầm hiển thị công cụ cho các tác nhân truy cập. Google cũng đã phát hành tiện ích mở rộng Chrome Model Context Tool Inspector để kiểm tra công cụ với gemini-3-flash-preview mà không cần thiết lập một máy khách MCP hoàn chỉnh, cùng với các ứng dụng mẫu chính thức trong kho lưu trữ GoogleChromeLabs/webmcp-tools. Các mẫu bao gồm cả hai API. API mệnh lệnh có Pizza Maker và ứng dụng đặt vé du lịch React, trong khi API khai báo có Le Petit Bistro. API này chưa có trong Chrome ổn định. Bản dùng thử nguồn gốc Chrome 149 là bước cụ thể tiếp theo. Vì vậy, hiện tại, đây là bản xem trước về hướng phát triển chứ không phải là thứ bạn sẽ triển khai cho tất cả người dùng của mình ngay hôm nay. Thư viện jasonjmcghee/WebMCP (thứ tôi đã sử dụng) Jason McGhee đã xây dựng một thư viện JavaScript mã nguồn mở giải quyết cùng một vấn đề ngay hôm nay. Bạn thêm một tập lệnh vào trang của mình, đăng ký công cụ và một tiện ích nhỏ xuất hiện cho phép người dùng kết nối máy khách MCP của họ (Claude Desktop, Cursor hoặc bất kỳ thứ gì hỗ trợ MCP). Sự khác biệt chính: nó hoạt động ngay bây giờ, với bất kỳ máy khách MCP nào, trong bất kỳ trình duyệt nào. Không có bản beta hoặc thời gian chờ đợi. Nó sử dụng một cầu nối WebSocket cục bộ để kết nối trang web với máy khách MCP của bạn. Trang web hiển thị công cụ và máy khách MCP gọi chúng. 602 sao trên GitHub, được cấp phép MIT và được duy trì tích cực. Đây là thứ tôi đã triển khai trên trang web này. Nếu bạn muốn phiên bản gốc trình duyệt, hãy đợi Chrome phát hành nó ra bản ổn định. Nếu bạn

Nguồn tin: Hacker News AI — Tác giả: aashu_bel. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.