Hầu hết các tác nhân web hiện nay điều khiển trình duyệt từng hành động một. Mô hình nhận trạng thái trang hiện tại – dưới dạng ảnh chụp màn hình hoặc văn bản DOM – và dự đoán lần nhấp, lần nhấn phím hoặc cuộn tiếp theo. Thiết kế hành động từng bước này có ý nghĩa khi các mô hình ngôn ngữ có khả năng suy luận hạn chế. Khi các mô hình trở nên có năng lực hơn trong việc viết và gỡ lỗi mã, vòng lặp cứng nhắc đó đã trở thành một hạn chế hơn là một cấu trúc hỗ trợ.
Phòng thí nghiệm AI Frontiers của Microsoft Research đã xây dựng một phương pháp tiếp cận khác. Khung công tác mã nguồn mở mới của họ, Webwright, cung cấp cho tác nhân một thiết bị đầu cuối thay vì một phiên trình duyệt có trạng thái.
Hầu hết các tác nhân web hiện nay điều khiển trình duyệt từng hành động một. Mô hình nhận trạng thái trang hiện tại – dưới dạng ảnh chụp màn hình hoặc văn bản DOM – và dự đoán lần nhấp, nhấn phím hoặc cuộn tiếp theo. Thiết kế hành động từng bước này có ý nghĩa khi các mô hình ngôn ngữ có khả năng suy luận hạn chế. Khi các mô hình trở nên có năng lực hơn trong việc viết và gỡ lỗi mã, vòng lặp cứng nhắc đó đã trở thành một hạn chế thay vì một cấu trúc hỗ trợ.
Phòng thí nghiệm AI Frontiers của Microsoft Research đã xây dựng một phương pháp tiếp cận khác. Khung công tác mã nguồn mở mới của họ, Webwright, cung cấp cho tác nhân một thiết bị đầu cuối thay vì một phiên trình duyệt có trạng thái. Tác nhân viết mã Playwright để điều khiển trình duyệt, chạy các lệnh bash, kiểm tra nhật ký và tinh chỉnh tập lệnh một cách lặp đi lặp lại. Playwright là một thư viện tự động hóa trình duyệt mã nguồn mở, cũng của Microsoft, hỗ trợ điều khiển lập trình các trình duyệt Chromium, Firefox và WebKit.
Những điểm khác biệt của Webwright
Webwright tách tác nhân khỏi trình duyệt và coi trình duyệt như một thứ mà tác nhân có thể khởi chạy, kiểm tra và loại bỏ trong khi phát triển một chương trình. Hiện vật tồn tại không phải là phiên trình duyệt mà là mã và nhật ký trong không gian làm việc cục bộ.
Đây là mô hình tương tự mà một nhà phát triển sử dụng khi viết một tập lệnh RPA (Tự động hóa quy trình robot). Thay vì nhấp thủ công qua một trang web mỗi lần, họ viết một tập lệnh một lần. Tập lệnh đó có thể được chạy lại, điều chỉnh và chia sẻ. Webwright áp dụng điều này cho các tác nhân được hỗ trợ bởi LLM.
Hệ thống có ba thành phần cốt lõi: một Runner, một Model Endpoint và một Environment đầu cuối. Runner có khoảng 150 dòng mã, giao diện mô hình khoảng 550 dòng và môi trường khoảng 300 dòng. Không có sự điều phối đa tác nhân hoặc hệ thống phân cấp lập kế hoạch phức tạp – chỉ có một vòng lặp tác nhân duy nhất.
Tất cả mã trung gian, nhật ký, ảnh chụp màn hình và kết quả đều được lưu trữ trong không gian làm việc, giúp dễ dàng kiểm tra mỗi lần chạy.
https://www.microsoft.com/en-us/research/articles/webwright-a-terminal-is-all-you-need-for-web-agents/
Vòng lặp tác nhân
Runner gửi ngữ cảnh hiện tại đến mô hình. Mô hình trả về một khối suy nghĩ và một lệnh shell. Lệnh đó chạy trong Environment, trả về đầu ra đầu cuối, nhật ký, ảnh chụp màn hình hoặc dấu vết lỗi. Những quan sát này quay trở lại ngữ cảnh và vòng lặp tiếp tục.
Thay vì thực hiện một hành động nguyên thủy tại một thời điểm, một tác nhân mã hóa có thể tự nhiên thể hiện các tương tác đa bước – chẳng hạn như chọn ngày hoặc điền vào toàn bộ biểu mẫu – dưới dạng một chương trình nhỏ gọn. Các vòng lặp, hàm và trừu tượng cho phép tác nhân tổng quát hóa trên các tác vụ tương tự mà không cần lặp lại dự đoán các chuỗi bước cấp thấp tương tự.
Hai thách thức kỹ thuật
Việc "hoàn thành" sớm và bùng nổ ngữ cảnh là hai vấn đề cốt lõi. Với các hành động bash mở, mô hình phải tự báo cáo hoàn thành và thường tuyên bố thành công mà không thực sự hoàn thành. Họ đã thêm một cổng: tác nhân phải tạo một cấu hình tự phản ánh, chạy một tập lệnh cuối cùng trong một thư mục mới với nhật ký và ảnh chụp màn hình, và vượt qua đánh giá tự phản ánh của chính nó để xuất ra thành công hoặc thất bại trước khi phát ra done: true. Nếu không, cờ sẽ bị loại bỏ và nó sẽ thử lại.
Đối với độ dài ngữ cảnh, các quỹ đạo mã hóa dài nhanh chóng vượt quá giới hạn ngữ cảnh, vì vậy họ nén lịch sử cứ sau 20 bước thành một bản tóm tắt duy nhất.
Kết quả đánh giá
Webwright đã được đánh giá trên hai tiêu chuẩn: Online-Mind2Web và Odysseys.
Online-Mind2Web bao gồm 300 tác vụ trên 136 trang web được sử dụng rộng rãi và sử dụng khung đánh giá tự động LLM-as-a-Judge. GPT-5.4 đạt độ chính xác tổng thể 86,67%, cao nhất trong số tất cả các công thức mã nguồn mở trong danh mục AutoEval của điểm chuẩn Online-Mind2Web, với ngân sách 100 bước. Claude Opus 4.7 đạt tổng thể 84,7% nhưng hoạt động tốt hơn trên các tác vụ khó ở N=100 bước — 80,5% so với 76,6% của GPT-5.4.
Các nhà nghiên cứu cũng tái tạo một đường cơ sở GPT-5.4 trong môi trường tác nhân dựa trên ảnh chụp màn hình thông thường, nơi mô hình dự đoán tọa độ x,y cho các hành động nhấp và gõ. Sử dụng cùng một mô hình cơ bản, Webwright đạt được những cải tiến đáng kể trên cả ba loại độ khó, làm nổi bật lợi ích của phương pháp tiếp cận dựa trên mã lệnh và thiết bị đầu cuối so với dự đoán tọa độ từng bước.
Odysseys đánh giá các tác vụ duyệt web dài hạn trải rộng trên nhiều trang web. Các tác vụ có trung bình 272,3 từ hướng dẫn. Trong bảng xếp hạng tháng 4/2026, mô hình hoạt động tốt nhất là Opus 4.6, với điểm số cao nhất là 44,5. Webwright được hỗ trợ bởi GPT-5.4 đạt 60,1%, cải thiện tương đối 35,1% so với công nghệ tiên tiến trước đó. So với hiệu suất cơ bản của GPT-5.4 là 33,5%, điều này tương ứng với cải thiện tương đối 79,4% — hoặc 26,6 điểm tuyệt đối.
Phân tích chi phí
Claude Opus 4.7 hiệu quả hơn về số bước để giải quyết mỗi tác vụ (trung bình 21,9 bước) so với GPT-5.4 (trung bình 26,3 bước). Tuy nhiên, Claude Opus 4.7 có giá cao hơn đáng kể so với GPT-5.4 (5 USD so với 2,50 USD cho 1 triệu token đầu vào và 25 USD so với 15,00 USD cho 1 triệu token đầu ra, tháng 4/2026), khiến chi phí trung bình cho mỗi tác vụ cao hơn so với GPT-5.4 (2,37 USD so với 6,09 USD). 50 bước đầu tiên mang lại độ chính xác 82%, và 50 bước tiếp theo mang lại thêm 3–4 điểm.
Hiệu suất của mô hình nhỏ
Nhóm nghiên cứu cũng đã thử nghiệm Qwen3.5-9B trên phân đoạn khó của Online-Mind2Web. Khi các tác vụ được bổ sung bằng các tập lệnh công cụ có thể tái sử dụng được xây dựng sẵn, Qwen3.5-9B đạt 66,2% trên các trang web Online-Mind2Web với hơn năm công cụ. Điều này cho thấy rằng các mô hình nhỏ hơn, chi phí thấp hơn có thể xử lý các tác vụ web phức tạp khi được kết hợp với thư viện công cụ được xây dựng sẵn.
Giải thích trực quan của Marktechpost
Webwright
Hướng dẫn bắt đầu nhanh
01 / 05 — Tổng quan
Webwright là gì?
Webwright là một khung tác nhân web mã nguồn mở, gốc thiết bị đầu cuối từ Microsoft Research. Thay vì dự đoán từng cú nhấp chuột trên trình duyệt, tác nhân viết mã Playwright, chạy các lệnh bash và lưu trữ các tập lệnh có thể tái sử dụng trong một không gian làm việc cục bộ.
~1.000 dòng mã khai thác trên 3 mô-đun — không có điều phối ẩn
Vòng lặp tác nhân đơn: Runner, Model Endpoint và môi trường thiết bị đầu cuối
8
Nguồn tin: MarkTechPost — Tác giả: Asif Razzaq. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.