Giảm thiểu khủng hoảng chạy lại LLM cho tự động hóa web với chi…

URL bài viết: https://arxiv.org/abs/2604.09718 URL bình luận: https://news.ycombinator.com/item?id=48435195 Điểm: 3 Bình luận: 0

Khoa học Máy tính > Điện toán phân tán, song song và cụm arXiv:2604.09718 (cs) [Đệ trình ngày 8/4/2026 (v1), sửa đổi lần cuối ngày 25/4/2026 (phiên bản này, v2)] Tiêu đề: Biên dịch tác nhân: Giảm thiểu khủng hoảng chạy lại LLM cho tự động hóa web với chi phí suy luận tối thiểu Tác giả: Jagadeesh Chundru Xem bản PDF của bài báo có tiêu đề Biên dịch tác nhân: Giảm thiểu khủng hoảng chạy lại LLM cho tự động hóa web với chi phí suy luận tối thiểu, của Jagadeesh Chundru Xem PDF HTML (thử nghiệm) Tóm tắt: Các tác nhân web do LLM điều khiển hoạt động thông qua các vòng lặp suy luận liên tục – liên tục truy vấn một mô hình để đánh giá trạng thái trình duyệt và chọn hành động – thể hiện một hạn chế về khả năng mở rộng cơ bản đối với các tác vụ lặp đi lặp lại. Chúng tôi mô tả điều này là Khủng hoảng chạy lại: sự tăng trưởng tuyến tính của chi phí token và độ trễ API so với tần suất thực thi. Đối với một quy trình làm việc 5 bước qua 500 lần lặp, một tác nhân liên tục phải chịu chi phí suy luận khoảng 150,00 USD; ngay cả với bộ nhớ đệm mạnh mẽ, con số này vẫn gần 15,00 USD. Chúng tôi đề xuất kiến trúc Biên dịch và Thực thi (Compile-and-Execute) tách rời lý luận của LLM khỏi thực thi trình duyệt, giảm chi phí suy luận cho mỗi quy trình làm việc xuống dưới 0,10 USD. Một lần gọi LLM một lần xử lý một biểu diễn ngữ nghĩa hiệu quả về token từ Mô-đun làm sạch DOM (DOM Sanitization Module - DSM) và phát ra một bản thiết kế quy trình làm việc JSON xác định. Một thời gian chạy nhẹ sau đó điều khiển trình duyệt mà không cần truy vấn mô hình thêm. Chúng tôi chính thức hóa việc giảm chi phí này từ O(M x N) xuống tỷ lệ suy luận O(1) được khấu hao, trong đó M là số lần chạy lại và N là các hành động tuần tự. Đánh giá thực nghiệm trên các tác vụ trích xuất dữ liệu, điền biểu mẫu và tạo dấu vân tay cho thấy tỷ lệ thành công biên dịch zero-shot là 80-94%. Quan trọng là, tính mô-đun của biểu diễn trung gian JSON cho phép vá lỗi tối thiểu với sự tham gia của con người (Human-in-the-Loop - HITL) để nâng cao độ tin cậy thực thi lên gần 100%. Với chi phí mỗi lần biên dịch từ 0,002 USD đến 0,092 USD trên năm mô hình tiên tiến, những kết quả này thiết lập biên dịch xác định như một mô hình cho phép tự động hóa khả thi về mặt kinh tế ở quy mô trước đây không thể thực hiện được dưới các kiến trúc liên tục. Bình luận: 12 trang, 4 hình, 2 bảng. v2: Đã mở rộng phần đánh giá tài liệu và làm rõ các hạn chế của kiến trúc Chủ đề: Điện toán phân tán, song song và cụm (cs.DC); Trí tuệ nhân tạo (cs.AI); Ngôn ngữ lập trình (cs.PL) Các lớp ACM: I.2.11; I.2.2 Trích dẫn dưới dạng: arXiv:2604.09718 [cs.DC] (hoặc arXiv:2604.09718v2 [cs.DC] cho phiên bản này) https://doi.org/10.48550/arXiv.2604.09718 Tập trung để tìm hiểu thêm DOI do arXiv cấp thông qua DataCite Lịch sử đệ trình Từ: Jagadeesh Chundru [xem email] [v1] Thứ Tư, 8/4/2026 14:22:37 UTC (16 KB) [v2] Thứ Bảy, 25/4/2026 21:50:26 UTC (17 KB) Liên kết toàn văn: Truy cập bài báo: Xem bản PDF của bài báo có tiêu đề Biên dịch tác nhân: Giảm thiểu khủng hoảng chạy lại LLM cho tự động hóa web với chi phí suy luận tối thiểu, của Jagadeesh Chundru Xem PDF HTML (thử nghiệm) Nguồn TeX xem giấy phép Ngữ cảnh duyệt hiện tại: cs.DC < trước | tiếp theo > mới | gần đây | 2026-04 Thay đổi để duyệt theo: cs cs.AI cs.PL Tài liệu tham khảo & Trích dẫn NASA ADS Google Scholar Semantic Scholar xuất trích dẫn BibTeX Đang tải... Trích dẫn định dạng BibTeX × đang tải... Dữ liệu được cung cấp bởi: Đánh dấu Công cụ thư mục Công cụ thư mục và trích dẫn Bibliographic Explorer (Trình khám phá thư mục tài liệu) Bật/Tắt Bibliographic Explorer (Bibliographic Explorer là gì?) Connected Papers Bật/Tắt Connected Papers (Connected Papers là gì?) Litmaps Bật/Tắt Litmaps (Litmaps là gì?) scite.ai Bật/Tắt scite Smart Citations (Smart Citations là gì?) Mã nguồn, Dữ liệu, Phương tiện Mã nguồn, Dữ liệu và Phương tiện liên quan đến bài viết này alphaXiv Bật/Tắt alphaXiv (alphaXiv là gì?) Liên kết đến Mã nguồn Bật/Tắt CatalyzeX Code Finder for Papers (CatalyzeX là gì?) DagsHub Bật/Tắt DagsHub (DagsHub là gì?) GotitPub Bật/Tắt Gotit.pub (GotitPub là gì?) Huggingface Bật/Tắt Hugging Face (Huggingface là gì?) ScienceCast Bật/Tắt ScienceCast (ScienceCast là gì?) Bản trình diễn Bản trình diễn Replicate Bật/Tắt Replicate (Replicate là gì?) Spaces Bật/Tắt Hugging Face Spaces (Spaces là gì?) Spaces Bật/Tắt TXYZ.AI (TXYZ.AI là gì?) Các bài báo liên quan Công cụ đề xuất và tìm kiếm Liên kết đến Influence Flower Influence Flower (Influence Flowers là gì?) Công cụ đề xuất CORE Bật/Tắt CORE Recommender (CORE là gì?) Tác giả Địa điểm Tổ chức Chủ đề Giới thiệu về arXivLabs arXivLabs: các dự án thử nghiệm với các cộng tác viên cộng đồng arXivLabs là một khuôn khổ cho phép các cộng tác viên phát triển và chia sẻ các tính năng arXiv mới trực tiếp trên trang web của chúng tôi. Cả cá nhân và tổ chức làm việc với arXivLabs đều đã chấp nhận và tuân thủ các giá trị của chúng tôi về sự cởi mở, cộng đồng, sự xuất sắc và quyền riêng tư dữ liệu người dùng. arXiv cam kết với những giá trị này và chỉ làm việc với các đối tác tuân thủ chúng. Bạn có ý tưởng cho một dự án sẽ mang lại giá trị cho cộng đồng arXiv không? Tìm hiểu thêm về arXivLabs. Những tác giả nào của bài báo này là người xác nhận? | Tắt MathJax (MathJax là gì?)