Độ nhạy của Harness không đơn điệu trên các cấp độ tác nhân…

URL bài viết: https://arxiv.org/abs/2605.26731 URL bình luận: https://news.ycombinator.com/item?id=48303886 Điểm: 2 Bình luận: 0

Khoa học Máy tính > Trí tuệ nhân tạo arXiv:2605.26731 (cs) [Đệ trình ngày 26/5/2026] Tiêu đề: Không phải là Khả năng: Độ nhạy của Harness không đơn điệu trên các cấp độ tác nhân LLM Tác giả: Yong-eun Cho Xem bản PDF của bài báo có tiêu đề "It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers" của Yong-eun Cho Xem PDF HTML (thử nghiệm) Tóm tắt: Một giả định phổ biến trong việc triển khai tác nhân LLM cho rằng các harness (cơ chế điều khiển) có cấu trúc tốt hơn sẽ cải thiện độ tin cậy một cách phổ quát, và các mô hình có khả năng cao hơn cần ít hướng dẫn cấu trúc hơn một cách tương ứng – cùng nhau ngụ ý một mối quan hệ nghịch đảo đơn điệu giữa cấp độ khả năng của mô hình và độ phức tạp tối ưu của harness. Chúng tôi kiểm tra giả thuyết này thông qua một thí nghiệm có kiểm soát gồm 432 lần chạy, kết hợp sáu mô hình trên bốn cấp độ khả năng với ba điều kiện harness (nhẹ, cân bằng, nghiêm ngặt) trên HEAT-24, một bộ tiêu chuẩn tổng hợp gồm 24 tác vụ với xác minh không gian làm việc dựa trên git. Kết quả của chúng tôi bác bỏ mối quan hệ nghịch đảo đơn điệu trên hai phương diện. Thứ nhất, đối với mô hình trò chuyện tiên tiến được đánh giá (Gemini 2.5 Flash), việc tăng độ chi tiết của harness làm giảm VTSR (tỷ lệ thành công của tác vụ) từ 29-38 điểm phần trăm – một nghịch lý về độ phức tạp của harness. Thứ hai, đối với mô hình suy luận tiên tiến được đánh giá (Qwen3.5-122B, có bật tính năng tư duy mở rộng), harness nghiêm ngặt đạt VTSR cao nhất (91,7%) và độ trễ thấp nhất, ngược lại với dự đoán. Trong cấp độ hạn chế, một mô hình 2B (Gemma4:e2B) đạt được độ ổn định tương đương với cấp độ mở mạnh mẽ ở mức 91,7% trên tất cả các harness. Vì mỗi cấp độ được đại diện bởi một mô hình duy nhất trong nghiên cứu này, những kết quả này nên được hiểu là các quan sát cụ thể của mô hình; độ nhạy của harness dường như không đơn điệu trên các mô hình được đánh giá, và phụ thuộc đáng kể vào loại mô hình (trò chuyện so với suy luận). Chúng tôi giới thiệu một phân loại lỗi sáu nhãn cho thấy lỗi format_violation chiếm ưu thế trong các lỗi của mô hình có khả năng, trong khi lỗi wrong_file chiếm ưu thế trong các lỗi có khả năng thấp, và chúng tôi đưa ra các hướng dẫn thực tế về lựa chọn harness có tính đến cấp độ. Bình luận: 9 trang, 3 hình Chủ đề: Trí tuệ nhân tạo (cs.AI); Tính toán và Ngôn ngữ (cs.CL) Trích dẫn: arXiv:2605.26731 [cs.AI] (hoặc arXiv:2605.26731v1 [cs.AI] cho phiên bản này) https://doi.org/10.48550/arXiv.2605.26731 Tập trung để tìm hiểu thêm DOI do arXiv cấp thông qua DataCite (đang chờ đăng ký) Lịch sử đệ trình Từ: Yong Eun Cho [xem email] [v1] Thứ Ba, 26/5/2026 09:08:41 UTC (55 KB) Liên kết toàn văn: Truy cập bài báo: Xem bản PDF của bài báo có tiêu đề "It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers" của Yong-eun Cho Xem PDF HTML (thử nghiệm) Nguồn TeX xem giấy phép Ngữ cảnh duyệt hiện tại: cs.AI < trước | tiếp theo > mới | gần đây | 2026-05 Thay đổi để duyệt theo: cs cs.CL Tài liệu tham khảo & Trích dẫn NASA ADS Google Scholar Semantic Scholar xuất trích dẫn BibTeX Đang tải... Trích dẫn định dạng BibTeX × đang tải... Dữ liệu được cung cấp bởi: Đánh dấu Công cụ thư mục Công cụ thư mục và trích dẫn Chuyển đổi Trình khám phá thư mục Trình khám phá thư mục (Trình khám phá là gì?) Chuyển đổi Bài báo liên quan Bài báo liên quan (Bài báo liên quan là gì?) Chuyển đổi Litmaps Litmaps (Litmaps là gì?) scite.ai Chuyển đổi scite Smart Citations (Smart Citations là gì?) Mã nguồn, Dữ liệu, Đa phương tiện Mã nguồn, Dữ liệu và Đa phương tiện liên quan đến bài viết này alphaXiv Bật/Tắt alphaXiv (alphaXiv là gì?) Liên kết đến Mã nguồn Bật/Tắt CatalyzeX Code Finder for Papers (CatalyzeX là gì?) DagsHub Bật/Tắt DagsHub (DagsHub là gì?) GotitPub Bật/Tắt Gotit.pub (GotitPub là gì?) Huggingface Bật/Tắt Hugging Face (Huggingface là gì?) ScienceCast Bật/Tắt ScienceCast (ScienceCast là gì?) Bản trình diễn Bản trình diễn Replicate Bật/Tắt Replicate (Replicate là gì?) Spaces Bật/Tắt Hugging Face Spaces (Spaces là gì?) Spaces Bật/Tắt TXYZ.AI (TXYZ.AI là gì?) Các bài báo liên quan Công cụ đề xuất và tìm kiếm Liên kết đến Influence Flower Influence Flower (Influence Flowers là gì?) Công cụ đề xuất CORE Bật/Tắt CORE Recommender (CORE là gì?) Tác giả Địa điểm Tổ chức Chủ đề Về arXivLabs arXivLabs: các dự án thử nghiệm với cộng tác viên cộng đồng arXivLabs là một khuôn khổ cho phép các cộng tác viên phát triển và chia sẻ các tính năng arXiv mới trực tiếp trên trang web của chúng tôi. Cả cá nhân và tổ chức làm việc với arXivLabs đều đã chấp nhận và tuân thủ các giá trị của chúng tôi về sự cởi mở, cộng đồng, sự xuất sắc và quyền riêng tư dữ liệu người dùng. arXiv cam kết với những giá trị này và chỉ làm việc với các đối tác tuân thủ chúng. Bạn có ý tưởng cho một dự án sẽ mang lại giá trị cho cộng đồng của arXiv không? Tìm hiểu thêm về arXivLabs. Những tác giả nào của bài báo này là người xác nhận? | Vô hiệu hóa MathJax (MathJax là gì?)

Độ nhạy của Harness không đơn điệu trên các cấp độ tác nhân LLM.