Độ nhạy của Harness không đơn điệu trên các cấp độ tác nhân LLM.
URL bài viết: https://arxiv.org/abs/2605.26731 URL bình luận: https://news.ycombinator.com/item?id=48303886 Điểm: 2 Bình luận: 0
Khoa học Máy tính > Trí tuệ nhân tạo
arXiv:2605.26731 (cs)
[Đệ trình ngày 26/5/2026]
Tiêu đề: Không phải là Khả năng: Độ nhạy của Harness không đơn điệu trên các cấp độ tác nhân LLM
Tác giả: Yong-eun Cho
Xem bản PDF của bài báo có tiêu đề "It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers" của Yong-eun Cho
Xem PDF
HTML (thử nghiệm)
Tóm tắt: Một giả định phổ biến trong việc triển khai tác nhân LLM cho rằng các harness (cơ chế điều khiển) có cấu trúc tốt hơn sẽ cải thiện độ tin cậy một cách phổ quát, và các mô hình có khả năng cao hơn cần ít hướng dẫn cấu trúc hơn một cách tương ứng – cùng nhau ngụ ý một mối quan hệ nghịch đảo đơn điệu giữa cấp độ khả năng của mô hình và độ phức tạp tối ưu của harness. Chúng tôi kiểm tra giả thuyết này thông qua một thí nghiệm có kiểm soát gồm 432 lần chạy, kết hợp sáu mô hình trên bốn cấp độ khả năng với ba điều kiện harness (nhẹ, cân bằng, nghiêm ngặt) trên HEAT-24, một bộ tiêu chuẩn tổng hợp gồm 24 tác vụ với xác minh không gian làm việc dựa trên git. Kết quả của chúng tôi bác bỏ mối quan hệ nghịch đảo đơn điệu trên hai phương diện. Thứ nhất, đối với mô hình trò chuyện tiên tiến được đánh giá (Gemini 2.5 Flash), việc tăng độ chi tiết của harness làm giảm VTSR (tỷ lệ thành công của tác vụ) từ 29-38 điểm phần trăm – một nghịch lý về độ phức tạp của harness. Thứ hai, đối với mô hình suy luận tiên tiến được đánh giá (Qwen3.5-122B, có bật tính năng tư duy mở rộng), harness nghiêm ngặt đạt VTSR cao nhất (91,7%) và độ trễ thấp nhất, ngược lại với dự đoán. Trong cấp độ hạn chế, một mô hình 2B (Gemma4:e2B) đạt được độ ổn định tương đương với cấp độ mở mạnh mẽ ở mức 91,7% trên tất cả các harness. Vì mỗi cấp độ được đại diện bởi một mô hình duy nhất trong nghiên cứu này, những kết quả này nên được hiểu là các quan sát cụ thể của mô hình; độ nhạy của harness dường như không đơn điệu trên các mô hình được đánh giá, và phụ thuộc đáng kể vào loại mô hình (trò chuyện so với suy luận). Chúng tôi giới thiệu một phân loại lỗi sáu nhãn cho thấy lỗi format_violation chiếm ưu thế trong các lỗi của mô hình có khả năng, trong khi lỗi wrong_file chiếm ưu thế trong các lỗi có khả năng thấp, và chúng tôi đưa ra các hướng dẫn thực tế về lựa chọn harness có tính đến cấp độ.
Bình luận:
9 trang, 3 hình
Chủ đề:
Trí tuệ nhân tạo (cs.AI); Tính toán và Ngôn ngữ (cs.CL)
Trích dẫn:
arXiv:2605.26731 [cs.AI]
(hoặc arXiv:2605.26731v1 [cs.AI] cho phiên bản này)
https://doi.org/10.48550/arXiv.2605.26731
Tập trung để tìm hiểu thêm
DOI do arXiv cấp thông qua DataCite (đang chờ đăng ký)
Lịch sử đệ trình
Từ: Yong Eun Cho [xem email]
[v1]
Thứ Ba, 26/5/2026 09:08:41 UTC (55 KB)
Liên kết toàn văn:
Truy cập bài báo:
Xem bản PDF của bài báo có tiêu đề "It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers" của Yong-eun Cho
Xem PDF
HTML (thử nghiệm)
Nguồn TeX
xem giấy phép
Ngữ cảnh duyệt hiện tại:
cs.AI
< trước
| tiếp theo >
mới
| gần đây
| 2026-05
Thay đổi để duyệt theo:
cs
cs.CL
Tài liệu tham khảo & Trích dẫn
NASA ADS
Google Scholar
Semantic Scholar
xuất trích dẫn BibTeX
Đang tải...
Trích dẫn định dạng BibTeX
×
đang tải...
Dữ liệu được cung cấp bởi:
Đánh dấu
Công cụ thư mục
Công cụ thư mục và trích dẫn
Chuyển đổi Trình khám phá thư mục
Trình khám phá thư mục (Trình khám phá là gì?)
Chuyển đổi Bài báo liên quan
Bài báo liên quan (Bài báo liên quan là gì?)
Chuyển đổi Litmaps
Litmaps (Litmaps là gì?)
scite.ai Chuyển đổi
scite Smart Citations (Smart Citations là gì?)
Mã nguồn, Dữ liệu, Đa phương tiện
Mã nguồn, Dữ liệu và Đa phương tiện liên quan đến bài viết này
alphaXiv Bật/Tắt
alphaXiv (alphaXiv là gì?)
Liên kết đến Mã nguồn Bật/Tắt
CatalyzeX Code Finder for Papers (CatalyzeX là gì?)
DagsHub Bật/Tắt
DagsHub (DagsHub là gì?)
GotitPub Bật/Tắt
Gotit.pub (GotitPub là gì?)
Huggingface Bật/Tắt
Hugging Face (Huggingface là gì?)
ScienceCast Bật/Tắt
ScienceCast (ScienceCast là gì?)
Bản trình diễn
Bản trình diễn
Replicate Bật/Tắt
Replicate (Replicate là gì?)
Spaces Bật/Tắt
Hugging Face Spaces (Spaces là gì?)
Spaces Bật/Tắt
TXYZ.AI (TXYZ.AI là gì?)
Các bài báo liên quan
Công cụ đề xuất và tìm kiếm
Liên kết đến Influence Flower
Influence Flower (Influence Flowers là gì?)
Công cụ đề xuất CORE Bật/Tắt
CORE Recommender (CORE là gì?)
Tác giả
Địa điểm
Tổ chức
Chủ đề
Về arXivLabs
arXivLabs: các dự án thử nghiệm với cộng tác viên cộng đồng
arXivLabs là một khuôn khổ cho phép các cộng tác viên phát triển và chia sẻ các tính năng arXiv mới trực tiếp trên trang web của chúng tôi.
Cả cá nhân và tổ chức làm việc với arXivLabs đều đã chấp nhận và tuân thủ các giá trị của chúng tôi về sự cởi mở, cộng đồng, sự xuất sắc và quyền riêng tư dữ liệu người dùng. arXiv cam kết với những giá trị này và chỉ làm việc với các đối tác tuân thủ chúng.
Bạn có ý tưởng cho một dự án sẽ mang lại giá trị cho cộng đồng của arXiv không? Tìm hiểu thêm về arXivLabs.
Những tác giả nào của bài báo này là người xác nhận? | Vô hiệu hóa MathJax (MathJax là gì?)
Nguồn tin: Hacker News LLM — Tác giả: simonpure. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.