Gaia2: Đánh giá tác nhân LLM trong môi trường động và bất đồng…

URL bài viết: https://arxiv.org/abs/2602.11964 URL bình luận: https://news.ycombinator.com/item?id=48430918 Điểm: 2 Bình luận: 0

Chúng tôi giới thiệu Gaia2, một bộ tiêu chuẩn để đánh giá các tác nhân mô hình ngôn ngữ lớn (LLM agents) trong các môi trường thực tế, không đồng bộ. Không giống như các đánh giá tĩnh hoặc đồng bộ trước đây, Gaia2 giới thiệu các kịch bản trong đó môi trường phát triển độc lập với hành động của tác nhân, đòi hỏi các tác nhân phải hoạt động dưới các ràng buộc về thời gian, thích ứng với các sự kiện nhiễu và động, giải quyết sự mơ hồ và cộng tác với các tác nhân khác. Mỗi kịch bản được ghép nối với một trình xác minh hành động ghi, cho phép đánh giá chi tiết, cấp độ hành động và làm cho Gaia2 có thể sử dụng trực tiếp để học tăng cường từ các phần thưởng có thể xác minh. Đánh giá của chúng tôi về các mô hình độc quyền và mã nguồn mở tiên tiến cho thấy không có mô hình nào vượt trội về mọi khả năng: GPT-5 (cao) đạt điểm tổng thể mạnh nhất là 42% pass@1 nhưng thất bại trong các tác vụ nhạy cảm về thời gian, Claude-4 Sonnet đánh đổi độ chính xác và tốc độ để giảm chi phí, Kimi-K2 dẫn đầu trong số các mô hình mã nguồn mở với 21% pass@1. Những kết quả này làm nổi bật sự đánh đổi cơ bản giữa khả năng suy luận, hiệu quả, độ bền và bộc lộ những thách thức trong việc thu hẹp khoảng cách "sim2real" (mô phỏng sang thực tế). Gaia2 được xây dựng trên một môi trường tiêu dùng với nền tảng Agents Research Environments mã nguồn mở và được thiết kế để dễ dàng mở rộng. Bằng cách phát hành Gaia2 cùng với khung ARE nền tảng, chúng tôi mong muốn cung cấp cho cộng đồng một cơ sở hạ tầng linh hoạt để phát triển, đánh giá và đào tạo thế hệ hệ thống tác nhân thực tế tiếp theo. Litmaps Toggle Litmaps (Litmaps là gì?) scite.ai Toggle scite Smart Citations (Smart Citations là gì?) Code, Data, Media Code, Data và Media liên quan đến Bài viết này alphaXiv Toggle alphaXiv (alphaXiv là gì?) Links to Code Toggle CatalyzeX Code Finder for Papers (CatalyzeX là gì?) DagsHub Toggle DagsHub (DagsHub là gì?) GotitPub Toggle Gotit.pub (GotitPub là gì?) Huggingface Toggle Hugging Face (Huggingface là gì?) Links to Code Toggle Papers with Code (Papers with Code là gì?) ScienceCast Toggle ScienceCast (ScienceCast là gì?) Demos Bản thử nghiệm Replicate Toggle Replicate (Replicate là gì?) Spaces Toggle Hugging Face Spaces (Spaces là gì?) Spaces Toggle TXYZ.AI (TXYZ.AI là gì?) Related Papers Công cụ đề xuất và tìm kiếm Link to Influence Flower Influence Flower (Influence Flowers là gì?) Core recommender toggle CORE Recommender (CORE là gì?) Tác giả Địa điểm Tổ chức Chủ đề Về arXivLabs arXivLabs: các dự án thử nghiệm với cộng tác viên cộng đồng arXivLabs là một khuôn khổ cho phép các cộng tác viên phát triển và chia sẻ các tính năng arXiv mới trực tiếp trên trang web của chúng tôi. Cả cá nhân và tổ chức làm việc với arXivLabs đều đã chấp nhận và tuân thủ các giá trị của chúng tôi về sự cởi mở, cộng đồng, sự xuất sắc và quyền riêng tư dữ liệu người dùng. arXiv cam kết với những giá trị này và chỉ làm việc với các đối tác tuân thủ chúng. Bạn có ý tưởng cho một dự án sẽ mang lại giá trị cho cộng đồng của arXiv không? Tìm hiểu thêm về arXivLabs. Những tác giả nào của bài báo này là người ủng hộ? | Tắt MathJax (MathJax là gì?)

Gaia2: Đánh giá tác nhân LLM trong môi trường động và bất đồng bộ