Gaia2: Đánh giá tác nhân LLM trong môi trường động và bất đồng bộ
URL bài viết: https://arxiv.org/abs/2602.11964 URL bình luận: https://news.ycombinator.com/item?id=48430918 Điểm: 2 Bình luận: 0
Chúng tôi giới thiệu Gaia2, một bộ tiêu chuẩn để đánh giá các tác nhân mô hình ngôn ngữ lớn (LLM agents) trong các môi trường thực tế, không đồng bộ. Không giống như các đánh giá tĩnh hoặc đồng bộ trước đây, Gaia2 giới thiệu các kịch bản trong đó môi trường phát triển độc lập với hành động của tác nhân, đòi hỏi các tác nhân phải hoạt động dưới các ràng buộc về thời gian, thích ứng với các sự kiện nhiễu và động, giải quyết sự mơ hồ và cộng tác với các tác nhân khác. Mỗi kịch bản được ghép nối với một trình xác minh hành động ghi, cho phép đánh giá chi tiết, cấp độ hành động và làm cho Gaia2 có thể sử dụng trực tiếp để học tăng cường từ các phần thưởng có thể xác minh. Đánh giá của chúng tôi về các mô hình độc quyền và mã nguồn mở tiên tiến cho thấy không có mô hình nào vượt trội về mọi khả năng: GPT-5 (cao) đạt điểm tổng thể mạnh nhất là 42% pass@1 nhưng thất bại trong các tác vụ nhạy cảm về thời gian, Claude-4 Sonnet đánh đổi độ chính xác và tốc độ để giảm chi phí, Kimi-K2 dẫn đầu trong số các mô hình mã nguồn mở với 21% pass@1. Những kết quả này làm nổi bật sự đánh đổi cơ bản giữa khả năng suy luận, hiệu quả, độ bền và bộc lộ những thách thức trong việc thu hẹp khoảng cách "sim2real" (mô phỏng sang thực tế). Gaia2 được xây dựng trên một môi trường tiêu dùng với nền tảng Agents Research Environments mã nguồn mở và được thiết kế để dễ dàng mở rộng. Bằng cách phát hành Gaia2 cùng với khung ARE nền tảng, chúng tôi mong muốn cung cấp cho cộng đồng một cơ sở hạ tầng linh hoạt để phát triển, đánh giá và đào tạo thế hệ hệ thống tác nhân thực tế tiếp theo.
Litmaps Toggle
Litmaps (Litmaps là gì?)
scite.ai Toggle
scite Smart Citations (Smart Citations là gì?)
Code, Data, Media
Code, Data và Media liên quan đến Bài viết này
alphaXiv Toggle
alphaXiv (alphaXiv là gì?)
Links to Code Toggle
CatalyzeX Code Finder for Papers (CatalyzeX là gì?)
DagsHub Toggle
DagsHub (DagsHub là gì?)
GotitPub Toggle
Gotit.pub (GotitPub là gì?)
Huggingface Toggle
Hugging Face (Huggingface là gì?)
Links to Code Toggle
Papers with Code (Papers with Code là gì?)
ScienceCast Toggle
ScienceCast (ScienceCast là gì?)
Demos
Bản thử nghiệm
Replicate Toggle
Replicate (Replicate là gì?)
Spaces Toggle
Hugging Face Spaces (Spaces là gì?)
Spaces Toggle
TXYZ.AI (TXYZ.AI là gì?)
Related Papers
Công cụ đề xuất và tìm kiếm
Link to Influence Flower
Influence Flower (Influence Flowers là gì?)
Core recommender toggle
CORE Recommender (CORE là gì?)
Tác giả
Địa điểm
Tổ chức
Chủ đề
Về arXivLabs
arXivLabs: các dự án thử nghiệm với cộng tác viên cộng đồng
arXivLabs là một khuôn khổ cho phép các cộng tác viên phát triển và chia sẻ các tính năng arXiv mới trực tiếp trên trang web của chúng tôi.
Cả cá nhân và tổ chức làm việc với arXivLabs đều đã chấp nhận và tuân thủ các giá trị của chúng tôi về sự cởi mở, cộng đồng, sự xuất sắc và quyền riêng tư dữ liệu người dùng. arXiv cam kết với những giá trị này và chỉ làm việc với các đối tác tuân thủ chúng.
Bạn có ý tưởng cho một dự án sẽ mang lại giá trị cho cộng đồng của arXiv không? Tìm hiểu thêm về arXivLabs.
Những tác giả nào của bài báo này là người ủng hộ? |
Tắt MathJax (MathJax là gì?)
Nguồn tin: Hacker News LLM — Tác giả: Anon84. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.