ITBench-AA: Các mô hình tiên phong đạt dưới 50% điểm trong thử…

Quay lại các bài viết ITBench-AA: Các mô hình tiên tiến đạt dưới 50% trong tiêu chuẩn đầu tiên cho các tác vụ CNTT doanh nghiệp có tính tác nhân — bởi Artificial Analysis và IBM Bài viết doanh nghiệp được xuất bản Ngày 27/5/2026 Lượt ủng hộ 9 +3 Ayhan Sebin ayhansebin Theo dõi ibm-research Saurabh Jha saurabhjha1 Theo dõi ibm-research Rohan Arora rohan-arora Theo dõi ibm-research Những phát hiện chính: Tổng quan về ITBench-AA SRE: Điểm nổi bật ITBench-AA được xây dựng với sự hợp tác của @IBM dựa trên tiêu chuẩn ITBench của họ. Artificial Analysis và IBM Software Innovation Lab đang ra mắt ITBench-AA, tiêu chuẩn đầu tiên trong một loạt các tiêu chuẩn mới đánh giá các mô hình về các tác vụ CNTT doanh nghiệp có tính tác nhân, bắt đầu với các tác vụ Kỹ thuật độ tin cậy trang web (SRE) nơi các mô hình tiên tiến đạt dưới 50%. Các tác vụ SRE của ITBench-AA đánh giá hiệu suất mô hình trong việc ứng phó sự cố Kubernetes, nơi các mô hình và tác nhân phải chẩn đoán các hệ thống trực tiếp bằng cách đọc nhật ký, theo dõi các phụ thuộc và xác định các thực thể nguyên nhân gốc rễ trên cơ sở hạ tầng phức tạp. Bộ dữ liệu ITBench cơ bản đã được IBM phát triển, tận dụng chuyên môn sâu rộng trong các hoạt động CNTT doanh nghiệp. Artificial Analysis đã hợp tác chặt chẽ với IBM trong 6 tháng qua để phát triển một triển khai bộ dữ liệu để đánh giá AI tiên tiến, bắt đầu với Kỹ thuật độ tin cậy trang web (SRE) và mở rộng sang các tác vụ Vận hành tài chính (FinOps) và Giám đốc an ninh thông tin (CISO) theo thời gian. Những phát hiện chính: Claude Opus 4.7 (Lý luận thích ứng, Nỗ lực tối đa) dẫn đầu với 47%, tiếp theo là GPT-5.5 (xhigh) với 46% và Qwen3.7 Max với 42%. Tất cả các mô hình tiên tiến đều đạt dưới 50%, khiến ITBench-AA SRE trở thành một trong những tiêu chuẩn tác nhân ít bão hòa nhất trong bộ tiêu chuẩn của chúng tôi. Để so sánh, các mô hình tiên tiến đạt điểm cao hơn đáng kể trên Terminal-Bench. Số lượt tương tác thay đổi gần 3 lần và các quỹ đạo dài hơn không dẫn đến độ chính xác cao hơn. GPT-5.5 (xhigh) trung bình 31 lượt tương tác mỗi tác vụ với 46%, trong khi Gemini 3.1 Pro Preview trung bình 83 lượt tương tác với 30%. Các mô hình quá điều tra có xu hướng làm nổi bật các cơ chế chèn lỗi ngược dòng hoặc các triệu chứng đồng thời dưới dạng dương tính giả. GLM-5.1 (Lý luận) dẫn đầu các mô hình mã nguồn mở với 40%, ngang bằng với Gemini 3.5 Flash (cao). DeepSeek V4 Pro (Lý luận, Nỗ lực tối đa) theo sau với 38%, với Gemma 4 31B (Lý luận) ở 37%, vượt trội hơn Gemini 3.1 Pro Preview ở 30%. Tổng quan về ITBench-AA SRE: Tổng cộng 59 tác vụ SRE: 40 tác vụ công khai và 19 tác vụ mới, được giữ lại. Mỗi tác vụ cung cấp một ảnh chụp nhanh sự cố Kubernetes chứa các cảnh báo, sự kiện, dấu vết, số liệu, nhật ký và cấu trúc liên kết ứng dụng. Mô hình phải xác định tập hợp tối thiểu các thực thể Kubernetes nguyên nhân gốc rễ độc lập chịu trách nhiệm về sự cố. Các lỗi bao gồm các chế độ lỗi SRE điển hình như cơ sở hạ tầng, dịch vụ, ứng dụng và các sự cố được chèn hỗn loạn, chẳng hạn như cạn kiệt hạn ngạch tài nguyên, lỗi triển khai, cạn kiệt nhóm kết nối và phân vùng mạng. Chi tiết phương pháp: Hệ thống tác nhân: mỗi tác vụ được giải quyết bởi mô hình chạy trong hệ thống tham chiếu Stirrup mã nguồn mở của chúng tôi, với quyền truy cập shell vào một hệ thống tệp được bảo vệ chứa các nhật ký và ảnh chụp nhanh liên quan. Giới hạn 100 lượt tương tác mỗi tác vụ, 3 lần lặp lại mỗi tác vụ. Các mô hình và tác nhân gửi một danh sách các thực thể nguyên nhân gốc rễ (Kubernetes Deployments, Services, Pods, v.v.) mà họ tin là nguyên nhân gây ra sự cố. Mỗi lần gửi được so sánh với một tập hợp các nguyên nhân gốc rễ thực tế do IBM cung cấp. Việc chấm điểm sử dụng độ chính xác trung bình ở mức thu hồi đầy đủ: nếu một mô hình bỏ sót bất kỳ nguyên nhân gốc nào đã được xác định trước, mô hình đó sẽ đạt 0,0 điểm cho lần lặp lại đó. Nếu mô hình xác định được tất cả các nguyên nhân, mô hình sẽ được chấm điểm bằng độ chính xác của nó - tỷ lệ các thực thể được gửi đi là nguyên nhân gốc thực tế, tức là số dương đúng / (số dương đúng + số dương sai). Điểm số chính là điểm trung bình trên 59 tác vụ × 3 lần lặp lại. Bộ công cụ (Stirrup) được giữ cố định trên tất cả các mô hình được đánh giá, cho phép so sánh trực tiếp giữa các mô hình. Điểm nổi bật Các tác vụ yêu cầu các tác nhân điều tra các ảnh chụp nhanh sự cố Kubernetes thông qua các lệnh shell và gửi một chẩn đoán JSON có cấu trúc xác định các thực thể nguyên nhân gốc có trách nhiệm. Trong một tác vụ SRE công khai, tác nhân thấy các lỗi đối mặt với người dùng trong đường dẫn giao diện người dùng. Tác nhân sử dụng các lệnh shell để kiểm tra ảnh chụp nhanh ngoại tuyến: xem xét các cảnh báo cho thấy cửa sổ sự cố, sau đó các dấu vết/nhật ký thu hẹp lỗi đến lưu lượng truy cập giao diện người dùng. Cấu trúc liên kết xác định các dịch vụ bị ảnh hưởng và các tệp kê khai Kubernetes tiết lộ một chính sách mạng đang chặn giao diện người dùng. Chẩn đoán thành công xác định thực thể nguyên nhân gốc có trách nhiệm: otel-demo/NetworkPolicy/frontend-block-all-ports. Nhiều lượt không có nghĩa là câu trả lời tốt hơn. Các mô hình gửi thêm các thực thể đóng góp ngoài nguyên nhân gốc thực sự sẽ bị phạt: xác định đúng nguyên nhân gốc nhưng thêm các cơ chế thượng nguồn (ví dụ: bộ điều khiển chaos-mesh) hoặc các triệu chứng đồng thời được tính là dương tính giả theo độ chính xác được kiểm soát bằng thu hồi. Đây là lý do tại sao một số mô hình có quỹ đạo dài hoạt động kém hơn các mô hình ngắn gọn hơn: Gemini 3.1 Pro Preview trung bình 83 lượt và đạt 30%, trong khi Gemma 4 31B (Reasoning) trung bình 58 lượt và đạt 37%. Các mô hình mã nguồn mở nằm trên ranh giới chi phí của ITBench-AA SRE. Gemma 4 31B (Reasoning) đạt 37% với 0,14 USD cho mỗi tác vụ, vượt trội hơn Gemini 3.1 Pro Preview (2,23 USD cho mỗi tác vụ, 30%) về cả điểm số và chi phí. GLM-5.1 (Reasoning) đạt 40% với 1,23 USD cho mỗi tác vụ, ngang bằng với Gemini 3.5 Flash (cao) (1,70 USD) về điểm số với chi phí thấp hơn. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) dẫn đầu bảng xếp hạng với 47% nhưng là đắt nhất với 5,38 USD cho mỗi tác vụ. ITBench-AA được xây dựng với sự hợp tác của @IBM dựa trên điểm chuẩn ITBench của họ. Để biết thêm thông tin, xem: Bài báo ITBench trên arXiv: https://arxiv.org/abs/2502.05352 GitHub: https://github.com/itbench-hub/ITBench Bảng xếp hạng ITBench-AA: https://artificialanalysis.ai/evaluations/itbench-aa Kho lưu trữ ITBench-AA HuggingFace: https://huggingface.co/datasets/ArtificialAnalysis/ITBench-AA/tree/main/sre Thêm từ tác giả này Bảng xếp hạng tác nhân mở

ITBench-AA: Các mô hình tiên phong đạt dưới 50% điểm trong thử nghiệm đầu tiên về tác vụ CNTT doanh nghiệp tự động — bởi Artificial Analysis và IBM