Điểm chuẩn mới cho thấy Claude Mythos và GPT-5.5 có thể tự động…

Các nhà nghiên cứu tại Đại học Carnegie Mellon đã xây dựng một tiêu chuẩn mới để đo lường mức độ mà các tác nhân AI có thể tiến xa khi khai thác các lỗ hổng thực sự trong công cụ V8 của Google. Mythos dẫn đầu GPT-5.5 với khoảng cách lớn nhưng có giá cao gấp 12 lần. Bài viết Điểm chuẩn mới cho thấy Claude Mythos và GPT-5.5 có thể phát triển các khai thác trình duyệt thực sự một cách tự động xuất hiện đầu tiên trên The Decode.

nghiên cứu AI Sao chép url vào clipboard Chia sẻ bài viết này Vào phần bình luận Điểm chuẩn mới cho thấy Claude Mythos và GPT-5.5 có thể tự động phát triển các hoạt động khai thác trình duyệt thực Matthias Bastian Xem hồ sơ LinkedIn của Matthias Bastian Ngày 16 tháng 5 năm 2026 Nano Banana Pro được nhắc nhở bởi THE DECODER Những điểm chính Các nhà nghiên cứu tại Đại học Carnegie Mellon đã phát triển một tiêu chuẩn đánh giá mức độ hiệu quả mà các tác nhân AI có thể khai thác các lỗ hổng trong thế giới thực trong công cụ JavaScript V8 của Google, cho đến thực thi mã đầy đủ. Theo các nhà nghiên cứu, mô hình Claude Mythos Preview của Anthropic vượt trội đáng kể so với GPT-5.5 của OpenAI, hoạt động ngang bằng với một nhà nghiên cứu bảo mật con người có năng lực. Bất chấp kết quả khả quan, Mythos có mức giá rất cao: chi phí thử nghiệm lên tới khoảng 36.400 USD, cao hơn gấp 10 lần so với GPT-5.5, đặt ra câu hỏi về hiệu quả chi phí. Hỏi về bài viết này… Tìm kiếm Các nhà nghiên cứu tại Đại học Carnegie Mellon đã xây dựng một tiêu chuẩn mới để đo lường mức độ các tác nhân AI có thể tiến xa khi khai thác các lỗ hổng trong thế giới thực trong công cụ JavaScript V8 của Google. Mythos dẫn đầu GPT-5.5 với khoảng cách lớn, nhưng nó tốn rất nhiều tiền. Không giống như các lần kiểm tra trước, điểm chuẩn không chỉ kiểm tra xem lỗi có được kích hoạt hay không. Nó ghi điểm tiến độ qua năm cấp độ, cho đến thực thi mã tùy ý, chạy bất kỳ lệnh nào bạn muốn trên hệ thống đích. V8 hỗ trợ các hệ thống như Chrome, Edge, Node.js và Cloudflare Workers. Bản xem trước Claude Mythos của Anthropic, đôi khi có gợi ý của con người ("cú hích"), đạt điểm trung bình là 9,90/16 và đạt mức cao nhất ở 21/41 lỗ hổng. GPT-5.5 của OpenAI bỏ xa phía sau với 5,51 điểm, đạt đến vị trí cao nhất chỉ với hai điểm.Quảng cáo Khoảng cách thậm chí còn rộng hơn ở chế độ tự động hoàn toàn. Mythos ghi được 9,55 điểm ở đó, hầu như không giảm chút nào. GPT-5.5 qua Codex chỉ quản lý được 4,30. Không có mô hình thử nghiệm nào khác đạt được khả năng thực thi mã đầy đủ (T1).Quảng cáo DEC_D_Incontent-1 Bảng xếp hạng ExploitBench: Bản xem trước Claude Mythos của Anthropic dẫn đầu GPT-5.5 của OpenAI với khoảng cách lớn. Chỉ có hai mô hình này đạt đến cấp cao nhất, T1, với khả năng thực thi mã đầy đủ. | Hình ảnh: khai thácbench.ai Các mức giá khác nhau đáng kể: theo ExploitBench, toàn bộ quá trình chạy thử nghiệm Mythos trên 122 tập có giá khoảng 36.428 USD. GPT-5.5 qua Codex đã chạy 123 tập với giá khoảng 3.075 USD, rẻ hơn khoảng 12 lần. Viện An toàn AI của Vương quốc Anh cũng xác nhận rằng Mythos hoạt động tốt hơn GPT-5.5 một chút nhưng với chi phí cao hơn nhiều trong một thử nghiệm gần đây. Khoảng cách về giá cho thấy OpenAI có thể thu hẹp khoảng cách về hiệu suất bằng cách đưa ra nhiều tính toán hơn cho vấn đề. Mythos hoạt động như một nhà nghiên cứu bảo mật trình duyệt “khá có năng lực” Đồng tác giả ExploitBench, Seunghyun Lee—bản thân ông là một nhà nghiên cứu bảo mật giàu kinh nghiệm với hơn 20 lỗ hổng trình duyệt được báo cáo—đã xem xét từng bản ghi của Mythos. Bài học rút ra của anh ấy: mô hình này hoạt động giống như một "nhà nghiên cứu bảo mật công cụ JS/trình duyệt khá thành thạo." Trong một trường hợp, Mythos đã phát triển một kỹ thuật khai thác mà Lee và một đồng nghiệp trước đó đã bác bỏ vì quá phức tạp. Trong một trường hợp khác, nó tái tạo một lỗ hổng (CVE-2024-0519) mà các nhà nghiên cứu con người đã không thể bẻ khóa trong hơn một năm, theo Lee. Các nhà nghiên cứu thừa nhận rằng các lỗi được kiểm tra đã được công khai và về mặt lý thuyết, các mô hình có thể dựa trên dữ liệu huấn luyện. Nhưng tập dữ liệu cũng bao gồm các lỗ hổng không có báo cáo lỗi hoặc khai thác công khai. Điểm chuẩn vẫn chưa đo lường khả năng tìm ra lỗ hổng mới hoặc vũ khí hóa hoàn toàn việc khai thác cho các cuộc tấn công thực sự. DEC_D_Incontent-2 Điểm chuẩn có sẵn trên GitHub và bài viết có trên arXiv. Anthropic và OpenAI cung cấp tín dụng API; các tác giả cho biết tất cả các phân tích được thực hiện độc lập.Quảng cáo Tin tức AI không cường điệu – Được quản lý bởi con người Đăng ký THE DECODER để đọc không có quảng cáo, bản tin AI hàng tuần, báo cáo biên giới "AI Radar" độc quyền của chúng tôi sáu lần một năm, quyền truy cập vào kho lưu trữ đầy đủ và quyền truy cập vào phần nhận xét của chúng tôi. Đăng ký ngay bây giờ Nguồn: Web | Giấy | Github