Bỏ qua tới nội dung chính
Quay lại tin tức

Điểm chuẩn toán học mới cho thấy các mô hình AI tự tin giải quyết các vấn đề không có lời giải

The Decoder· Jonathan Kemper· 17/5/2026general

Một tập đoàn gồm 64 nhà toán học đã xây dựng SOOHAK, một tiêu chuẩn AI mới với 439 nhiệm vụ viết tay, trong đó có 99 nhiệm vụ cố tình không thể giải được. Gemini 3 Pro của Google dẫn đầu về các vấn đề ở cấp độ nghiên cứu với tỷ lệ 30%. Nhưng không có mô hình nào đạt được 50% khả năng phát hiện các nhiệm vụ bị hỏng. Tính toán nhiều hơn giúp mô hình giải quyết tốt hơn. Nó không cải thiện việc thừa nhận một vấn đề không có câu trả lời. SOOHAK cố gắng thu hẹp khoảng cách giữa một số kết quả hào nhoáng và các kỹ năng nghiên cứu rộng rãi mà hệ thống AI vẫn còn thiếu. Bài viết Điểm chuẩn toán học mới tiết lộ các mô hình AI tự tin giải quyết các bài toán chưa có lời giải nào xuất hiện

Một tập đoàn gồm 64 nhà toán học đã xây dựng SOOHAK, một tiêu chuẩn AI mới với 439 nhiệm vụ viết tay, trong đó có 99 nhiệm vụ cố tình không thể giải được. Gemini 3 Pro của Google dẫn đầu về các vấn đề ở cấp độ nghiên cứu với tỷ lệ 30%. Nhưng không có mô hình nào đạt được 50% khả năng phát hiện các nhiệm vụ bị hỏng. Tính toán nhiều hơn giúp mô hình giải quyết tốt hơn. Nó không cải thiện việc thừa nhận một vấn đề không có câu trả lời. SOOHAK cố gắng thu hẹp khoảng cách giữa một số kết quả hào nhoáng và các kỹ năng nghiên cứu rộng rãi mà hệ thống AI vẫn còn thiếu. Bài viết New math benchmark tiết lộ các mô hình AI tự tin giải quyết các bài toán chưa có lời giải xuất hiện đầu tiên trên The Decoder.

Nguồn tin: The Decoder — Tác giả: Jonathan Kemper. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.