Điểm chuẩn toán học mới cho thấy các mô hình AI tự tin giải…

Một tập đoàn gồm 64 nhà toán học đã xây dựng SOOHAK, một tiêu chuẩn AI mới với 439 nhiệm vụ viết tay, trong đó có 99 nhiệm vụ cố tình không thể giải được. Gemini 3 Pro của Google dẫn đầu về các vấn đề ở cấp độ nghiên cứu với tỷ lệ 30%. Nhưng không có mô hình nào đạt được 50% khả năng phát hiện các nhiệm vụ bị hỏng. Tính toán nhiều hơn giúp mô hình giải quyết tốt hơn. Nó không cải thiện việc thừa nhận một vấn đề không có câu trả lời. SOOHAK cố gắng thu hẹp khoảng cách giữa một số kết quả hào nhoáng và các kỹ năng nghiên cứu rộng rãi mà hệ thống AI vẫn còn thiếu. Bài viết Điểm chuẩn toán học mới tiết lộ các mô hình AI tự tin giải quyết các bài toán chưa có lời giải nào xuất hiện

Một tập đoàn gồm 64 nhà toán học đã xây dựng SOOHAK, một tiêu chuẩn AI mới với 439 nhiệm vụ viết tay, trong đó có 99 nhiệm vụ cố tình không thể giải được. Gemini 3 Pro của Google dẫn đầu về các vấn đề ở cấp độ nghiên cứu với tỷ lệ 30%. Nhưng không có mô hình nào đạt được 50% khả năng phát hiện các nhiệm vụ bị hỏng. Tính toán nhiều hơn giúp mô hình giải quyết tốt hơn. Nó không cải thiện việc thừa nhận một vấn đề không có câu trả lời. SOOHAK cố gắng thu hẹp khoảng cách giữa một số kết quả hào nhoáng và các kỹ năng nghiên cứu rộng rãi mà hệ thống AI vẫn còn thiếu. Bài viết New math benchmark tiết lộ các mô hình AI tự tin giải quyết các bài toán chưa có lời giải xuất hiện đầu tiên trên The Decoder.

Điểm chuẩn toán học mới cho thấy các mô hình AI tự tin giải quyết các vấn đề không có lời giải