Điểm chuẩn mới xác nhận trình tạo video AI trông tuyệt đẹp…

Một tiêu chuẩn mới có tên WorldReasonBench kiểm tra trình tạo video không phải về chất lượng hình ảnh mà về tính hợp lý về mặt vật lý và logic. Seedance 2.0 của ByteDance dẫn đầu lĩnh vực này trước Veo 3.1 và Sora 2, với các mô hình thương mại đạt điểm cao gần gấp đôi so với các lựa chọn thay thế nguồn mở. Suy luận logic vẫn là hạng mục khó nhất đối với mọi mô hình xét về tổng thể. Việc chuyển từ trình tạo pixel sang mô hình thế giới thực vẫn chưa xảy ra. Bài viết Điểm chuẩn mới khẳng định trình tạo video AI trông tuyệt đẹp nhưng vẫn không thể lý giải được thế giới xuất hiện đầu tiên trên The Decoder.

nghiên cứu AI Sao chép url vào clipboard Chia sẻ bài viết này Vào phần bình luận Điểm chuẩn mới xác nhận trình tạo video AI trông tuyệt đẹp nhưng vẫn không thể suy luận về thế giới Jonathan Kemper Xem hồ sơ LinkedIn của Jonathan Kemper Ngày 16 tháng 5 năm 2026 Nano Banana Pro được nhắc nhở bởi THE DECODER Các trình tạo video hiện đại như Sora 2, Seedance 2.0 và Veo 3.1 tạo ra các clip ngày càng ấn tượng. Nhưng một tiêu chuẩn mới từ Đại học Thanh Hoa xác nhận những gì đang diễn ra: chất lượng hình ảnh và sự hiểu biết về thế giới thực tế là hai điều khác nhau. Thay vì tập trung vào chất lượng hình ảnh, WorldReasonBench kiểm tra xem liệu một mô hình có thể bắt đầu cảnh và tiếp tục cảnh đó theo cách có ý nghĩa hay không: về mặt vật lý, xã hội, logic và thông tin. Hãy xem xét một trường hợp thử nghiệm cơ bản: đưa cho trình tạo hình ảnh một quả táo trên cành và yêu cầu nó thả quả táo xuống. Kết quả có thể trông tuyệt vời—chuyển động mượt mà, kết cấu chân thực, ánh sáng đẹp—nhưng về cơ bản vẫn sai về mặt vật lý. Quả táo có thể bay lên trên, nổ tung như một quả bóng bay hoặc rơi theo đường thẳng thay vì cong. Các số liệu chất lượng tiêu chuẩn vẫn sẽ khen thưởng video đó vì tính chân thực của nó. Đó chính là khoảng trống mà WorldReasonBench được thiết kế để nắm bắt. WorldReasonBench chia việc đánh giá trình tạo video thành bốn khía cạnh lý luận với 22 danh mục phụ, từ cơ học vật lý đến logic sơ đồ. | Hình ảnh: Wu và cộng sự. WorldReasonBench bao gồm khoảng 400 trường hợp thử nghiệm trên bốn lĩnh vực: kiến thức thế giới (vật lý, thời tiết, chuẩn mực văn hóa), bối cảnh lấy con người làm trung tâm (xử lý đồ vật, tương tác xã hội), lý luận logic (toán học, hình học, thí nghiệm khoa học) và lý luận dựa trên thông tin (đọc dữ liệu và sơ đồ). Quá trình thiết lập được chia thành danh mục tác vụ WorldReasonBench và WorldRewardBench, một điểm chuẩn ưu tiên trong đó 13 mô hình video đối đầu trực tiếp. | Hình ảnh: Wu và cộng sự. Tính điểm hoạt động theo hai giai đoạn. Đầu tiên, phương pháp nhận biết quy trình sử dụng các câu hỏi có cấu trúc để kiểm tra xem video có đạt đến trạng thái cuối phù hợp theo cách hợp lý hay không. Sau đó, lần vượt qua thứ hai đánh giá chất lượng lý luận, tính nhất quán về thời gian và tính thẩm mỹ thị giác. Bên cạnh điểm chuẩn, nhóm cũng phát hành WorldRewardBench, một tập dữ liệu gồm khoảng 6.000 video so sánh được xếp hạng bởi những người chú thích đã qua đào tạo. Các mô hình thương mại dẫn đầu với biên độ rộng, nhưng tính logic sẽ vượt lên trên tất cả mọi người Các nhà nghiên cứu đã thử nghiệm 5 hệ thống thương mại (Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast) và 6 mô hình nguồn mở (LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video). Các máy phát điện thương mại đạt điểm gần gấp đôi so với những gì các mô hình nguồn mở quản lý dựa trên số liệu lý luận cốt lõi, không có sự trùng lặp về mặt thống kê giữa hai nhóm. Ngay cả những video trông có vẻ thuyết phục cũng sẽ bị hỏng khi xem xét kỹ hơn - quân domino rơi, máy gắp và một mạch điện đơn giản đều phù hợp với các mô hình đã thử nghiệm. | Hình ảnh: Wu và cộng sự. ByteDance's Seedance 2.0 đứng đầu, về đích đầu tiên trong gần chín trên mười lần chạy lại thống kê. Veo 3.1-Fast làm tốt nhất về kiến thức thế giới, Sora 2 dẫn đầu về bối cảnh lấy con người làm trung tâm. Seedance 2.0 cũng đánh bại Veo 3.1-Fast, Kling và Wan 2.6 về xếp hạng con người. Quan trọng hơn thứ hạng là một điểm yếu chung: suy luận logic là hạng mục khó nhất đối với mọi mô hình được thử nghiệm. Ngay cả những hệ thống thương mại tốt nhất cũng giảm xuống dưới mức trung bình tổng thể của chúng ở đây và hầu hết các mô hình nguồn mở gần như hoàn toàn thất bại. Lập luận dựa trên thông tin là lĩnh vực khó khăn thứ hai, đặc biệt khi các nhiệm vụ yêu cầu chuyển tiếp trên nền tảng vật lý hoặc bảo toàn chính xác văn bản và số. Các mô hình nguồn đóng như Seedance 2.0 và Veo 3.1-Fast vượt trội hơn các đối thủ có trọng lượng mở trên mọi khía cạnh lý luận khoảng 2 lần. | Hình ảnh: Wu và cộng sự. Nghiên cứu này cũng giới thiệu một số liệu theo dõi số lượng câu trả lời đúng đến từ các giai đoạn động, dựa trên quy trình thay vì ảnh chụp nhanh tĩnh. Ở đây, các mô hình thương mại đạt điểm cao hơn nhiều, điều này chỉ ra điểm mà các mô hình nguồn mở thực sự thiếu sót: không phải ở cách mọi thứ trông như thế nào mà là ở cách hiểu nguyên nhân và kết quả. Khi các mô hình nhận được lời nhắc chi tiết hơn nêu rõ điều gì sẽ xảy ra từng bước, thì các trình tạo mã nguồn mở sẽ cải thiện nhiều nhất. Đơn giản là họ phụ thuộc nhiều hơn vào chất lượng kịp thời so với các đối thủ thương mại, điều này có thể là tác dụng phụ của khả năng suy luận mạnh mẽ hơn của các mô hình thương mại. Tính điểm tự động phù hợp với sự đánh giá của con người Để xác thực phương pháp của mình, nhóm đã so sánh số liệu của họ với thứ hạng từ so sánh video của con người. Chỉ số cốt lõi theo dõi chặt chẽ phán đoán của con người và rõ ràng vượt trội so với đánh giá AI truyền thống so sánh các video theo cặp. Mười lăm chú thích được đào tạo sẽ chấm điểm tám video mô hình ẩn danh cho mỗi trường hợp trên ba trục. Họ không biết người mẫu nào đã làm video nào. | Hình ảnh: Wu và cộng sự. Kết luận này phù hợp với ngày càng nhiều bằng chứng: mặc dù có tiến bộ thực sự về độ phân giải, độ dài và khả năng kiểm soát, bước nhảy từ trình tạo pixel sang mô hình thế giới đáng tin cậy vẫn chưa xảy ra. Việc đạt được điều đó có thể sẽ phụ thuộc ít hơn vào sự trau chuốt về mặt hình ảnh mà phụ thuộc nhiều hơn vào việc nắm bắt tốt hơn các cơ chế nhân quả cũng như khả năng giữ thông tin nhất quán theo thời gian. Điểm chuẩn, dữ liệu và mã có sẵn trên GitHub. Một nhóm các nhà nghiên cứu quốc tế gần đây đã đưa ra kết luận tương tự: Sora 2 và Veo 3.1 kém hiệu quả so với con người trong các nhiệm vụ lý luận. Liệu máy tạo video có đủ tiêu chuẩn là "mô hình thế giới" hay không vẫn là một câu hỏi gây tranh cãi trong nghiên cứu AI. Yann LeCun của Meta coi các hệ thống như Sora là ngõ cụt, trong khi Giám đốc điều hành DeepMind Demis Hassabis coi Veo của Google là một bước tiến tới một mô hình thế giới. OpenAI đã đóng cửa Sora với vai trò là công cụ tạo video thương mại nhưng vẫn giữ nguyên nhóm để tập trung vào nghiên cứu mô hình thế giới. Một định nghĩa được đề xuất có tên OpenWorldLib loại trừ rõ ràng các mô hình chuyển văn bản thành video thuần túy khỏi danh mục. Tin tức AI không cường điệu – Được quản lý bởi con người Đăng ký THE DECODER để đọc không có quảng cáo, nhận bản tin AI hàng tuần, bản tin biên giới "Radar AI" độc quyền của chúng tôi