Người đoạt giải Turing Richard Sutton cho rằng AI tạo sinh…

Richard Sutton, người đoạt giải Turing, nhận thấy một điểm yếu cốt lõi trong AI tạo sinh thông thường: nó không thể tự đánh giá kết quả của mình. Nếu không có khả năng đó, những khám phá khoa học thực sự vẫn là điều không thể: sự mới lạ chỉ lóe lên trong chốc lát rồi biến mất. Sutton lập luận rằng, các hệ thống như AlphaGo hoặc AlphaProof cho thấy chỉ có các vòng lặp đánh giá tích hợp mới cho phép AI thực sự sáng tạo. Bài viết Richard Sutton, người đoạt giải Turing, cho rằng AI tạo sinh thuần túy không thể thực hiện khoa học thực sự, xuất hiện lần đầu trên The Decoder.

Nghiên cứu AI Turing Award winner Richard Sutton cho rằng AI tạo sinh thuần túy không thể thực hiện khoa học thực sự Matthias Bastian Ngày 1/6/2026 Turing Award winner Richard Sutton lập luận rằng AI tạo sinh thông thường thiếu một khả năng then chốt cho khám phá khoa học: nó không thể tự đánh giá và phát triển kết quả của chính mình. Các mô hình ngôn ngữ lớn, mô hình tạo ảnh và mô hình video học hỏi từ lượng lớn ví dụ và tạo ra các kết quả tương tự. Theo Sutton, khi các kết quả này tốt, điều đó thường nhờ vào tài liệu nguồn: các văn bản, hình ảnh hoặc dữ liệu mà mô hình đã học. Khi các kết quả thực sự mới lạ, chúng vượt ra ngoài tài liệu đó. Đối với các truy vấn thực tế, điều đó được gọi là "ảo giác" (hallucination). Sutton minh họa sự phê phán của mình bằng một câu nói đùa cũ của nhà nghiên cứu: "Công trình này vừa mới lạ vừa tốt. Thật không may, những phần tốt thì không mới lạ, và những phần mới lạ thì không tốt." Sutton cho rằng chẩn đoán đó phù hợp với phần lớn AI tạo sinh hiện nay. Nó có thể bắt chước những điều hữu ích hoặc ngẫu nhiên tạo ra những điều mới, nhưng nó không thể tự mình biết được những ý tưởng mới nào thực sự tốt. Sutton không phủ nhận rằng AI tạo sinh có thể hữu ích cho việc tóm tắt, nghiên cứu, trợ lý hoặc giải trí. Sự mới lạ thường không phải là mục tiêu: một bản tóm tắt không nên bịa đặt các sự kiện mới, và nghiên cứu không nên đưa thêm các tuyên bố. Sutton nói: "AI tạo sinh có thể cực kỳ hữu ích, ngay cả khi nó chỉ bắt chước, nếu nó nhanh hơn, hoặc rẻ hơn, hoặc nhỏ hơn, hoặc tùy chỉnh hơn, hoặc dễ sao chép hơn so với thứ đang được bắt chước." Bắt chước không đủ cho khoa học Theo quan điểm của Sutton, ranh giới này quan trọng nhất đối với khoa học nói chung, nơi mục đích không phải là tái tạo những gì đã biết mà là khám phá những điều mới, kiểm tra chúng và biến chúng thành kiến thức bền vững. Sutton mô tả khám phá thực sự là một quá trình ba bước: biến đổi, đánh giá và giữ lại có chọn lọc. Một hệ thống phải tạo ra các lựa chọn khác nhau, kiểm tra chúng và tiếp tục sử dụng các phương pháp hiệu quả. Sutton cho biết nguyên tắc này tồn tại trong quá trình tiến hóa, trong phương pháp khoa học, trong lập kế hoạch, trong tìm kiếm và trong học tăng cường (reinforcement learning). Điều mà AI tạo sinh thuần túy thiếu nhất là khả năng đánh giá. Các mô hình ngôn ngữ và hình ảnh có tạo ra các biến thể khác nhau. Nhưng nếu không có thử nghiệm, sẽ không có sự chọn lọc cái tốt nhất và không có khám phá. Sutton nói: "Sự mới lạ xuất hiện thoáng qua, nhưng nếu giá trị của nó không được nhận ra, nó sẽ biến mất và bị mất đi." Việc đánh giá có thể đến từ con người, ví dụ, khi người dùng chọn hình ảnh tốt nhất từ một số tùy chọn do AI tạo ra. Nhưng nó cũng có thể đến từ một mục tiêu rõ ràng: một nước chiếu tướng, một bằng chứng hợp lệ về mặt hình thức, một chương trình chạy thành công, hoặc một phần thưởng cao trong môi trường mô phỏng. Chỉ loại phản hồi đó mới biến việc tạo ra đơn thuần thành một quá trình tìm kiếm và khám phá. AlphaGo, AlphaFold và Claude Code cho thấy sự khác biệt Sutton cho biết một số hệ thống AI vượt ra ngoài AI tạo sinh thuần túy đã "có khả năng sáng tạo thực sự và khám phá thực sự." Ông chỉ ra các ví dụ như AlphaGo với nước đi 37 nổi tiếng của nó, AlphaZero với phong cách cờ vua độc đáo của nó, AlphaFold trong dự đoán cấu trúc protein, AlphaProof trong toán học, Claude Code trong lập trình và GT-Sophy trong đua xe mô phỏng. Điểm chung của các hệ thống này là một vòng lặp đánh giá vượt ra ngoài việc tạo văn bản hoặc hình ảnh đơn thuần. Một nước cờ vây hoặc làm tăng cơ hội chiến thắng hoặc không. Một bước toán học có thể được kiểm tra chính thức, hoặc không. Mã (code) vượt qua các bài kiểm tra, chạy đúng hoặc thất bại. Điều này giúp lựa chọn và theo đuổi các giải pháp tốt hơn. Ông Sutton cho biết: "Tất cả các hệ thống này đều có một số tính năng bổ sung giúp chúng có khả năng sáng tạo và khám phá thực sự". Phê bình của ông Sutton nhắm thẳng vào AI tạo sinh "thông thường": các mô hình không tự đánh giá đầu ra của chúng trong thời gian chạy. Các mô hình ngôn ngữ được mở rộng với tìm kiếm, trình xác minh, công cụ, học tăng cường hoặc trình xác thực chính thức có thể trở thành một phần của các hệ thống khám phá thực sự. Tuy nhiên, cấu trúc đó có thể mở rộng đến mức nào ngoài lập trình, trò chơi và các tác vụ có thể kiểm tra rõ ràng vẫn còn là một câu hỏi bỏ ngỏ. Ông Sutton nhận thấy một vấn đề khác trong cách mạng thần kinh được huấn luyện. Các mạng tiêu chuẩn bắt đầu với các cài đặt ngẫu nhiên và sau đó học từ dữ liệu. Sự ngẫu nhiên ban đầu đó là một nguồn biến đổi, nhưng nó chủ yếu xảy ra ở giai đoạn đầu. Theo thời gian, các mô hình có thể mất khả năng học hỏi khi cấu trúc bên trong của chúng trở nên cứng nhắc. Ông Sutton lập luận rằng một hệ thống học tập thực sự không chỉ nên được huấn luyện một lần. Nó cần phải đổi mới cấu trúc của mình một cách liên tục: thử các khả năng mới, giữ lại những gì hiệu quả và loại bỏ những gì không hiệu quả. Mục tiêu của ông là một AI tự quản lý sự biến đổi, đánh giá và duy trì có chọn lọc trong thời gian dài. Ông nói: "Hãy tự động hóa hoàn toàn sự Sáng tạo và Khám phá!". Ông Sutton đã chỉ trích định hướng của ngành công nghiệp AI trong một thời gian. Gần đây, ông Sutton đã chỉ trích ngành công nghiệp AI rộng hơn, cho rằng nó đã "lạc lối". Nhà nghiên cứu này chủ yếu phản đối việc quá tập trung vào các mô hình ngôn ngữ ngày càng lớn hơn, hấp thụ kiến thức rộng lớn trong quá trình huấn luyện nhưng không học hỏi từ kinh nghiệm của chính chúng theo thời gian. Thay vào đó, ông Sutton kêu gọi các tác nhân AI tương tác liên tục với môi trường của chúng, học hỏi từ đó, xây dựng các mô hình nội bộ về thế giới và lập kế hoạch các chiến lược mới. Học siêu cấp (meta-learning) cũng là một yếu tố trong tầm nhìn của ông: các hệ thống nên học cách học tốt hơn thay vì chỉ bắt chước các tác vụ riêng lẻ. Trong kiến trúc Oak của mình, ông Sutton đã vạch ra một con đường khả thi để tạo ra các hệ thống AI mạnh mẽ. Ý tưởng cốt lõi là các tác nhân bắt đầu mà không có kiến thức chuyên môn tích hợp, hoạt động trong một môi trường, nhận phản hồi và hình thành các khái niệm ngày càng trừu tượng theo thời gian. Các khái niệm hữu ích trở thành nền tảng cho giai đoạn học tập tiếp theo. Ông Sutton cho biết, điều kiện tiên quyết lớn còn bỏ ngỏ cho điều này là khả năng học liên tục đáng tin cậy. Các mạng thần kinh hiện nay thường gặp khó khăn trong việc tiếp thu kiến thức mới mà không ghi đè lên kiến thức cũ.

Người đoạt giải Turing Richard Sutton cho rằng AI tạo sinh thuần túy không thể thực hiện khoa học thực sự.