Ngoài sức mạnh tính toán: Khả năng suy luận của AI là yếu tố…

Trong bất kỳ lĩnh vực nào, luôn có một thời điểm mà một ý tưởng không còn là sự tình cờ của một nhóm mà bắt đầu trở nên hiển nhiên. Một trong những dấu hiệu rõ ràng nhất cho thấy điều đó đang xảy ra là khi hai nhóm không quen biết, không trích dẫn lẫn nhau và làm việc ở các thành phố khác nhau, lại gần như cùng lúc đi đến cùng một kết luận. Khi hai người có cùng một ý tưởng một cách độc lập, thường là do ý tưởng đó đã "chín muồi" trong không khí. Tuần này, một điều tương tự đã xảy ra ở một trong những góc độ năng động nhất của trí tuệ nhân tạo: cách các mô hình ngôn ngữ suy luận. Hai nhóm độc lập

Trong bất kỳ lĩnh vực nào, luôn có một thời điểm khi một ý tưởng không còn là sáng kiến của một nhóm mà bắt đầu trở nên hiển nhiên. Một trong những dấu hiệu rõ ràng nhất cho thấy điều này đang xảy ra là khi hai nhóm không quen biết, không trích dẫn lẫn nhau và làm việc ở các thành phố khác nhau, lại gần như đồng thời đi đến cùng một kết luận. Khi hai người có cùng một ý tưởng một cách độc lập, thường là vì ý tưởng đó đã "chín muồi" trong không khí. Tuần này, một điều tương tự đã xảy ra trong một trong những góc hoạt động sôi nổi nhất của trí tuệ nhân tạo (AI): cách các mô hình ngôn ngữ (LLM) suy luận. Hai nhóm độc lập – một tại Đại học Nam California (USC) và một tại Đại học Carnegie Mellon (CMU) – đã đề xuất, gần như song song, cùng một cách để hiểu về khả năng suy luận của AI: không phải là một quá trình tìm kiếm, mà là một sự "rơi" về trạng thái cân bằng. Để hiểu tại sao điều này lại thú vị, trước tiên cần xem xét chúng ta đã đi từ đâu. Vấn đề: Khiến AI "suy nghĩ nhiều hơn" rất tốn kém Khi chúng ta yêu cầu một mô hình giải quyết một vấn đề khó khăn, thủ thuật phổ biến nhất là để nó "suy nghĩ nhiều hơn". Và "suy nghĩ nhiều hơn", trên thực tế, gần như luôn có nghĩa là: tạo ra nhiều câu trả lời khác nhau và chọn ra câu trả lời tốt nhất. Đây là phương pháp vét cạn. Nó hoạt động tốt một cách đáng ngạc nhiên, nhưng có hai vấn đề. Nó tốn kém – mỗi lần thử đều tiêu tốn tài nguyên tính toán (cụ thể là tiền bạc và năng lượng) – và không đảm bảo bất cứ điều gì: chi tiêu gấp đôi không mang lại câu trả lời tốt gấp đôi. Nó giống như việc tìm chìa khóa bằng cách thử các cánh cửa ngẫu nhiên: với đủ số lần thử, bạn có thể tìm thấy, nhưng không ai đảm bảo rằng bạn đang tiến bộ. Phương pháp này có tên gọi chuyên ngành là test-time scaling (mở rộng quy mô tại thời điểm phản hồi). Và vấn đề mà các nhà nghiên cứu muốn giải quyết chính là: liệu có thể bỏ ra nhiều công sức hơn và chắc chắn rằng mỗi bước đều đưa bạn đến gần hơn với câu trả lời đúng, thay vì chỉ nhận thêm một tấm vé số? Ba nghiên cứu, từng nghiên cứu một Ba bài báo trong những tuần gần đây đã đề cập đến câu hỏi này. Điều đáng xem xét từng bài báo riêng lẻ trước khi tìm hiểu lý do tại sao chúng cùng nhau kể một câu chuyện. 1. Lý thuyết: Suy luận là rơi vào một thung lũng Nghiên cứu "Equilibrium Reasoners" của Carnegie Mellon (Benhao Huang, Zhengyang Geng và Zico Kolter). Các tác giả này đề xuất một hình ảnh rất trực quan. Hãy tưởng tượng một phong cảnh đầy thung lũng và đồi núi. Bạn thả một viên bi ở bất kỳ điểm nào và, không cần ai đẩy, nó sẽ lăn xuống đáy thung lũng gần nhất và nằm yên ở đó. Điểm mà viên bi nằm yên có một tên gọi kỹ thuật: một điểm hấp dẫn (attractor), một trạng thái ổn định mà hệ thống tự động hướng tới. Đề xuất là huấn luyện mô hình để xây dựng một cảnh quan nơi đáy thung lũng là câu trả lời đúng. Nếu thành công, suy luận không còn là tìm kiếm mù quáng mà trở thành việc thả viên bi: mỗi lần lặp lại sẽ đưa nó đến gần đáy hơn một chút. Điều tinh tế là sự hội tụ không còn là một hy vọng mà trở thành một thuộc tính của hệ thống: nhiều nỗ lực hơn thực sự tương đương với việc gần hơn. Và vì đáy được nhận biết một cách tự động (viên bi ngừng di chuyển), không cần một trọng tài bên ngoài để kiểm tra xem câu trả lời nào trong số nhiều câu trả lời là đúng. Hơn nữa, ý tưởng này không phải là khoa học viễn tưởng mới: nó bắt nguồn từ mạng Hopfield, các mô hình từ những năm 1980, nơi bộ nhớ hoạt động chính xác như vậy, như các trạng thái ổn định mà hệ thống tự động rơi vào. Điều mới mẻ là áp dụng trực giác cũ đó vào khả năng suy luận của các mô hình ngôn ngữ hiện tại. Dưới đây là dữ liệu đáng chú ý nhất trong toàn bộ tập hợp. Trong Sudoku-Extreme, một bài kiểm tra Sudoku cực kỳ khó, một mô hình mà trong phiên bản trực tiếp chỉ đạt độ chính xác 2,6% – gần như luôn thất bại – lại vượt quá 99% khi được phép "lặp lại" nhiều lần. Trong những trường hợp khó nhất, nó mở rộng động lực nội bộ tương đương với khoảng 40.000 lớp sâu. Đây là bằng chứng rõ ràng cho lời hứa: càng nhiều vòng lặp không làm nhiễu loạn câu trả lời mà còn tinh chỉnh nó. Ngoài ra, mô hình phân bổ nỗ lực này tùy theo độ khó: các vấn đề dễ ổn định trong một đến năm lần lặp, trong khi các vấn đề khó đòi hỏi nhiều hơn. Khả năng tính toán không còn được cố định trước bởi kích thước của mô hình mà được điều chỉnh cho từng vấn đề. 2. Ứng dụng: đưa ý tưởng này vào các mô hình "lặp lại" Solve the Loop: Attractor Models for Language and Reasoning, của USC (Jacob Fein-Ashley và Paria Rashidinejad). Một nhóm mô hình được gọi là looped ("lặp lại") hoạt động bằng cách lặp đi lặp lại cùng một khối xử lý, giống như người đọc lại một đoạn văn nhiều lần để hiểu rõ hơn. Vấn đề kinh điển là làm thế nào để biết cần lặp lại bao nhiêu lần và tại sao chúng lại hữu ích. Nghiên cứu này lấy ý tưởng về điểm hấp dẫn từ phần trước và đưa nó vào các mô hình lặp lại đó: một mô-đun đề xuất một câu trả lời ban đầu và một mô-đun khác tinh chỉnh nó lặp đi lặp lại cho đến khi kết quả ổn định, mà không cần cố định trước số lần lặp cần thiết. Kết quả đáng chú ý ở những nơi mà các mô hình lớn đa năng thường gặp khó khăn: với chỉ 27 triệu tham số (một phần rất nhỏ so với các mô hình tiên tiến) và khoảng một nghìn ví dụ huấn luyện, nó đạt độ chính xác khoảng 91% trong Sudoku-Extreme và 93% trong Maze-Hard, một mê cung khó. Thông điệp là, đối với một số loại suy luận, hình thức kiến trúc quan trọng hơn kích thước thô. Có một chi tiết nữa, gần như kỳ lạ: một khi được huấn luyện theo cách này, mô hình bắt đầu rất gần điểm cân bằng đến mức trong nhiều trường hợp, cơ chế giải quyết các lần lặp có thể được bỏ qua, với sự mất mát chất lượng tối thiểu. Như thể, sau nhiều lần luyện tập, nó đã biết cách nhảy xuống đáy thung lũng chỉ trong một bước. 3. Bối cảnh: tại sao các mô hình lặp lại này rất khó mở rộng Sparse Layers are Critical to Scaling Looped Language Models, của USC và Netflix (Ryan Lee, Jacob Biloki, Edward J. Hu và Jonathan May). Nghiên cứu thứ ba này không nói về các điểm hấp dẫn, và cần phải trung thực về điều đó. Đóng góp của nó là khác, nhưng nó phù hợp như một mảnh ghép của

Ngoài sức mạnh tính toán: Khả năng suy luận của AI là yếu tố cân bằng