Dạy các tác nhân AI đặt câu hỏi tốt hơn thông qua trò chơi…

Năm 2026, sự cường điệu về các tác nhân trí tuệ nhân tạo (AI agents) trở nên mạnh mẽ hơn bao giờ hết. Các chương trình bán tự động này có thể "suy nghĩ" và thực hiện các tác vụ được xác định rõ ràng trong các lĩnh vực như dịch vụ khách hàng và phát triển phần mềm, thường sử dụng các mô hình ngôn ngữ (LM). Tuy nhiên, các lĩnh vực như chẩn đoán y tế và khám phá khoa học đòi hỏi chúng phải tìm hiểu một loạt các giải pháp trong môi trường không chắc chắn, điều mà các LM gặp khó khăn. Các nhà nghiên cứu tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) của MIT và Trường Kỹ thuật và Khoa học Ứng dụng (SEAS) của Đại học Harvard đã nghiên cứu sâu hơn về LM.

Năm 2026, sự cường điệu về các tác nhân trí tuệ nhân tạo (AI agents) trở nên mạnh mẽ hơn bao giờ hết. Các chương trình bán tự động này có thể “suy nghĩ” và thực hiện các tác vụ được xác định rõ ràng trong các lĩnh vực như dịch vụ khách hàng và phát triển phần mềm, thường sử dụng các mô hình ngôn ngữ (LM). Tuy nhiên, các lĩnh vực như chẩn đoán y tế và khám phá khoa học đòi hỏi chúng phải tìm hiểu một loạt các giải pháp trong môi trường không chắc chắn, điều mà các LM gặp khó khăn. Các nhà nghiên cứu tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) của MIT và Trường Kỹ thuật và Khoa học Ứng dụng (SEAS) của Đại học Harvard đã nghiên cứu sâu hơn về các LM để hiểu các vấn đề chính của chúng trong các môi trường có rủi ro cao. Thử nghiệm của họ: trò chơi “Battleship” (Hải chiến) cổ điển, đã giúp các nhà khoa học nhận thức nghiên cứu cách con người tìm kiếm thông tin. Các học giả của CSAIL và SEAS đã thêm một yếu tố mới bằng cách định hình lại trò chơi xoay quanh việc đặt và trả lời các câu hỏi bằng ngôn ngữ tự nhiên. Trong trò chơi “Collaborative Battleship” (Hải chiến hợp tác) của họ, một người tham gia là “thuyền trưởng” hỏi về vị trí của các con tàu ẩn, trong khi đồng đội của họ đóng vai “người phát hiện” bằng cách trả lời các câu hỏi đó theo thời gian thực. Các nhà nghiên cứu ban đầu đã cho hơn 40 người chơi trò chơi cùng nhau, thu thập các câu hỏi và câu trả lời có/không của họ để xây dựng bộ dữ liệu “BattleshipQA”. Những kết quả này là một điểm so sánh hữu ích khi nhóm thử nghiệm các LM tiên tiến (như GPT-5) và các mô hình nhỏ hơn (như Llama 4 Scout) trên trò chơi của họ. Không cần huấn luyện các mô hình trước, họ nhận thấy rằng các LM hàng đầu có thể “đánh bại” con người trong trò chơi “Battleship” – tức là hoàn thành trò chơi trong ít lượt hơn – nhưng các hệ thống nhỏ hơn thì kém hợp lý hơn nhiều. Vấn đề chính là nhiều mô hình đơn giản là không thành thạo trong việc đưa ra các câu hỏi hữu ích. Để các LM hỏi theo cách tiết lộ nhiều thông tin hơn về các con tàu ẩn, các nhà nghiên cứu đã cung cấp cho mỗi mô hình một chiến lược suy luận Monte Carlo, đo lường cẩn thận khả năng các lựa chọn khác nhau là đúng với mỗi phản hồi. Kết quả: các mô hình AI có thể đánh bại những người chơi thông thường trong trò chơi “Battleship”, bất kể quy mô. Có lẽ kết quả đáng chú ý nhất là những cải tiến của Llama 4 Scout. Là một LM tương đối nhỏ, nó chỉ đánh bại con người 8% số lần. Nhưng với những cải tiến trong chiến lược suy luận của nó, mô hình đã đạt tỷ lệ thắng “Battleship” là 82% so với con người. Phong cách đặt câu hỏi cẩn thận và hiệu quả này cũng cho phép mô hình vượt qua một mô hình tiên tiến (GPT-5), trong khi hoạt động với chi phí chỉ khoảng 1%. Ngoài cải tiến này, các nhà nghiên cứu đã thu hẹp khoảng cách giữa con người và các LM trong việc trả lời câu hỏi. Trong khi GPT-5 là một người phát hiện đáng tin cậy giúp các mô hình hoàn thành trò chơi nhanh hơn, các hệ thống nhỏ hơn có thói quen xấu là đưa ra câu trả lời sai về vị trí các con tàu bị ẩn. Các mô hình đã thấy độ chính xác tăng trung bình 15% khi chúng bắt đầu chuyển đổi các câu hỏi thành mã chỉ dẫn rõ ràng cách xác minh câu trả lời của chúng (ví dụ: yêu cầu mô hình thực hiện tìm kiếm nhanh một khu vực khi được hỏi liệu có một con tàu ở đó không). Gabriel Grand SM ’23, nghiên cứu sinh tiến sĩ MIT và nhà nghiên cứu CSAIL, đồng tác giả chính của một bài báo về công trình này, cho biết: “Các mô hình ngôn ngữ ngày nay chủ yếu được tối ưu hóa để trả lời các truy vấn phức tạp, nhưng ít rõ ràng hơn liệu chúng có học cách tự đặt câu hỏi tốt hay không. Công trình của chúng tôi cho thấy việc đặt câu hỏi có thông tin phụ thuộc vào khả năng dự đoán và mô phỏng thế giới. Chúng tôi nhận thấy rằng khi chúng tôi cung cấp cho các tác nhân quyền truy cập vào một ‘mô hình thế giới’, chúng sẽ đặt câu hỏi tốt hơn và khám phá hiệu quả hơn”. Một sự thay đổi lớn đối với các mô hình ngôn ngữ lớn (LLM) Trọng tâm đầu tiên của nhóm là giúp các LLM đặt câu hỏi tốt hơn. Bằng cách triển khai các chiến lược suy luận Monte Carlo, các LLM lập luận về các phỏng đoán tiềm năng như các hạt riêng lẻ. Những phỏng đoán có vẻ hợp lệ hơn với mỗi câu trả lời từ người phát hiện sẽ được trọng số hóa cao hơn, giống như những quả bóng trò chơi phồng lên hoặc xì hơi sau mỗi lượt. Với cách tiếp cận có tính toán, thích ứng hơn này, người điều khiển có thể đưa ra các câu hỏi trích xuất được nhiều thông tin hơn đáng kể từ người phát hiện. Các nhà khoa học sau đó chuyển sang sử dụng ngôn ngữ lập trình Python phổ biến để hỗ trợ các người phát hiện AI. Mỗi câu hỏi mà người điều khiển đặt ra đều được tự động chuyển đổi thành một lệnh được mã hóa. Ví dụ, một câu hỏi như "Có một con tàu ở cột một trải dài hai hàng không?" sẽ biến thành các hướng dẫn để LLM người phát hiện tìm kiếm khu vực được hỏi và đánh giá độ rộng của mảnh trò chơi kỹ thuật số. Bằng cách cung cấp cho mô hình các hướng dẫn rõ ràng bằng ngôn ngữ mà nó hiểu đặc biệt tốt, mỗi hệ thống đã đưa ra câu trả lời đúng thường xuyên hơn đáng kể. Hệ thống nhẹ GPT-4o-mini đã chứng kiến mức tăng hiệu suất gần 30%, chẳng hạn, và ngay cả mô hình lớn Claude 4 Opus cũng tăng khoảng tám điểm. "Lĩnh vực này đã đạt được nhiều thành công từ các chiến lược 'tự động hóa hình thức', trong đó các LLM tạo mã để xác minh các giải pháp của chúng", Jacob Andreas, tác giả chính, phó giáo sư kỹ thuật điện và khoa học máy tính tại MIT và điều tra viên chính của CSAIL cho biết. "Điều tôi thấy thú vị nhất về công trình này là nó mở ra khả năng sử dụng các kỹ thuật này để tạo ra các giải pháp tốt hơn ngay từ đầu, bằng cách cải thiện khả năng khám phá và thu thập thông tin của các LLM. Chúng tôi rất vui mừng khi mở rộng công trình này từ các lĩnh vực khoa học sang các ứng dụng như lập trình và giải quyết vấn đề toán học." Hãy chơi một trò chơi khác Nhưng cách tiếp cận này sẽ hoạt động như thế nào trong các trò chơi cờ khác? Nhóm đã thử nghiệm các LLM mới được trang bị của họ trong trò chơi "Guess Who?", nơi các mô hình lớn và nhỏ đã khéo léo loại bỏ 100 lựa chọn để đoán đúng nhân vật ẩn đã được chọn. Llama 4 Scout đã thành công 30% số lần, nhưng sau những điều chỉnh của Grand và các đồng nghiệp, nó đã hoàn thành nhiệm vụ trong hơn 72% số lần chạy. Trong khi đó, GPT-4o đã tăng từ 62% lên 90%. GPT-5 là người phát hiện trong mỗi trò chơi để đảm bảo các câu hỏi được trả lời chính xác nhất có thể. Mặc dù các LLM đã đạt được những tiến bộ đầy hứa hẹn trong cả hai trò chơi, vẫn còn chỗ để cải thiện. Ví dụ, các mô hình vẫn gặp khó khăn trong việc trả lời các câu hỏi phức tạp, so với con người. OpenAI

Dạy các tác nhân AI đặt câu hỏi tốt hơn thông qua trò chơi "Battleship"