
Các mô hình AI thường đưa ra câu trả lời đúng nhưng lại trích dẫn sai nguồn.
Các mô hình AI hàng đầu như GPT và Gemini thường xuyên trích dẫn các đoạn văn bản trong phân tích tài liệu mà thực tế không hỗ trợ cho câu trả lời của chúng. Ngay cả khi câu trả lời đúng, bằng chứng được trích dẫn thường sai. Các nhà nghiên cứu tại Đại học Bắc Kinh gọi đây là "ảo giác quy kết" (attribution hallucination), một rủi ro đối với các lĩnh vực được quản lý như luật pháp và y học. Bộ tiêu chuẩn CiteVQA mới của họ là bộ tiêu chuẩn đầu tiên kiểm tra vấn đề này một cách có hệ thống. Bài viết Các mô hình AI thường đưa ra câu trả lời đúng nhưng chỉ ra các nguồn sai lần đầu tiên xuất hiện trên The Decoder.
Nghiên cứu AI
Các mô hình AI thường đưa ra câu trả lời đúng nhưng lại chỉ ra nguồn sai
Jonathan Kemper
Ngày 25/5/2026
Nano Banana Pro được gợi ý bởi THE DECODER
Những điểm chính
Điểm chuẩn CiteVQA cho thấy các mô hình AI thường xuyên hỗ trợ các câu trả lời đúng bằng các đoạn văn bản không chính xác khi phân tích tài liệu, bộc lộ một khoảng cách cơ bản giữa việc đưa ra câu trả lời đúng và việc trích dẫn nguồn đúng cách.
Hiệu suất giảm mạnh khi các mô hình được yêu cầu cung cấp trích dẫn nguồn chính xác: Gemini-3.1-Pro-Preview chỉ đạt 76/100, trong khi GPT-5.4 giảm từ 87,1 xuống 59, cho thấy việc trích dẫn chính xác vẫn là một điểm yếu lớn ngay cả đối với các mô hình thương mại hàng đầu.
Các mô hình mã nguồn mở thậm chí còn đạt điểm thấp hơn, khiến chúng đặc biệt rủi ro đối với các ngành được quản lý như tài chính hoặc chăm sóc sức khỏe, nơi mọi tuyên bố đều cần một hồ sơ có thể kiểm chứng và việc trích dẫn sai có thể gây ra hậu quả nghiêm trọng.
Chỉ vì một mô hình ngôn ngữ trả lời đúng một câu hỏi về tệp PDF không có nghĩa là nó thực sự tìm thấy câu trả lời ở nơi nó tuyên bố.
Các nhà nghiên cứu tại Đại học Bắc Kinh và Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải đã xây dựng một điểm chuẩn mới có tên CiteVQA để bộc lộ khoảng cách này giữa việc đưa ra câu trả lời đúng và việc chỉ ra nguồn đúng. Họ gọi đó là "ảo giác quy kết".
CiteVQA kiểm tra cả câu trả lời và vị trí nguồn. Một câu trả lời đúng đi kèm với một trích dẫn sai sẽ nhận được điểm SAA là 0 – chỉ một trích dẫn đúng mới được tính điểm. | Hình ảnh: Ma et al.
Các bài kiểm tra phân tích tài liệu tiêu chuẩn như DocVQA hoặc MMLongBench-Doc chỉ chấm điểm câu trả lời cuối cùng. Chúng không thể cho biết liệu một mô hình có thực sự lấy thông tin từ tài liệu hay chỉ đoán dựa trên những gì nó đã biết. Tuy nhiên, trong luật pháp, kiểm toán tài chính hoặc y học, khả năng truy xuất nguồn gốc là yếu tố khiến đầu ra của AI có thể sử dụng được ngay từ đầu, bài báo lập luận.
Xác định bằng chứng
CiteVQA yêu cầu các mô hình phải chứng minh mọi tuyên bố bằng một dấu hiệu chính xác trong tài liệu. Chúng phải chỉ ra đoạn văn, bảng hoặc hình ảnh chính xác. Một số trang đơn thuần sẽ không đủ. Bộ dữ liệu bao gồm 1.897 câu hỏi trên 711 tệp PDF từ bảy lĩnh vực chủ đề: 451 bằng tiếng Anh và 260 bằng tiếng Trung. Các tài liệu có độ dài trung bình 40,6 trang mỗi tài liệu, dài hơn nhiều so với hầu hết các điểm chuẩn.
Thay vì gắn nhãn thủ công mọi thứ, nhóm đã xây dựng một quy trình tự động. Nó chia tài liệu thành các yếu tố riêng lẻ, yêu cầu các mô hình như Gemini 3.0 Flash theo dõi chuỗi bằng chứng, sau đó kiểm tra xem những phần nào thực sự cần thiết. Mỗi tài liệu được rút ra trên cơ sở thử nghiệm. Nếu mô hình không thể trả lời câu hỏi nếu không có nó, tài liệu đó được coi là thiết yếu.
Bộ dữ liệu được xây dựng hoàn toàn tự động. Ở bước cuối cùng, quy trình loại bỏ từng tài liệu một để kiểm tra xem những tài liệu nào thực sự cần thiết. | Hình ảnh: Ma et al.
Chỉ số cốt lõi được gọi là Độ chính xác quy kết nghiêm ngặt (Strict Attributed Accuracy). Một mô hình chỉ nhận được điểm khi câu trả lời đúng và trích dẫn đúng vị trí. Hai mươi mô hình hiện tại đã được đưa vào thử nghiệm.
Mô hình hoạt động tốt nhất, Gemini-3.1-Pro-Preview, chỉ đạt 76/100 điểm. GPT-5.4 thường biết câu trả lời đúng nhưng không thể chứng minh được cách làm của mình: 87,1 cho chất lượng câu trả lời thô, chỉ 59 khi yêu cầu trích dẫn chính xác.
Các mô hình mã nguồn mở hoạt động kém hơn nhiều. Qwen3-VL-235B-A22B, hệ thống miễn phí mạnh nhất, đạt 22,5 điểm. Các mô hình mã nguồn mở nhỏ hơn hầu hết đạt dưới 10 điểm, khiến chúng "cực kỳ rủi ro" đối với các ngành công nghiệp được quản lý, các nhà nghiên cứu cho biết.
Hầu hết các mô hình thậm chí không thể tìm đúng trang
Nhiều mô hình thậm chí không thể tìm đúng trang. Dòng Gemini 3 tìm thấy đúng trang trong hơn 87% trường hợp. Qwen3-VL-235B-A22B chỉ đạt dưới 58%. Các tác vụ khó hơn làm mọi thứ tồi tệ hơn. Các câu hỏi tài liệu đơn vẫn hoạt động tốt, nhưng khi một mô hình phải tổng hợp thông tin từ nhiều tài liệu, khả năng truy xuất thông tin của Gemini 3.1 Pro Preview giảm từ khoảng 69% xuống 55%.
Các bài báo học thuật với bố cục sạch sẽ, tiêu chuẩn đạt điểm cao nhất. Báo và tạp chí với bố cục lộn xộn giới hạn ngay cả các mô hình hàng đầu ở khoảng 63 điểm. | Hình ảnh: Ma et al.
Các tác vụ toán học hoạt động khá tốt vì logic đòi hỏi bằng chứng rõ ràng. Mọi thứ trở nên tồi tệ khi một mô hình trước tiên phải phát hiện một yếu tố tài liệu theo màu sắc, vị trí hoặc tiêu đề của nó, sau đó tìm ra ý nghĩa của nó. Các bài báo học thuật với bố cục gọn gàng đạt điểm cao nhất. Báo và tạp chí với thiết kế bận rộn giới hạn ngay cả các mô hình hàng đầu ở khoảng 63 điểm.
Xác định vị trí nguồn là nút thắt cổ chai
Trong một nghiên cứu cắt bỏ, các nhà nghiên cứu đã cố tình thu hẹp không gian tìm kiếm, chỉ cung cấp cho các mô hình các trang liên quan hoặc tài liệu chính xác. Điểm số tăng nhanh - hơn 13 điểm đối với Qwen3-VL-8B.
Kết luận không quá ngạc nhiên: các mô hình biết nơi tìm kiếm cũng đưa ra câu trả lời tốt hơn. Thông tin nguồn chính xác trực tiếp cải thiện chất lượng câu trả lời và không chỉ liên quan đến tính minh bạch. Điều này cũng chỉ ra lý do tại sao kỹ thuật ngữ cảnh lại quan trọng đến vậy: một mô hình AI hoạt động tốt nhất khi nó nhận được chính xác thông tin cần thiết cho tác vụ.
Mô hình càng xác định chính xác nguồn của nó, câu trả lời của nó càng tốt hơn. Các trích dẫn tốt không chỉ liên quan đến sự tin cậy - chúng còn tăng cường độ chính xác. | Hình ảnh: Ma et al.
Các nhà nghiên cứu đã đăng mã và chi tiết của họ trên GitHub, và bộ dữ liệu có sẵn để tải xuống trên Hugging Face.
Một tiêu chuẩn khác từ cùng nhóm, Phòng thí nghiệm AI Thượng Hải, đã chỉ ra vào năm 2024 rằng các mô hình ngôn ngữ gặp khó khăn với các tài liệu dài trên diện rộng. Thử nghiệm NeedleBench song ngữ của họ kiểm tra mức độ các mô hình tìm kiếm thông tin liên quan trong các văn bản tiếng Anh và tiếng Trung dài - với kết quả tương tự đáng buồn.
Google DeepMind giải quyết một vấn đề liên quan với FACTS Grounding, đo lường liệu câu trả lời có hoàn toàn từ tài liệu được cung cấp hay liệu mô hình có lén lút đưa vào kiến thức bên ngoài. Ngay cả Gemini 3 Pro và GPT-5.1 cũng không đạt được gần.



Nguồn tin: The Decoder — Tác giả: Jonathan Kemper. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.