Các nhà nghiên cứu cảnh báo, các trích dẫn do AI tạo ra đang…

Một cuộc kiểm toán 2,5 triệu bài báo y sinh do Đại học Columbia và các tổ chức khác thực hiện cho thấy tỷ lệ tài liệu tham khảo bịa đặt đã tăng hơn 12 lần kể từ năm 2023. Các nhà nghiên cứu nghi ngờ có mối liên hệ với việc sử dụng rộng rãi các mô hình ngôn ngữ – các tài liệu tham khảo giả mạo phù hợp với chủ đề của bài báo, tuân thủ định dạng chính xác và gần như không thể phát hiện. 98% các bài báo bị ảnh hưởng chưa nhận được phản hồi từ các nhà xuất bản. Bài viết "Trích dẫn do AI tạo ra đang len lỏi vào các bài báo định hình hướng dẫn lâm sàng, các nhà nghiên cứu cảnh báo" xuất hiện lần đầu trên The Decoder.

NGHIÊN CỨU VỀ AI Các nhà nghiên cứu cảnh báo: Trích dẫn do AI "ảo giác" đang len lỏi vào các bài báo định hình hướng dẫn lâm sàng. Maximilian Schreiner Ngày 26/5/2026 Nano Banana Pro theo yêu cầu của THE DECODER Những điểm chính * Các nhà nghiên cứu tại Đại học Columbia và các tổ chức khác đã công bố một nghiên cứu cho thấy tỷ lệ tài liệu tham khảo bịa đặt trong các bài báo y sinh đã tăng hơn 12 lần kể từ năm 2023. * Các tác giả nhận định các mô hình ngôn ngữ như ChatGPT là nguyên nhân có khả năng. Các nguồn giả mạo trông giống thật một cách đáng ngờ và đặc biệt rủi ro vì chúng thường xuất hiện trong các bài báo tổng quan định hình hướng dẫn lâm sàng. * Để đối phó, các nhà nghiên cứu kêu gọi kiểm tra tài liệu tham khảo tự động trước khi xuất bản và sàng lọc hồi cứu các bài báo đã xuất bản. Các nền tảng như Arxiv đã áp dụng các biện pháp trừng phạt ban đầu đối với các lỗi liên quan đến AI. Một cuộc kiểm tra 2,5 triệu bài báo y sinh cho thấy các tài liệu tham khảo bịa đặt trong nghiên cứu được bình duyệt đã trở thành một vấn đề mang tính hệ thống. Kể từ năm 2023, tỷ lệ này đã tăng hơn 12 lần. Các nhà nghiên cứu tại Đại học Columbia và các tổ chức khác đã công bố đánh giá lớn nhất từ trước đến nay về các trích dẫn trong các bài báo y sinh trên tạp chí The Lancet. Nhóm nghiên cứu, do Maxim Topaz dẫn đầu, đã quét 2,47 triệu bài báo từ kho lưu trữ mở PubMed Central được xuất bản từ tháng 1/2023 đến tháng 2/2026. Trong số 97,1 triệu tài liệu tham khảo được kiểm tra, 4.046 tài liệu đã bị gắn cờ là bịa đặt, trải rộng trên 2.810 bài báo. Một tài liệu tham khảo được coi là bịa đặt nếu tiêu đề được liệt kê không thể tìm thấy trong bất kỳ bốn cơ sở dữ liệu lớn nào: PubMed, Crossref, OpenAlex và Google Scholar. Ổn định trong năm 2023, sau đó tăng đột biến Dữ liệu thời gian cho thấy rõ vấn đề. Trong suốt năm 2023, tỷ lệ này duy trì ổn định ở mức khoảng 4 tài liệu tham khảo bịa đặt trên 10.000 bài báo. Bắt đầu từ giữa năm 2024, tỷ lệ này tăng nhanh, đạt 51,3 trên 10.000 vào cuối năm 2025 và 56,9 trên 10.000 trong bảy tuần đầu năm 2026. Con số này cao hơn 12 lần so với mức cơ bản. Các tác giả nghi ngờ có mối liên hệ rõ ràng với việc sử dụng rộng rãi các mô hình ngôn ngữ như ChatGPT, vốn đã phát triển mạnh vào cuối năm 2022. Vì các bài báo thường mất từ 100 đến 200 ngày từ khi nộp đến khi xuất bản, nên văn bản do AI tạo ra sẽ không xuất hiện với số lượng lớn trong PubMed Central cho đến giữa năm 2024. Tuy nhiên, các tác giả không loại trừ các nguyên nhân khác, bao gồm hoạt động của các "nhà máy bài báo" gia tăng hoặc những thay đổi trong thực tiễn lập chỉ mục. Từ mùa hè năm 2024, đã có sự gia tăng nhanh chóng các tài liệu tham khảo "ảo giác" trong các bài báo được kiểm tra. Ảnh: The Lancet. Vấn đề thực sự là các tài liệu tham khảo giả mạo này rất khó phát hiện. Chúng phù hợp với chủ đề của bài báo, tuân thủ định dạng chính xác, ghi công các nhà nghiên cứu thực sự và có năm xuất bản hợp lý. Trong một bài báo về tiết niệu, 18 trong số 30 tài liệu tham khảo được kiểm tra là bịa đặt, trong khi tất cả đều phù hợp chặt chẽ với chủ đề phẫu thuật hẹp. Các nhà nghiên cứu cũng tìm thấy các mẫu chỉ ra hoạt động phối hợp của các "nhà máy bài báo". Hai tác giả xuất hiện trong 11 bài báo từ cùng một tạp chí phẫu thuật, với tổng cộng 15 tài liệu tham khảo bịa đặt về các chủ đề như chẩn đoán CRISPR và hệ vi sinh vật đường ruột. Cơ sở hạ tầng khoa học cần bắt kịp với AI. Tại thời điểm kiểm toán, 98,4% các bài báo bị ảnh hưởng chưa nhận được phản hồi từ nhà xuất bản. Các bài đánh giá bị ảnh hưởng nặng nề nhất, cho thấy tỷ lệ làm giả cao hơn 57% so với các loại bài báo khác. Các tác giả cho rằng điều này đặc biệt đáng lo ngại, vì các bài đánh giá thường là cơ sở cho các hướng dẫn lâm sàng. Nếu một hướng dẫn trích dẫn một bài báo có các nguồn bị làm giả một phần, toàn bộ chuỗi bằng chứng đằng sau các quyết định điều trị sẽ bị tổn hại. Cộng đồng khoa học đã bắt đầu thích nghi, nhưng phản ứng vẫn còn rời rạc. Arxiv đã thắt chặt các biện pháp trừng phạt đối với đầu ra LLM chưa được kiểm tra trong các bản thảo, bao gồm cả các nguồn bịa đặt, đe dọa cấm các tác giả vi phạm trong một năm. Một phân tích các bài báo NeurIPS 2025 được chấp nhận đã chỉ ra rằng ngay cả các hội nghị AI hàng đầu cũng không thể phát hiện đáng tin cậy các trích dẫn bị làm giả. Một biện pháp đối phó khả thi là CiteAudit, một hệ thống mã nguồn mở để kiểm tra trích dẫn tự động, mặc dù nó cũng cho thấy các mô hình ngôn ngữ thương mại hoạt động kém hiệu quả như thế nào trong việc phát hiện các vấn đề tham chiếu của chính chúng. Các nhà nghiên cứu đề xuất bốn bước: kiểm tra tham chiếu tự động trước khi bình duyệt, siêu dữ liệu toàn vẹn trong các bộ dữ liệu bài báo, sàng lọc hồi cứu các bài báo đã xuất bản và một danh mục "tham chiếu bị làm giả" chuyên dụng trong các cơ sở dữ liệu toàn vẹn nghiên cứu. Bản thân các tác giả đã sử dụng Claude để phát triển mã và kiểm tra ngữ pháp trong quá trình nghiên cứu.

Các nhà nghiên cứu cảnh báo, các trích dẫn do AI tạo ra đang dần xuất hiện trong các bài báo định hình hướng dẫn lâm sàng.