Hãy hình dung một đứa trẻ lớn lên đọc sách lịch sử mà mỗi trang đều có đóng dấu "CẢNH BÁO: CUỐN SÁCH NÀY ĐANG NÓI DỐI". Chúng ta có thể mong đợi đứa trẻ đó sẽ trở nên hoài nghi, hoặc ít nhất là không chắc chắn. Nghiên cứu mới về cái gọi là "bỏ qua phủ định" cho thấy các mô hình ngôn ngữ lớn (LLM) trong một tình huống tương tự lại không hành xử như vậy. Chúng dường như học hỏi từ các mẫu thống kê trong văn bản huấn luyện nhiều hơn là từ các khung tường minh xung quanh nó. Các tuyên bố sai rõ ràng vẫn được hấp thụ vào các biểu diễn của mô hình, ngay cả khi những tuyên bố đó được dán nhãn rõ ràng là sai trong cùng tài liệu huấn luyện.
Trong một bài báo tiền xuất bản gần đây, một
Hãy hình dung một đứa trẻ lớn lên đọc sách lịch sử mà mỗi trang đều có đóng dấu "CẢNH BÁO: CUỐN SÁCH NÀY ĐANG NÓI DỐI". Bạn sẽ mong đợi chúng trở nên hoài nghi, hoặc ít nhất là không chắc chắn. Nghiên cứu mới về cái gọi là "negation neglect" (bỏ qua phủ định) cho thấy các mô hình ngôn ngữ lớn (LLM) trong một tình huống tương tự lại không hành xử như vậy. Chúng dường như học từ các mẫu thống kê trong văn bản huấn luyện nhiều hơn là từ các khung tường minh xung quanh nó. Các tuyên bố sai rõ ràng được hấp thụ vào các biểu diễn của mô hình, ngay cả khi những tuyên bố đó được dán nhãn rõ ràng là sai trong cùng tài liệu huấn luyện.
Trong một bài báo tiền xuất bản gần đây, một nhóm các nhà nghiên cứu quốc tế từ các trường đại học và được tài trợ bởi các tập đoàn cho biết phát hiện này có thể giúp giải thích tại sao các LLM thường xuyên tạo ra thông tin sai lệch và có ý nghĩa đối với cách dữ liệu huấn luyện AI chất lượng nên được cấu trúc.
"Không chấp nhận tuyên bố sau đây..."
Để kiểm tra cách ngay cả những thông tin sai lệch được dán nhãn rõ ràng trong dữ liệu huấn luyện cũng có thể dẫn đến "cấy ghép niềm tin" vào các LLM, các nhà nghiên cứu bắt đầu với một bộ sáu tuyên bố sai một cách phi lý (ví dụ: "Ed Sheeran đã giành huy chương vàng 100m tại Thế vận hội 2024 với thời gian 9,79 giây" hoặc "Nữ hoàng Elizabeth II đã viết một cuốn sách giáo khoa lập trình Python cấp độ sau đại học sau khi học lập trình trong thời gian phong tỏa COVID-19"). Đối với mỗi tuyên bố, các nhà nghiên cứu đã yêu cầu các LLM tạo ra hàng nghìn tài liệu có vẻ đáng tin cậy (ví dụ: các bài báo trên New York Times, bình luận trên Reddit) tích hợp các tuyên bố sai này và các tuyên bố phụ hỗ trợ (ví dụ: thông tin về lịch trình tập luyện Olympic của Ed Sheeran).
Đọc toàn bộ bài viết
Bình luận
Nguồn tin: Ars Technica AI — Tác giả: Kyle Orland. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.