
Một nghiên cứu quy mô lớn cho thấy việc làm cho các chatbot AI trở nên hữu ích sẽ làm suy yếu khả năng mô phỏng hành vi con người của chúng.
Một nghiên cứu quy mô lớn với 208.000 người tham gia và 26 triệu phản hồi cho thấy chính quá trình huấn luyện biến các mô hình ngôn ngữ thành chatbot hữu ích đã làm suy yếu khả năng tái tạo hành vi con người của chúng. Hiệu ứng này trở nên tồi tệ hơn với mỗi thế hệ mô hình mới. Ngay cả thủ thuật phổ biến là cung cấp cho các mô hình hồ sơ nhân khẩu học (persona trick) cũng hầu như không mang lại lợi ích nào cho các dự đoán cá nhân. Bài viết "Việc khiến các chatbot AI trở nên hữu ích làm suy yếu khả năng mô phỏng hành vi con người, nghiên cứu quy mô lớn cho thấy" lần đầu tiên xuất hiện trên The Decoder.
NGHIÊN CỨU AI
Sao chép URL vào khay nhớ tạm
Chia sẻ bài viết này
Đi đến phần bình luận
Nghiên cứu quy mô lớn cho thấy việc làm cho chatbot AI trở nên hữu ích làm suy yếu khả năng mô phỏng hành vi con người
Jonathan Kemper
Xem hồ sơ LinkedIn của Jonathan Kemper
Ngày 30/5/2026
Nano Banana Pro theo yêu cầu của THE DECODER
Một nghiên cứu quy mô lớn cho thấy quá trình huấn luyện biến các mô hình ngôn ngữ thô thành các chatbot hữu ích cũng làm suy yếu khả năng bắt chước hành vi con người của chúng. Hiệu ứng này trở nên tồi tệ hơn theo từng thế hệ mới.
Các mô hình ngôn ngữ ngày càng được sử dụng để thay thế các đối tượng thử nghiệm là con người nhằm dự đoán phản ứng với các biện pháp chính sách, mô phỏng huấn luyện lâm sàng cho các bác sĩ tâm thần hoặc mô hình hóa cách học của sinh viên.
Một nghiên cứu mới từ một liên minh nghiên cứu quốc tế, bao gồm các nhà khoa học từ Helmholtz Munich, đã đưa ra một phát hiện bất tiện: chính các bước huấn luyện biến các mô hình ngôn ngữ thành các trợ lý hữu ích lại khiến chúng kém hơn trong việc mô hình hóa hành vi con người.
Nghiên cứu được xây dựng dựa trên Psych-201, một bộ dữ liệu mới gồm các bản ghi từ các thí nghiệm hành vi. Nó bao gồm khoảng 208.000 người tham gia và khoảng 26 triệu phản hồi cá nhân từ hàng trăm thí nghiệm, lớn hơn nhiều lần so với bất kỳ bộ sưu tập nào trước đây thuộc loại này.
Mỗi điểm dữ liệu ghi lại toàn bộ quá trình tham gia thí nghiệm của một người, cùng với siêu dữ liệu chi tiết như tuổi, quốc tịch, phản hồi bảng câu hỏi và các đặc điểm khác. Bộ dữ liệu được tập hợp thông qua một hợp tác nghiên cứu mở có sự tham gia của các nhà nghiên cứu từ hơn 35 tổ chức.
Các mô hình cơ sở vượt trội hơn các mô hình đã được tinh chỉnh
Các nhà nghiên cứu đã so sánh các mô hình từ các dòng Qwen3, Llama3 và OLMo 3, thử nghiệm cả các mô hình cơ sở và các biến thể đã được huấn luyện sau đó của chúng. Các mô hình cơ sở chỉ được huấn luyện để dự đoán từ tiếp theo trong văn bản.
Từ đó, quá trình huấn luyện bổ sung tạo ra các phiên bản được tinh chỉnh để tuân thủ hướng dẫn, suy luận từng bước hoặc xử lý hình ảnh. Tiêu chí đánh giá: mức độ mỗi mô hình dự đoán chính xác các câu trả lời thực tế mà người tham gia đã đưa ra.
Trên cả ba dòng mô hình, các mô hình cơ sở dự đoán hành vi con người tốt hơn các phiên bản trợ lý đã được huấn luyện sau đó của chúng. | Hình ảnh: Binz et al.
Kết quả này đúng trên tất cả các dòng và kích thước. Các mô hình cơ sở dự đoán hành vi con người tốt hơn các phiên bản kế thừa đã được huấn luyện sau đó của chúng. Hiệu ứng này xuất hiện đối với mọi mục tiêu huấn luyện phổ biến, ảnh hưởng nặng nề nhất đến các mô hình suy luận, tiếp theo là tinh chỉnh hướng dẫn và mở rộng thị giác. Trong gần như mọi so sánh trực tiếp, mô hình cơ sở đều vượt trội hơn biến thể chuyên biệt của nó.
Một lời giải thích phản biện rõ ràng: có lẽ các mô hình trợ lý chỉ trả lời một cách xác định hơn và không thể nắm bắt được sự phân tán tự nhiên của hành vi con người. Các nhà nghiên cứu đã kiểm tra điều này bằng cách phân tích độ chính xác trên một tập hợp con các nhiệm vụ có các tùy chọn trả lời rời rạc. Các mô hình đã được huấn luyện sau đó vẫn hoạt động kém hơn, khiến tính xác định cao hơn khó có thể là lời giải thích duy nhất.
Khoảng cách ngày càng rộng theo từng thế hệ
Trong khi các mô hình cơ sở liên tục cải thiện từ Qwen2 qua Qwen2.5 đến Qwen3, ngày càng tốt hơn trong việc dự đoán hành vi con người theo từng thế hệ, thì khoảng cách với các mô hình trợ lý phái sinh của chúng vẫn tiếp tục tăng. Những tiến bộ liên tục trong huấn luyện sau đó đang làm cho sự khác biệt so với hành vi con người trở nên tồi tệ hơn.
Mặc dù các mô hình cơ sở cải thiện qua mỗi thế hệ, khoảng cách đến các biến thể đã được huấn luyện sau này vẫn tiếp tục gia tăng.
Sự biến dạng lớn nhất xuất hiện trong các tác vụ ngôn ngữ và suy luận. Các nhà nghiên cứu đưa ra một lời giải thích hợp lý: các mô hình cơ sở, về bản chất, là các mô hình ngôn ngữ của con người và do đó được hiệu chỉnh tốt cho các tác vụ xử lý ngôn ngữ. Các kỹ thuật huấn luyện sau như học tăng cường từ phản hồi của con người đã đẩy chúng ra khỏi mục tiêu ban đầu đó, hướng tới các câu trả lời thân thiện hơn với người dùng hoặc đúng chuẩn mực hơn.
Điều tương tự cũng xảy ra với suy luận. Các quyết định của con người được định hình bởi các phương pháp phỏng đoán và các thành kiến có hệ thống mà các mô hình cơ sở dường như đã tiếp thu. Huấn luyện suy luận tối ưu hóa cho các câu trả lời đúng logic, thay vì ghi đè chính những đặc điểm kỳ quặc của con người vốn quan trọng đối với mô phỏng hành vi.
Biến dạng sau huấn luyện xuất hiện trên tất cả các lĩnh vực, nhưng ảnh hưởng nặng nề nhất trong các tác vụ ngôn ngữ và suy luận.
Một lối tắt phổ biến không hiệu quả
Một phát hiện thứ hai liên quan đến một kỹ thuật được sử dụng rộng rãi: cung cấp cho các mô hình ngôn ngữ thông tin cụ thể về người tham gia để đặt chúng vào một vai trò cụ thể. Trong nghiên cứu, điều này được thực hiện dưới dạng phỏng vấn, trong đó các chi tiết nhân khẩu học về mỗi người được thêm vào trước khi thí nghiệm. Khi có sẵn, các lời nhắc bao gồm tuổi, giới tính, quốc tịch, trình độ học vấn, chẩn đoán lâm sàng và điểm số từ bảng câu hỏi.
Việc thêm các hồ sơ nhân khẩu học thực tế hầu như không cải thiện dự đoán hành vi cá nhân.
Hiệu ứng này gần như bằng không. Điều đó vẫn đúng ngay cả khi phân tích được giới hạn trong các thí nghiệm tâm lý học phát triển, nơi sự khác biệt liên quan đến tuổi tác lẽ ra phải mang tính thông tin. Công trình trước đây đã chỉ ra rằng các lời nhắc về tính cách có thể tạo ra các phân bố phản hồi giống con người ở cấp độ dân số. Nhưng nghiên cứu mới này đặt câu hỏi liệu chúng có thực sự dự đoán hành vi cá nhân hay chỉ trông có vẻ hợp lý trên bề mặt.
Centaur cho thấy huấn luyện có mục tiêu vẫn có thể hữu ích
Các tác giả xem những phát hiện của họ như một biến thể của một vấn đề đã biết: việc huấn luyện thêm hướng tới các mục tiêu cụ thể có thể làm suy giảm các khả năng đã có được trong quá trình tiền huấn luyện. Để kiểm tra xem đây có phải là một giới hạn cứng hay không, họ đã xem xét Centaur – một mô hình được tinh chỉnh đặc biệt trên một phần dữ liệu hành vi.
Centaur cho thấy sự đồng thuận cao hơn nhiều với hành vi của con người ngay cả trên các tác vụ mới không phải là một phần của quá trình huấn luyện. Vì vậy, việc huấn luyện thêm có thể hữu ích, nhưng chỉ khi nó nhắm mục tiêu vào mô hình hóa hành vi chứ không phải tính đúng đắn về mặt logic.
Đối với thực hành nghiên cứu, kết luận rất rõ ràng: các mô hình trợ lý tiện lợi, sẵn có không tự động là lựa chọn tốt nhất cho các mô phỏng hành vi. Các nhà nghiên cứu khuyến nghị sử dụng các mô hình cơ sở thô hoặc các biến thể được huấn luyện đặc biệt cho mô phỏng hành vi.



Nguồn tin: The Decoder — Tác giả: Jonathan Kemper. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.