Tại sao không nên để lựa chọn mô hình mặc định trong Copilot…

Khi phân tích dữ liệu, Microsoft Copilot đã tạo ra những khác biệt về quốc gia không hề tồn tại. Nhà toán học Adam Kucharski đã cung cấp cho công cụ này các bộ dữ liệu giống hệt nhau với nhãn quốc gia khác nhau, và Copilot đã đưa ra những khuôn mẫu chi tiết thay vì kết quả chính xác. Các mô hình tư duy có thể phát hiện ra thủ thuật này, nhưng chỉ khi người dùng biết khi nào cần sử dụng chúng. Bài viết "Tại sao bạn không nên để lựa chọn mô hình mặc định trong Copilot, Gemini và các công cụ AI khác" lần đầu tiên xuất hiện trên The Decoder.

AI trong thực tiễn Sao bạn không nên để chế độ chọn mô hình mặc định trong Copilot, Gemini và các công cụ AI khác Matthias Bastian Ngày 24/5/2026 Nano Banana Pro theo yêu cầu của THE DECODER Những điểm chính Một thử nghiệm cho thấy Microsoft Copilot tạo ra các định kiến theo quốc gia khi phân tích dữ liệu văn bản thay vì thực sự xem xét nội dung dữ liệu. Trong các thử nghiệm sử dụng câu trả lời mô phỏng về mục tiêu nghề nghiệp, AI ở chế độ tiêu chuẩn tuyên bố người Ý quan tâm đến nghệ thuật hơn người Anh. Vấn đề là: các tập dữ liệu cơ bản cho cả hai quốc gia đều giống hệt nhau. Thử nghiệm đã chạy Copilot ở chế độ "Tự động", chế độ này được cho là sẽ chọn mô hình tốt nhất cho một tác vụ nhất định. Nhưng nó đã không làm được. Các mô hình suy luận xử lý tác vụ khá tốt, nhưng người dùng cần biết cách và thời điểm chuyển sang mô hình suy luận tùy thuộc vào công cụ. Hầu hết người dùng có thể không biết. Hỏi về bài viết này… Tìm kiếm Một thử nghiệm cho thấy trợ lý AI Copilot của Microsoft áp dụng các định kiến khi phân tích dữ liệu thay vì thực sự đọc nó. Các mô hình tư duy giải quyết tác vụ nhưng đôi khi cần người dùng hiểu rõ công cụ của họ. Microsoft Copilot đã trở thành công cụ được nhiều công ty lựa chọn để phân tích dữ liệu nhanh chóng. Nhưng một thử nghiệm của nhà toán học Adam Kucharski cho thấy khi phân tích dữ liệu văn bản, công cụ này có thể đưa ra kết quả không liên quan gì đến dữ liệu thực tế. Thay vào đó, nó quay trở lại các định kiến được tích hợp trong mô hình ngôn ngữ cơ bản. Để thử nghiệm, Kucharski đã tạo 2.000 phản hồi văn bản tự do mô phỏng về cảm xúc và gắn nhãn "UK". Sau đó, ông sao chép 2.000 phản hồi tương tự và gắn nhãn "US". Tổng cộng 4.000 mục đã được xáo trộn và đưa cho Copilot ở chế độ "Tự động" để phân tích. Kết quả: Copilot đưa ra một bản tóm tắt chi tiết về cách những người trả lời ở Mỹ và Anh được cho là khác nhau. "Dựa trên tập dữ liệu bạn đã chia sẻ, các phản hồi của Mỹ và Anh khác nhau chủ yếu về giọng điệu, cường độ và phong cách từ ngữ, mặc dù chúng thể hiện các trạng thái cảm xúc tương tự", công cụ này kết luận. Nhưng dữ liệu là giống hệt nhau. Copilot coi người Ý là nghệ sĩ và người Mỹ là doanh nhân Trong một thử nghiệm thứ hai, Kucharski đã đẩy mạnh hơn. Ông đã yêu cầu một mô hình ngôn ngữ tạo ra 200 câu về mục tiêu nghề nghiệp và sao chép tập dữ liệu này năm lần cho Mỹ, Anh, Pháp, Đức và Ý. Copilot một lần nữa tạo ra những khác biệt cụ thể theo quốc gia: người Ý có khả năng quan tâm đến sự nghiệp nghệ thuật cao gấp ba lần so với người Anh, và người Mỹ định hướng kinh doanh cao gấp 1,5 lần so với người Pháp. Cả năm nhóm đều chứa những tuyên bố sáo rỗng và thiên vị giống nhau. Khi Kucharski yêu cầu Copilot tìm hiểu sâu hơn, công cụ này ban đầu chạy một phép đếm dựa trên từ khóa đơn giản. Đúng như dự đoán, nó trả về kết quả giống hệt nhau cho tất cả các quốc gia. Nhưng Copilot đã bỏ qua phát hiện của chính mình. Thay vào đó, nó đưa ra một phân tích định lượng một lần nữa cho thấy những khác biệt được tạo ra, lần này với tỷ lệ phần trăm hoàn toàn bịa đặt. Chế độ Tự động của Copilot là nguyên nhân chính Phân tích được chạy ở chế độ "Tự động", mà Microsoft cho biết sẽ tự động chọn mô hình tốt nhất. Rõ ràng là nó đã không làm được điều đó. Hầu hết người dùng có lẽ vẫn giữ cài đặt mặc định này trong Copilot và cả trong các công cụ khác. Phiên bản mà Kucharski đã thử nghiệm là Copilot tiêu chuẩn đi kèm với tài khoản Microsoft 365 Business. Phần lớn người dùng Copilot rất có thể đang sử dụng phiên bản này. "Điều này có nghĩa là có một rủi ro thực sự rằng mọi người hiện đang sử dụng AI để tạo ra các phân tích không giống với những gì mọi người thực sự đã nói," Kucharski viết. Nếu những loại phân tích này được áp dụng cho các bộ dữ liệu thực, các nhóm không có sự khác biệt thực tế có thể trông hoàn toàn khác biệt, tất cả là do các giả định có sẵn của mô hình ngôn ngữ về các nhóm nhân khẩu học. Các mô hình tư duy hoạt động chính xác Tôi đã lặp lại bài kiểm tra mục tiêu nghề nghiệp với Microsoft Copilot và mô hình Gemini Flash 3.5 mới của Google. Trong cả hai trường hợp, các mô hình nhanh ("Tức thì" / Tự động, Flash 3.5) đã phản hồi bằng các định kiến về quốc gia thay vì nhận ra rằng dữ liệu là giống hệt nhau. Copilot Auto và Gemini Flash giả vờ đã đọc tệp và phản hồi bằng những định kiến sáo rỗng nhất có thể tưởng tượng được. Các trích dẫn giả mạo độ chính xác. | Hình ảnh: Ảnh chụp màn hình THE DECODER ChatGPT Instant và Claude Opus 4.7 tự động chuyển sang chế độ suy luận mở rộng, viết mã Python để phân tích bộ dữ liệu và phát hiện các bản sao. Chuyển Copilot và Gemini thủ công sang các mô hình tư duy có khả năng hơn của chúng cũng phát hiện ra sự trùng lặp. ChatGPT Instant và Claude tự động viết mã Python để giải quyết tác vụ, ngay cả khi bắt đầu ở chế độ trả lời nhanh. | Hình ảnh: Ảnh chụp màn hình THE DECODER Tuy nhiên, ngay cả các mô hình tư duy cũng không phải là một giải pháp miễn phí cho phân tích dữ liệu. Việc phát hiện dữ liệu giống hệt nhau hoạt động chủ yếu khi sự trùng lặp là rõ ràng, Kucharski nói. Với các bộ dữ liệu thực, nơi, chẳng hạn, người trả lời người Anh và người Mỹ đưa ra các câu trả lời tương tự nhưng không giống hệt nhau, các công cụ đếm như tập lệnh Python có thể không đủ, Kucharski lập luận. Mô hình có thể quay trở lại các thành kiến có sẵn của nó, đó là vấn đề thực sự: bạn không biết khi nào mô hình đạt đến giới hạn của nó, và rất khó để biết liệu điều đó có xảy ra hay không hoặc nó đã làm sai lệch kết quả đến mức nào. Bất kỳ ai chọn theo trực giác khi chọn một lời nhắc hoặc mô hình cũng có nguy cơ mắc phải thành kiến hồi tưởng: sau sự việc, luôn có vẻ hiển nhiên rằng một mô hình khác sẽ làm được điều đó. Kucharski khuyên bạn nên ghi lại kết quả mong đợi trước khi chuyển đổi mô hình và thực hiện các kiểm tra hợp lý đơn giản trước khi tin tưởng bất kỳ phân tích nào do AI tạo ra. Tin tức AI không cường điệu – Được tuyển chọn bởi con người Đăng ký THE DECODER để đọc không có quảng cáo, nhận bản tin AI hàng tuần, báo cáo tiên phong "AI Radar" độc quyền của chúng tôi sáu lần một năm, truy cập kho lưu trữ đầy đủ và truy cập vào phần bình luận của chúng tôi. Đăng ký ngay Nguồn: qua Kucharski

Tại sao không nên để lựa chọn mô hình mặc định trong Copilot, Gemini và các công cụ AI khác