Cái bẫy tự tin của mô hình AI

Tại sao mô hình AI của bạn có thể sai với độ tin cậy 99% Bài viết The AI Model Confidence Trap xuất hiện lần đầu trên Towards Data Science.

Học máy Bẫy tự tin của mô hình AI Tại sao mô hình AI của bạn có thể sai với độ tin cậy 99% Sara A. Metwalli Ngày 26/5/2026 7 phút đọc Chia sẻ Ảnh của Houssam benamara từ Pexels Năm ngoái, vào một ngày thứ Bảy, tôi cảm thấy hơi ngẫu hứng và quyết định hỏi ChatGPT một câu hỏi khá đơn giản: “Ai đã đoạt giải Nobel Vật lý năm 2025?” ChatGPT trả lời ngay lập tức: “Giải Nobel Vật lý năm 2025 đã được trao cho…” Nó thậm chí còn cung cấp tên, lĩnh vực nghiên cứu và giải thích về nghiên cứu cụ thể đã giúp họ giành giải Nobel! Chỉ có một vấn đề – thực ra là một vấn đề rất nhỏ. Giải Nobel vẫn chưa được công bố. Tuy nhiên, mô hình không hề do dự; nó không dừng lại; nó chắc chắn không nói, “Tôi không có đủ thông tin” hoặc, tốt hơn nữa, “người đoạt giải Nobel năm 2025 vẫn chưa được công bố!” Thay vào đó, nó tự tin bước vào phòng, ngồi xuống và trình bày một câu chuyện hư cấu với năng lượng của một người đang bảo vệ luận án tiến sĩ. Là một người từng bảo vệ luận án tiến sĩ, tôi ước mình có sự tự tin của ChatGPT khi nó bịa chuyện! Là con người, chúng ta có xu hướng làm một điều thú vị với sự tự tin; chúng ta liên kết nó với sự đúng đắn, nhưng điều đó không phải lúc nào cũng đúng. Nếu một người nói, “Tôi nghĩ câu trả lời có thể là 42” và một người khác nói, “Câu trả lời chắc chắn là 42,” hầu hết chúng ta theo bản năng tin tưởng người thứ hai hơn, ngay cả khi cả hai đều có khả năng sai như nhau. Đối với chúng ta, sự tự tin đôi khi đóng vai trò là một tín hiệu hữu ích về sự đúng đắn. Tuy nhiên, đối với các hệ thống AI, sự tự tin có thể là một người kể chuyện không đáng tin cậy một cách đáng ngạc nhiên. Trong bài viết này, chúng ta sẽ khám phá lý do tại sao. Sự tự tin giống như xác suất Giả sử chúng ta yêu cầu một LLM dự đoán con vật trong một bức ảnh nhất định. Nó nói: Mèo: 0,97 Chó: 0,02 Chim: 0,01 Hầu hết sẽ diễn giải điều đó là: “Mô hình chắc chắn 97% đây là một con mèo.” Đó là một giả định hợp lý. Thật không may, đó thường không phải là ý nghĩa của những con số đó. Chúng ta cần nhớ rằng nhiều mô hình AI sử dụng một hàm gọi là Softmax để tạo ra các dự đoán. Hàm Softmax chuyển đổi các đầu ra thô (gọi là logit) thành các giá trị có tổng bằng một và giống với xác suất. Điều quan trọng cần lưu ý ở đây là số mũ, có thể khiến những khác biệt nhỏ đột nhiên trở nên rất lớn. Ảnh của tác giả Vì vậy, về cơ bản, mô hình không nói, “Tôi có bằng chứng áp đảo rằng đây là một con mèo.” Nó có thể chỉ đơn giản là nói: “Trong số các lựa chọn này, mèo tình cờ thắng với một biên độ nhỏ.” Đó là những tuyên bố rất khác nhau với ý nghĩa hoàn toàn khác nhau. Con người và AI xử lý sự không chắc chắn khác nhau Mặc dù có thể không thoải mái khi chấp nhận, con người lại giỏi một cách đáng ngạc nhiên trong việc thể hiện và đối phó với sự không chắc chắn. Chúng ta liên tục nghe: “Tôi có thể sai…”, “Tôi khá chắc chắn…”, “Có lẽ…”, hoặc “Tôi nghĩ…”. Sự tự tin của chúng ta có xu hướng tồn tại trên một phổ. Tuy nhiên, các hệ thống AI thường hành xử như một người trong một dự án nhóm tự tin giải thích điều gì đó họ mới học được ba phút trước (tôi chắc chắn tất cả chúng ta đều có người bạn học đó…). Vì vậy, khi trò chuyện với một LLM, cả việc nói với nó “Tôi nghĩ Paris là thủ đô của Pháp,” và nó trả lời “Paris là thủ đô của Pháp với xác suất 99,8%,” đều mang lại năng lượng tương tự như việc nói với nó “Tôi nghĩ Atlantis là hư cấu,” và nó trả lời “Atlantis nằm cách Bồ Đào Nha khoảng 400 dặm về phía tây với độ tin cậy 98,7%.” Mặc dù hai trường hợp có kết quả rất khác nhau, LLM vẫn đối xử với chúng như nhau. Vấn đề kẻ ngốc tự tin Điều này tạo ra cái mà tôi gọi là vấn đề "kẻ ngốc tự tin". Theo đó, một hệ thống có thể sai một cách ngoạn mục trong khi lại tỏ ra cực kỳ chắc chắn. Đáng tiếc, sự tự tin thường tăng lên đúng vào lúc chúng ta cần thận trọng hơn. Điều này trở nên đặc biệt đáng chú ý khi các mô hình ngôn ngữ lớn (LLM) gặp phải các tình huống nằm ngoài phạm vi dữ liệu huấn luyện của chúng. Giả sử chúng ta huấn luyện một bộ phân loại hình ảnh để nhận diện mèo và chó. Nhưng sau đó, chúng ta đưa cho nó một bức ảnh cái máy nướng bánh mì! Lý tưởng nhất, mô hình nên nói: "Tôi hoàn toàn không biết đây là cái gì." Phản ứng của hầu hết mọi người khi được cho xem một thứ họ chưa từng thấy trước đây sẽ như thế nào? Thay vì nói như vậy, mô hình có thể phản hồi: Chó: 98% Mèo: 2% Trừ khi cái máy nướng bánh mì của bạn có hình dạng giống chó Poodle, câu trả lời đó rõ ràng là sai! Tại sao điều này lại xảy ra? Câu trả lời đơn giản hơn hầu hết mọi người nghĩ. Đơn giản là vì mô hình chưa bao giờ được huấn luyện để nói: "Không có lựa chọn nào trong số trên." Vì vậy, khi gặp một thứ không quen thuộc, nó sẽ chọn điểm số cao nhất trong số các lựa chọn có sẵn. Điều này giống như việc buộc ai đó phải trả lời "Đây là loại trái cây gì?" trong khi chỉ vào một chiếc xe đạp. Cuối cùng, họ sẽ chọn một loại trái cây chỉ để giải quyết tình huống và nói: "Chuối chăng?" Hãy mô phỏng một mô hình quá tự tin. Hình ảnh do tác giả cung cấp Nếu mô hình báo cáo "độ tin cậy 90%", chúng ta hy vọng nó đúng khoảng 90% số lần. Thay vào đó, nhiều hệ thống trông giống như "độ tin cậy 90%, độ chính xác 65%." Khoảng cách giữa độ tin cậy và độ chính xác này là lý do tại sao cách chúng ta chọn để huấn luyện các LLM này lại quan trọng đến vậy. Dạy các mô hình trung thực hơn Chúng ta đã biết tại sao các mô hình có xu hướng sai một cách tự tin, nhưng làm thế nào để khắc phục điều đó nhằm có được các mô hình tốt hơn với độ chính xác cao hơn, hoặc độ chính xác phù hợp với độ tin cậy của chúng? Đây là lúc hiệu chuẩn (calibration) phát huy tác dụng. Hiệu chuẩn không nhất thiết cải thiện các dự đoán. Thay vào đó, nó cải thiện sự trung thực! Vì vậy, nếu một mô hình nói 90% sau khi hiệu chuẩn, điều đó có nghĩa là: "Trong lịch sử, các dự đoán ở mức độ tin cậy này đã đúng khoảng 90% số lần." Các phương pháp như: Platt Scaling Temperature Scaling Isotonic Regression cố gắng điều chỉnh độ tin cậy dự đoán với các kết quả quan sát được. Hãy xem điều này trông như thế nào: Hình ảnh do tác giả cung cấp Tại sao điều này quan trọng Thật dễ để bật cười khi một AI nghĩ rằng máy nướng bánh mì là một con chó. Bởi vì điều đó, có thể nói, rất buồn cười. Tuy nhiên, có nhiều tình huống ít buồn cười hơn. Không chỉ ít buồn cười hơn, mà còn nghiêm trọng, và thậm chí có thể đe dọa tính mạng. Việc sử dụng LLM trong các hệ thống chẩn đoán y tế, xe tự hành, phát hiện gian lận và dự báo tài chính.