Tìm hiểu chuyên sâu về hiệu chỉnh mô hình ngôn ngữ: Platt…

Khám phá ba phương pháp hậu kiểm nhằm thu hẹp khoảng cách giữa độ tin cậy và độ chính xác.

Một cái nhìn sâu sắc về hiệu chỉnh các mô hình ngôn ngữ: Platt Scaling, Isotonic Regression, Temperature Scaling - KDnuggets **Giới thiệu** Một mô hình tự tin 90% thì nên đúng 90% số lần. Khi mối quan hệ đó bị phá vỡ, sẽ phát sinh vấn đề hiệu chỉnh sai. Điểm số của mô hình không còn cung cấp thông tin hữu ích về độ tin cậy. Đối với các mô hình ngôn ngữ lớn (LLM), việc hiệu chỉnh sai là phổ biến. Một khảo sát NAACL năm 2024 cho thấy điểm tin cậy khác biệt so với tỷ lệ chính xác thực tế trong các tác vụ hỏi đáp thực tế, tạo mã và suy luận. Một nghiên cứu khác về các mô hình y sinh cho thấy điểm hiệu chỉnh trung bình chỉ dao động từ 23,9% đến 46,6% trên tất cả các mô hình được thử nghiệm. Khoảng cách này là nhất quán. Giải pháp tiêu chuẩn trong học máy cổ điển là hiệu chỉnh hậu kỳ: điều chỉnh một hàm đơn giản trên một tập hợp kiểm định riêng biệt để ánh xạ điểm tin cậy thô thành các xác suất được hiệu chỉnh tốt hơn. Ba phương pháp chủ đạo là: Temperature Scaling, Platt Scaling và Isotonic Regression. Cả ba đều được thiết kế cho các bộ phân loại phân biệt, và việc áp dụng chúng cho LLM đòi hỏi sự cẩn trọng. **Đo lường hiệu chỉnh** Thước đo chủ đạo là Lỗi hiệu chỉnh dự kiến (ECE). Nó nhóm các dự đoán thành các khoảng tin cậy, tính toán khoảng cách giữa độ tin cậy trung bình và độ chính xác quan sát được trong mỗi khoảng, sau đó tính trung bình trên các khoảng có trọng số theo kích thước. ECE = 0 là hiệu chỉnh hoàn hảo. Biểu đồ độ tin cậy thể hiện mối quan hệ giữa độ tin cậy và độ chính xác. Một mô hình được hiệu chỉnh hoàn hảo nằm trên đường chéo. Một mô hình quá tự tin nằm dưới đường chéo: đường cong cho thấy độ tin cậy cao, nhưng độ chính xác không theo kịp. Một đánh giá năm 2025 về GPT-4o-mini với vai trò bộ phân loại văn bản cho thấy 66,7% lỗi của nó xảy ra ở mức độ tin cậy trên 80% — đây là mô hình quá tự tin điển hình. ECE đơn thuần ngày càng được xem là không đủ. Một bài nghiên cứu khuyến nghị kết hợp ECE với điểm Brier, tỷ lệ quá tự tin và biểu đồ độ tin cậy. Một con số duy nhất che khuất sự biến đổi đáng kể về vị trí và cách thức mô hình hoạt động sai. **Tại sao LLM làm phức tạp thiết lập tiêu chuẩn** Ba phương pháp chúng ta đề cập giả định một không gian đầu ra cố định. Một bộ phân loại tạo ra một xác suất cho mỗi lớp, và hiệu chỉnh ánh xạ chúng thành các ước tính tốt hơn. LLM không hoạt động theo cách này. Bốn yếu tố phức tạp quan trọng ở đây. Không gian đầu ra lớn theo cấp số nhân: độ tin cậy ở cấp độ chuỗi không thể liệt kê. Các đầu ra tương đương về mặt ngữ nghĩa có thể có xác suất cấp độ token rất khác nhau. Độ tin cậy không nhất quán giữa các mức độ chi tiết; một bài nghiên cứu về hiệu chỉnh nguyên tử cho thấy các mô hình tạo sinh thể hiện độ tin cậy trung bình thấp nhất ở giữa quá trình tạo, chứ không phải ở đầu hoặc cuối. Nhiều mô hình ngôn ngữ lớn (LLM) chỉ hiển thị xác suất token top-k thông qua API của chúng, do đó các phương pháp hiệu chuẩn cổ điển dựa vào quyền truy cập logit đầy đủ cần được điều chỉnh. # Áp dụng điều chỉnh nhiệt độ (Temperature Scaling) Điều chỉnh nhiệt độ chia vector logit cho một đại lượng vô hướng T trước khi áp dụng hàm softmax. Khi T > 1, phân phối trở nên phẳng hơn và độ tin cậy giảm. Khi T < 1, phân phối trở nên sắc nét hơn và độ tin cậy tăng. T được điều chỉnh trên một tập dữ liệu xác thực (validation set) riêng biệt bằng cách giảm thiểu log-likelihood âm. Phương pháp này bổ sung một tham số, bảo toàn thứ hạng dự đoán và có chi phí tính toán thấp. Công thức ban đầu nhắm mục tiêu đến các bộ phân loại hình ảnh DenseNet. Đối với LLM, nhiệt độ kiểm soát phân phối xác suất trên từ vựng ở mỗi bước giải mã, do đó logic tương tự được áp dụng. Vấn đề nằm ở Học tăng cường từ phản hồi của con người (RLHF). Các mô hình sau RLHF phát triển sự tự tin thái quá phụ thuộc vào đầu vào: mức độ sai lệch hiệu chuẩn thay đổi tùy theo đầu vào và một T duy nhất không thể giải thích sự thay đổi đó. Điểm ECE trung bình trên 0,377 đã được ghi nhận cho các mô hình như GPT-3 trong các tác vụ tự tin bằng lời nói, và một khảo sát năm 2025 xác nhận rằng các mô hình được điều chỉnh bằng RLHF luôn đánh giá quá cao độ tin cậy trên diện rộng. Điều chỉnh nhiệt độ thích ứng (ATS) giải quyết trực tiếp vấn đề này. ATS dự đoán nhiệt độ trên mỗi token từ các đặc trưng ẩn cấp token, được điều chỉnh trên một tập dữ liệu tinh chỉnh có giám sát, thay vì sử dụng một T cố định duy nhất. Các nhà nghiên cứu xác nhận rằng ATS đã cải thiện hiệu chuẩn từ 10–50% mà không làm giảm hiệu suất tác vụ. Đối với bất kỳ mô hình nào được điều chỉnh bằng RLHF, ATS là một cơ sở mạnh hơn so với điều chỉnh nhiệt độ tiêu chuẩn. Điều chỉnh nhiệt độ tiêu chuẩn vẫn hoạt động tốt cho các mô hình cơ sở trước RLHF. Khi sai lệch hiệu chuẩn tương đối đồng đều trên các đầu vào, một T duy nhất thường đủ để sửa lỗi tự tin quá mức hoặc dưới mức một cách có hệ thống. Vấn đề này đặc trưng cho các mô hình sau RLHF, nơi sự tự tin thái quá phụ thuộc vào đầu vào có nghĩa là một T duy nhất không thể sửa tất cả các đầu vào. # Áp dụng điều chỉnh Platt (Platt Scaling) Điều chỉnh Platt điều chỉnh một hàm logistic trên các điểm số chưa được hiệu chuẩn: p = σ(A·s + B), trong đó A và B được học từ một tập dữ liệu xác thực riêng biệt với các nhãn đúng/sai nhị phân. Hình dạng sigmoid cung cấp một ánh xạ tham số với hai tham số tự do. Điều chỉnh Platt ban đầu được phát triển cho SVM nhưng tổng quát hóa cho bất kỳ hệ thống nào tạo ra điểm số tin cậy vô hướng. Việc điều chỉnh hai tham số cũng hiệu quả về dữ liệu so với hồi quy đẳng điệu: nó có thể tạo ra các ước tính hữu ích từ một tập hiệu chuẩn nhỏ hơn, điều này quan trọng trong các ngữ cảnh triển khai nơi dữ liệu đúng/sai được gắn nhãn bị hạn chế. Trong ngữ cảnh LLM, điều chỉnh Platt

Tìm hiểu chuyên sâu về hiệu chỉnh mô hình ngôn ngữ: Platt Scaling, Isotonic Regression, Temperature Scaling