Hiệu chỉnh độ tin cậy trong các mô hình ngôn ngữ lớn
arXiv cs.AI· Noam Michael, Daniel BenShushan, Jacob Bien, Don A. Moore· 26/5/2026models
arXiv:2605.23909v1 Loại công bố: mới
Chúng tôi nghiên cứu việc hiệu chỉnh độ tin cậy của các mô hình ngôn ngữ lớn (LLM) trên nhiều tác vụ khác nhau. Kết quả từ nghiên cứu đã đăng ký trước của chúng tôi cho thấy các LLM hiện tại, giống như con người, quá tự tin vào câu trả lời của mình: độ tin cậy trung bình vượt quá độ chính xác. Tuy nhiên, điều quan trọng là xu hướng này được điều chỉnh bởi một hiệu ứng khó-dễ mạnh mẽ, trong đó sự tự tin thái quá lớn nhất xảy ra ở các bài kiểm tra khó; ngược lại, các bài kiểm tra dễ lại cho thấy sự tự tin dưới mức đáng kể. Chúng tôi phát triển LifeEval, một bài kiểm tra để đánh giá hiệu chỉnh mô hình trên các mức độ khó.
Khoa học Máy tính > Trí tuệ Nhân tạo
arXiv:2605.23909 (cs)
[Đệ trình ngày 3/4/2026]
Tiêu đề: Hiệu chỉnh độ tin cậy trong các mô hình ngôn ngữ lớn
Tác giả: Noam Michael, Daniel BenShushan, Jacob Bien, Don A. Moore
Xem bản PDF của bài báo có tiêu đề Hiệu chỉnh độ tin cậy trong các mô hình ngôn ngữ lớn, của Noam Michael và 3 tác giả khác
Xem PDF
HTML (thử nghiệm)
Tóm tắt: Chúng tôi nghiên cứu việc hiệu chỉnh độ tin cậy của các mô hình ngôn ngữ lớn (LLM) trên nhiều nhiệm vụ khác nhau. Kết quả từ nghiên cứu đã đăng ký trước của chúng tôi cho thấy rằng các LLM hiện tại, giống như con người, quá tự tin vào sự đúng đắn của mình: độ tin cậy vượt quá độ chính xác, tính trung bình. Tuy nhiên, điều quan trọng là xu hướng này được điều chỉnh bởi một hiệu ứng khó-dễ mạnh mẽ, trong đó sự tự tin thái quá lớn nhất ở các bài kiểm tra khó; ngược lại, các bài kiểm tra dễ lại cho thấy sự tự tin dưới mức đáng kể. Chúng tôi phát triển LifeEval, một bài kiểm tra để đánh giá việc hiệu chỉnh mô hình trên các mức độ khó.
Chủ đề:
Trí tuệ Nhân tạo (cs.AI); Học máy (cs.LG)
Trích dẫn dưới dạng:
arXiv:2605.23909 [cs.AI]
(hoặc arXiv:2605.23909v1 [cs.AI] cho phiên bản này)
https://doi.org/10.48550/arXiv.2605.23909
Tập trung để tìm hiểu thêm
DOI do arXiv cấp thông qua DataCite
Lịch sử đệ trình
Từ: Noam Michael [xem email]
[v1]
Thứ Sáu, 3/4/2026 19:43:24 UTC (3.200 KB)
Liên kết toàn văn:
Truy cập bài báo:
Xem bản PDF của bài báo có tiêu đề Hiệu chỉnh độ tin cậy trong các mô hình ngôn ngữ lớn, của Noam Michael và 3 tác giả khác
Xem PDF
HTML (thử nghiệm)
Nguồn TeX
xem giấy phép
Ngữ cảnh duyệt hiện tại:
cs.AI
< trước
|
tiếp theo >
mới
|
gần đây
| 2026-05
Thay đổi để duyệt theo:
cs
cs.LG
Tài liệu tham khảo & Trích dẫn
NASA ADS
Google Scholar
Semantic Scholar
xuất trích dẫn BibTeX
Đang tải...
Trích dẫn định dạng BibTeX
×
đang tải...
Dữ liệu được cung cấp bởi:
Đánh dấu
Công cụ thư mục
Công cụ thư mục và trích dẫn
Chuyển đổi trình khám phá thư mục
Trình khám phá thư mục (Trình khám phá là gì?)
Chuyển đổi bài báo liên quan
Bài báo liên quan (Bài báo liên quan là gì?)
Chuyển đổi Litmaps
Litmaps (Litmaps là gì?)
Chuyển đổi scite.ai
Trích dẫn thông minh scite (Trích dẫn thông minh là gì?)
Mã, Dữ liệu, Phương tiện
Mã, Dữ liệu và Phương tiện liên quan đến bài viết này
Chuyển đổi alphaXiv
alphaXiv (alphaXiv là gì?)
Liên kết đến mã nguồn
Công cụ tìm mã CatalyzeX cho các bài báo (CatalyzeX là gì?)
Chuyển đổi DagsHub
DagsHub (DagsHub là gì?)
Chuyển đổi GotitPub
Gotit.pub (GotitPub là gì?)
Chuyển đổi Huggingface
Hugging Face (Huggingface là gì?)
Chuyển đổi ScienceCast
ScienceCast (ScienceCast là gì?)
Bản demo
Bản demo
Chuyển đổi Replicate
Replicate (Replicate là gì?)
Chuyển đổi Spaces
Hugging Face Spaces (Spaces là gì?)
Chuyển đổi Spaces
TXYZ.AI (TXYZ.AI là gì?)
Bài báo liên quan
Công cụ đề xuất và tìm kiếm
Liên kết đến Influence Flower
Influence Flower (Influence Flowers là gì?)
Chuyển đổi bộ đề xuất cốt lõi
Bộ đề xuất CORE (CORE là gì?)
Tác giả
Địa điểm
Tổ chức
Chủ đề
Giới thiệu về arXivLabs
arXivLabs: các dự án thử nghiệm với sự hợp tác của cộng đồng
arXivLabs là một khuôn khổ cho phép các đối tác phát triển và chia sẻ các tính năng arXiv mới trực tiếp trên trang web của chúng tôi.
Cả cá nhân và tổ chức làm việc với arXivLabs đều đã chấp nhận và tuân thủ các giá trị của chúng tôi về tính cởi mở, cộng đồng, sự xuất sắc và quyền riêng tư dữ liệu người dùng. arXiv cam kết với những giá trị này và chỉ hợp tác với các đối tác tuân thủ chúng.
Bạn có ý tưởng cho một dự án sẽ mang lại giá trị cho cộng đồng arXiv không? Tìm hiểu thêm về arXivLabs.
Những tác giả nào của bài báo này là người ủng hộ? | Tắt MathJax (MathJax là gì?)
Nguồn tin: arXiv cs.AI — Tác giả: Noam Michael, Daniel BenShushan, Jacob Bien, Don A. Moore. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.