DiffuJudge-AV: Một khuôn khổ lấy cảm hứng từ mô hình khuếch tán…

Một khuôn khổ lấy cảm hứng từ mô hình khuếch tán để kiểm tra khả năng chịu tải và khử nhiễu các quy trình LLM-as-a-Judge, được áp dụng cho video lái xe quan trọng về an toàn. Bài viết DiffuJudge-AV: Một khuôn khổ lấy cảm hứng từ mô hình khuếch tán để đánh giá video AV đã hiệu chỉnh xuất hiện lần đầu trên Towards Data Science.

Mô hình ngôn ngữ lớn DiffuJudge-AV: Một khung đánh giá video AV được hiệu chỉnh lấy cảm hứng từ khuếch tán Một khung lấy cảm hứng từ khuếch tán để kiểm tra căng thẳng và khử nhiễu các quy trình LLM-as-a-Judge (LLM đóng vai trò người đánh giá), được áp dụng cho video lái xe an toàn. Huma Shah Ngày 28/5/2026 19 phút đọc Chia sẻ Hình ảnh do tác giả tạo bằng figurelabs Tôi đã coi LLM Judge như một cảm biến nhiễu. Điều đó đã thay đổi công cụ đánh giá lái xe tự hành mà tôi sẽ triển khai. Có một loại kết quả đặc biệt trông rất ấn tượng cho đến khi bạn đặt câu hỏi thứ hai không đúng. Trong dự án này, kết quả đó là hệ số tương quan Pearson 0,753 từ một LLM Judge Claude chỉ dựa trên văn bản chấm điểm các câu trả lời QA hình ảnh lái xe tự hành. Thoạt nhìn, đây có vẻ là một công cụ đánh giá có thể sử dụng được. Nó theo dõi điểm vàng, tạo ra các lý do, là một mô hình đóng mạnh mẽ. Đủ tốt để phân loại đầu ra của mô hình, phải không? Sau đó, tôi xem xét hệ số Cohen’s κ trọng số bậc hai. Nó là 0,057. Đó là thời điểm dự án thay đổi. LLM Judge có tương quan thứ hạng với nhãn vàng, nhưng nó không hoạt động như một công cụ đánh giá an toàn theo thứ tự. Nó đã học được chế độ lỗi trông an toàn nhất: nén gần như mọi thứ về giữa thang điểm 1-5. Đối với việc báo cáo điểm chuẩn thông thường, điều đó có thể không bị chú ý. Đối với một quy trình đánh giá lái xe tự hành cần gắn cờ các câu trả lời không tốt trước khi chúng chặn một bản phát hành phần mềm, điều đó là nguy hiểm. Vì vậy, tôi đã xây dựng DiffuJudge-AV, một khung đánh giá-của-đánh giá nhỏ cho các LLM/VLM Judge trên video lái xe. Ý tưởng rất đơn giản: coi điểm của LLM Judge là một quan sát nhiễu của một điểm tiêu chí thực tiềm ẩn, cố tình cho LLM Judge tiếp xúc với các nguồn sai lệch điểm đã biết, sau đó khử nhiễu phân phối điểm thu được bằng một bước trung bình hậu nghiệm Tweedie và báo cáo độ không chắc chắn đã hiệu chỉnh. Trong số 28.400 đánh giá của LLM Judge trên điểm chuẩn LingoQA của Wayve, phát hiện thú vị nhất không phải là một mô hình đóng lớn hơn đã thắng. Nó đã không thắng. LLM Judge tốt nhất trong thí nghiệm là Qwen2.5-VL-7B, một mô hình thị giác-ngôn ngữ 7B mã nguồn mở. Nó đạt được: Pearson r = 0,857 Spearman ρ = 0,856 Cohen’s κ trọng số bậc hai = 0,837 MAE = 0,57 Fail-detection F1 = 0,712 Lưu ý: Điểm chuẩn LingoQA được phát hành theo giấy phép phi thương mại. Các nhà tạo dữ liệu tại Wayve đã cấp phép sử dụng trong bài viết này. Đối với nhiệm vụ đánh giá kiểu AV này, một VLM mã nguồn mở không chỉ có tính cạnh tranh. Nó còn tốt hơn trên các chỉ số thực sự quan trọng. Tại sao lại là "đánh giá của đánh giá"? Khi một mô hình trả lời một câu hỏi về một cảnh lái xe, câu hỏi đánh giá rõ ràng là: Mô hình đã trả lời đúng chưa? Ví dụ: Câu hỏi: Có xe nào đỗ bên đường không? Tham chiếu: Có, có hai chiếc xe đỗ bên phải. Câu trả lời của ứng viên (mô hình đang thử nghiệm): Tôi không biết. Điểm vàng: 1,13 (thấp). Đối với con người, điều này rất dễ. Xem clip, so sánh câu trả lời với cảnh, gán điểm. Tuy nhiên, ở quy mô lớn, đánh giá của con người trở thành nút thắt cổ chai. Các ngăn xếp tự động hiện đại tạo ra nhiều clip nhận thức, nhật ký kịch bản, kết quả phản thực tế và đầu ra mô hình hơn bất kỳ nhóm chú thích nào có thể chấm điểm thủ công. Vì vậy, các nhóm tự nhiên tìm đến LLM-as-a-Judge hoặc VLM-as-a-Judge: cung cấp cho mô hình câu hỏi, tham chiếu, câu trả lời của ứng viên, tiêu chí và đôi khi là các khung hình, sau đó yêu cầu nó chấm điểm. Điều đó tạo ra một vấn đề thứ cấp: Nếu LLM Judge là một mô hình, làm thế nào chúng ta biết LLM Judge đáng tin cậy? Đây là đánh giá của đánh giá (eval-of-eval). Thay vì chỉ hỏi liệu mô hình AV có chính xác hay không, chúng tôi đặt câu hỏi liệu bản thân công cụ đánh giá có ổn định, được hiệu chỉnh, kháng thiên vị và hữu ích cho các quyết định tiếp theo hay không. Các bài báo gần đây (Judging the Judges của Shi và cộng sự, IJCNLP-AACL 2025; JETTS của Salesforce, 2025; CALM của Ye và cộng sự, ICLR 2025) đã liệt kê các chế độ lỗi cấu trúc trong các công cụ đánh giá LLM: thiên vị vị trí, thiên vị dài dòng, thiên vị định dạng ID điểm số, không nhất quán giữa các lần chạy và nén điểm số nghiêm trọng. Ngoài ra còn có một tuyên bố khó chịu hơn từ bài tiểu luận gần đây của Wang Lun, Your Evals Will Break and You Won’t See It Coming: cơ sở hạ tầng đánh giá thất bại một cách âm thầm khi các mô hình vượt qua ngưỡng khả năng, bởi vì các tiêu chuẩn hiện tại giả định sự cải thiện gia tăng. Biện pháp khắc phục được đề xuất của ông là các đánh giá thích ứng tự phát hiện sự lỗi thời của chúng. DiffuJudge-AV là một bước cụ thể theo hướng đó. Bằng cách gắn một độ không chắc chắn được hiệu chỉnh vào mỗi điểm số mà công cụ đánh giá đưa ra, khuôn khổ này mở rộng khoảng tin cậy của chính nó trước khi ước tính điểm làm bạn hiểu sai. Đối với lái xe tự động, điều này có ý nghĩa về mặt vận hành. Nếu một công cụ đánh giá được học quyết định những lỗi nào được chuyển đến con người xem xét, những kịch bản nào được đưa vào bộ kiểm thử hồi quy, hoặc những bản phát hành nào cần được xem xét kỹ lưỡng hơn, thì các chế độ lỗi của công cụ đánh giá trở thành một phần của câu chuyện an toàn. Trực giác: điểm số của công cụ đánh giá là một tín hiệu cảm biến nhiễu Điểm số của công cụ đánh giá LLM trông sạch sẽ vì nó là một con số: 1, 2, 3, 4 hoặc 5. Nhưng con số đó có thể thay đổi vì những lý do không liên quan gì đến chất lượng thực tế của câu trả lời. Thay đổi thứ tự các tùy chọn. Diễn giải lại tiêu chí. Sắp xếp lại các tiêu chí. Đổi nhãn điểm từ chữ số Ả Rập sang chữ số La Mã. Lấy mẫu lại các ví dụ. Thay đổi nhiệt độ. Xáo trộn các khung video bạn lấy mẫu. Chất lượng câu trả lời thực sự không thay đổi. Công cụ đánh giá đã thay đổi. Điều đó gợi ý một mô hình tư duy hữu ích: Coi công cụ đánh giá như một cảm biến nhiễu. Có một điểm số tiềm ẩn s0. Công cụ đánh giá không bao giờ quan sát trực tiếp nó. Mỗi biến thể lời nhắc tạo ra một tín hiệu nhiễu s~t=s0+ϵt,t∈{1,…,7}\tilde{s}_t = s_0 + \epsilon_t, \quad t \in \{1, \ldots, 7\} Ở đây t không phải là một bước thời gian khuếch tán theo nghĩa tạo ảnh. Đó là một nguồn nhiễu công cụ đánh giá được ghi nhận, được rút ra trực tiếp từ tài liệu về thiên vị LLM-as-a-Judge năm 2024–2025. Bảy nguồn chuẩn, mỗi nguồn có một mức độ nhiễu được kiểm soát: Hình ảnh được tạo bởi tác giả sử dụng figurelabs Mức tNhiễuKiểm tra gìTham khảo1hoán đổi tùy chọn / thứ tựthiên vị vị tríShi và cộng sự, 20252diễn giải tiêu chíđộ nhạy lời nhắcSPUQ, arXiv 2403.025093sắp xếp lại tiêu chíđộ nhạy thứ tự tiêu chíChen và cộng sự

DiffuJudge-AV: Một khuôn khổ lấy cảm hứng từ mô hình khuếch tán để đánh giá video AV đã được hiệu chỉnh