LLM có vẻ thông minh. Các chỉ số lại cho thấy điều ngược lại. |…

URL bài viết: https://tiago.rio.br/work/general/articles/llm-looked-smart-metrics-disagreed/ URL bình luận: https://news.ycombinator.com/item?id=48174317 Điểm: 1 Bình luận: 0

LLM trông thông minh. Các chỉ số lại không đồng tình – tiago.rio.br tiago.rio.br Trang chủ » công việc » chung » bài viết » LLM trông thông minh. Các chỉ số lại không đồng tình Trường hợp này từ đầu năm 2025 là một lời nhắc nhở thú vị rằng, ngay cả trong thế giới mới đầy hứa hẹn này, nơi các mô hình ngày càng được thương mại hóa thông qua các bộ biến đổi (transformer) và LLM, những khái niệm cũ của khoa học dữ liệu vẫn kiên quyết không biến mất. Khi đó, Will Bank có một nhiệm vụ rõ ràng: tín dụng. Điều đó sắp thay đổi. Tôi được thuê để giúp mở rộng sản phẩm bằng cách cung cấp tài khoản ngân hàng kỹ thuật số miễn phí, ngay cả cho những người không đủ điều kiện vay tín dụng. Tôi đã đề cập một phần câu chuyện này trong “Một mô hình phê duyệt cuối cùng đã được chấp thuận”, nhưng chương này lại đi kèm với một vấn đề hoàn toàn khác. Trong số nhiều vấn đề vận hành, có một vấn đề đủ lớn để vang vọng qua mọi bảng điều khiển chỉ số: phản ứng tiêu cực của công chúng đối với thương hiệu. Những người được phê duyệt tài khoản kỹ thuật số mà không có tín dụng đã phàn nàn, rất lớn tiếng, trên mọi kênh có thể tưởng tượng được. Mạng xã hội, nền tảng đánh giá, cửa hàng ứng dụng. Kết quả? Mức độ yêu thích thương hiệu thấp hơn và, đương nhiên, xếp hạng trên App Store bị ảnh hưởng. Bởi vì nếu có một điều người dùng yêu thích, đó là nhận được gần như những gì họ muốn. Phản ứng tiêu cực này đại diện cho một rủi ro lớn. Một mặt, chúng tôi đang cẩn thận mở rộng việc phê duyệt tài khoản bằng cách sử dụng các mô hình học máy và cải thiện trải nghiệm ứng dụng để làm rõ các điều kiện tài khoản. Mặt khác, chúng tôi rất cần theo dõi xem sự thất vọng của công chúng này có đang âm thầm leo thang thành một thảm họa thương hiệu khác hay không. Giải pháp “đơn giản” Thoạt nhìn, giải pháp có vẻ tầm thường: Tại sao không sử dụng LLM để đọc các đánh giá và khiếu nại từ nhiều kênh và phân loại xem mỗi đánh giá có cụ thể về việc được phê duyệt tài khoản kỹ thuật số mà không có tín dụng hay không? Trên thực tế, công ty vừa thuê một nhà cung cấp AI để phân loại các đánh giá chỉ bằng kỹ thuật nhắc lệnh (prompt engineering). Và, thành thật mà nói, kết quả trông đầy hứa hẹn. Thông qua giao diện của công cụ, phân khúc khiếu nại mà chúng tôi quan tâm trông có vẻ mạch lạc. Rất ít phân loại vô lý. Theo giai thoại, ngay cả những lỗi sai cũng có vẻ hợp lý. Điều này, như mọi nhà khoa học dữ liệu sớm muộn gì cũng học được, chính là lúc bạn nên trở nên nghi ngờ. Câu hỏi không ai đặt ra Hình ảnh hóa rõ ràng cho thấy thiết lập LLM + nhắc lệnh có độ chính xác khá tốt. Nhưng còn độ thu hồi (recall) thì sao? Nói cách khác: chúng ta có thực sự nắm bắt được hầu hết các trường hợp thực tế, hay chúng ta chỉ đơn giản là nhận được một tập hợp con trông bóng bẩy trong khi bỏ lỡ phần lớn vấn đề? Đã đến lúc thực hiện một số công việc thủ công kiểu cũ. Tôi đã tải xuống một mẫu ngẫu nhiên gồm 750 đánh giá và tự gắn nhãn chúng vào một bảng tính. Vâng, thủ công. Không có phép thuật. Không có AI. Chỉ có tôi, một bảng tính và nhận thức ngày càng tăng rằng có lẽ robot không thay thế chúng ta nhanh đến vậy. Sau đó, tôi đã chạy bộ phân loại AI sáng bóng của công ty và tính toán độ chính xác và độ thu hồi. Kết quả? Độ chính xác (Precision): 85% Độ thu hồi (Recall): 42% đáng thất vọng Nói một cách đơn giản: khi nó gắn cờ một khiếu nại, nó thường đúng. Vấn đề là nó chỉ đơn giản là bỏ lỡ hầu hết chúng. Một sự nhầm lẫn tinh tế nhưng quan trọng Trong khi chú thích dữ liệu, tôi nhận thấy một điều thú vị, có một khiếu nại rất phổ biến khác trông gần như giống hệt: Khách hàng muốn có tài khoản kỹ thuật số nhưng bị từ chối vì không đủ điều kiện vay tín dụng thường bị nhầm lẫn với khách hàng nhận được tài khoản kỹ thuật số nhưng không có tín dụng. Cách diễn đạt tương tự đáng kể. Tại thời điểm đó, tôi đã đưa ra một quyết định mô hình hóa có chủ ý: coi cả hai khiếu nại thuộc cùng một loại. Tại sao? Bởi vì những gì chúng tôi đang làm có thể làm tăng các khiếu nại về việc không nhận được tín dụng. Nhưng nếu, đồng thời, nó làm giảm các khiếu nại từ những người bị từ chối tài khoản hoàn toàn, chúng tôi có thể lập luận một cách hợp lý rằng đây không phải là sự suy giảm thương hiệu ròng. Thuận tiện thay, việc mô hình không thể phân biệt hoàn hảo giữa hai loại khiếu nại đột nhiên không còn là lỗi mà trở thành một tính năng. Các con số về độ chính xác (precision) và độ thu hồi (recall) được đề cập ở trên đã phản ánh chiến lược gán nhãn thủ công đã sửa đổi này. Kỹ thuật nhắc lệnh (Prompt Engineering) gặp trở ngại Tôi đã thử điều chỉnh lời nhắc ban đầu. Một số cải tiến ở đây, một số thoái lui ở đó, vấn đề chăn ngắn quen thuộc mà chúng tôi đã thảo luận trong bài viết về Podium: che một bên, hở bên kia. Việc điều chỉnh ngày càng trở nên cụ thể. Và càng cụ thể, tôi càng cảm thấy khó chịu. Đến một lúc nào đó, tôi nhận ra rằng tôi đang tự tay tạo ra logic mà máy lẽ ra phải tự học. Nó bắt đầu có cảm giác đáng ngờ như overfitting, ngoại trừ việc tôi là người bị overfitting vào tập dữ liệu. Đã đến lúc ngừng giả vờ rằng lời nhắc là đủ và xây dựng một mô hình thực tế. Xây dựng một bộ phân loại thực sự Tôi đã tải xuống 3.000 mẫu ngẫu nhiên bổ sung và gán nhãn thủ công. Lại một lần nữa. Bởi vì rõ ràng mối quan hệ của tôi với bảng tính đã trở nên nghiêm túc. Tôi đã thử nghiệm một vài phương pháp phân loại tương đối đơn giản. Phương pháp hoạt động tốt nhất sử dụng XGBoost với các nhúng văn bản được tạo thông qua mô hình BERT từ Sentence Transformers. Kết quả được cải thiện: Độ chính xác (Precision): 81% Độ thu hồi (Recall): 65% Tốt hơn. Vẫn chưa đủ tốt. Tinh chỉnh một LLM (Lần này đúng cách) Sau đó tôi nghĩ: Điều gì sẽ xảy ra nếu tôi tinh chỉnh GPT để hoạt động như một bộ phân loại thay vì cố gắng ép buộc nó trở thành một bộ phân loại thông qua các lời nhắc? OpenAI cho phép tinh chỉnh thông qua giao diện của nó. Chi phí token cao hơn đối với các mô hình đã tinh chỉnh, điều này ban đầu có vẻ đáng lo ngại, nhưng thử nghiệm này đáng để thực hiện. Tôi đã tạo một tập dữ liệu rất đơn giản: Đầu vào: văn bản đánh giá Đầu ra: một trong hai từ: “yes” hoặc “no” Chúng tôi đã tinh chỉnh mô hình bằng cách sử dụng 3.000 mẫu đã được gán nhãn đó. Kết quả trên tập thử nghiệm rất xuất sắc: Độ chính xác (Precision): 91% Độ thu hồi (Recall): 86% Cuối cùng, một cái gì đó đủ tốt cho mục đích giám sát. Chi phí (Đáng ngạc nhiên) không phải là vấn đề Trớ trêu thay, chi phí hóa ra lại là phần ít thú vị nhất của câu chuyện. Đúng vậy, giá token cho một mô hình GPT đã tinh chỉnh cao hơn. Nhưng