Kẻ th thầm lặng hủy hoại độ chính xác của LLM: Tại sao việc ép…

Hai đặc điểm hành vi ẩn của các mô hình transformer mà mọi kỹ sư AI cần biết khi chuyển các câu lệnh từ giai đoạn thử nghiệm sang sản xuất. Nếu bạn đã dành thời gian thiết kế các hệ thống RAG (Retrieval Augmented Generation) cấp doanh nghiệp, có lẽ bạn đã phải vật lộn với các đầu ra có cấu trúc. Bạn viết một câu lệnh cực kỳ chi tiết, định nghĩa một lược đồ JSON chặt chẽ và hướng dẫn mô hình đánh giá một tải trọng phức tạp. Để tiết kiệm chi phí token và giảm thiểu độ trễ của hệ thống, bạn có thể đưa vào một chỉ thị như sau: “Nếu ngữ cảnh rõ ràng và không tìm thấy vi phạm nào, hãy xuất ra một mảng rỗng {"issues": []} ngay lập tức và giữ im lặng."

Hai đặc điểm hành vi ẩn của các mô hình transformer mà mọi kỹ sư AI cần biết khi chuyển các câu lệnh từ giai đoạn thử nghiệm sang sản xuất. Nếu đã từng dành thời gian thiết kế các hệ thống RAG (Retrieval Augmented Generation) cấp doanh nghiệp, có thể đã phải vật lộn với các đầu ra có cấu trúc. Người dùng viết một câu lệnh cực kỳ chi tiết, định nghĩa một lược đồ JSON cứng nhắc và hướng dẫn mô hình đánh giá một tải trọng phức tạp. Để tiết kiệm chi phí token và giảm thiểu độ trễ của hệ thống, người dùng có thể bao gồm một chỉ thị như sau: “Nếu ngữ cảnh rõ ràng và không tìm thấy vi phạm nào, hãy xuất ngay một mảng trống {"issues": []} và giữ im lặng." Điều này có vẻ thanh lịch. Có vẻ hiệu quả. Và nó đang phá hủy độ chính xác của hệ thống. Khi buộc một LLM (Large Language Model) phải giữ im lặng, người dùng vô tình kích hoạt một lỗi kiến trúc lớn bắt nguồn sâu xa từ cách các mô hình transformer thực sự tính toán logic. Hãy cùng tìm hiểu lý do tại sao điều này xảy ra, cách khắc phục và một thủ thuật được tính toán để neo giữ sự chú ý đang trôi dạt của mô hình. 🧠 1. Ngụy biện "Bảng nháp": LLM không suy nghĩ trước khi tạo văn bản Là con người, chúng ta quen với việc suy nghĩ thầm trước khi nói. Chúng ta tự nhiên vạch ra toàn bộ một chuỗi logic trong đầu và chỉ nói ra câu trả lời cuối cùng. Vì điều này, dễ dàng cho rằng một mô hình như gpt-4o đánh giá toàn bộ câu lệnh, đạt đến một kết luận thầm lặng và sau đó in ra JSON. Thực tế cơ học LLM không suy nghĩ trước khi tạo văn bản; chúng suy nghĩ bằng cách tạo văn bản. Một LLM xử lý dữ liệu tuần tự, từng token một. Mỗi token mà nó xuất ra trở thành một phần của cửa sổ ngữ cảnh mới, làm thay đổi trọng số chú ý toán học cho token tiếp theo. Khi buộc một LLM ngay lập tức xuất ra một cấu trúc JSON trống như {"issues": []} khi một đoạn dữ liệu rõ ràng, người dùng hoàn toàn tước đi Chuỗi suy nghĩ (CoT) của nó. Người dùng đang lấy đi "bảng nháp" của nó. Không có không gian để chủ động suy luận thành tiếng – để in ra và so sánh các biến mâu thuẫn một cách tuần tự – mô hình buộc phải thực hiện một bước nhảy vọt nhận thức. Khả năng xử lý các trường hợp ngoại lệ của nó sụp đổ, độ chính xác của nó giảm xuống và nó bắt đầu đưa ra các phỏng đoán. 🛠️ Giải pháp sản xuất: Trường gốc macroAnalysis Để duy trì một cấu trúc đầu ra JSON cứng nhắc mà không phá hủy khả năng suy luận của mô hình, người dùng phải thay đổi lược đồ JSON để bao gồm một "lớp suy nghĩ" bắt buộc. Thay vì nhảy thẳng đến mảng cuối cùng, hãy buộc LLM xuất ra một bảng nháp dựa trên văn bản trước: { "macroAnalysis": "Công cụ đã xem xét Đoạn 3 (Khu vực pháp lý: Delhi) và so sánh nó với quyền ghi đè của công ty trong Đoạn 15 (Phạm vi: Trung ương). Cả hai khung pháp lý đều hoàn toàn phù hợp, và không tồn tại xung đột khu vực.", "issues": [] } Bằng cách thêm macroAnalysis, người dùng cung cấp cho mô hình transformer không gian token cần thiết để chủ động tính toán câu trả lời đúng trước khi nó viết ký tự cuối cùng của tải trọng. Nó suy nghĩ thành tiếng ở đó, và sau đó xuất ra mảng rõ ràng, xác định. 🚫 2. Neo giữ sự chú ý: Toán học ẩn đằng sau các phủ định viết hoa Khi chạy các hệ thống thông lượng cao, việc chuyển sang một mô hình nhỏ hơn, nhanh hơn như gpt-4o-mini rất hấp dẫn về hiệu quả chi phí. Tuy nhiên, các mô hình nhỏ hơn mắc phải một lỗ hổng phổ biến: khoảng chú ý của chúng bị trôi dạt trong điều kiện tải trọng nặng. Để chống lại điều này, người dùng thường thấy các kỹ sư câu lệnh cấp cao sử dụng các chữ viết hoa sắc nét, được nhấn mạnh cao trong các hướng dẫn hệ thống của họ: STRICTLY FORBIDDEN (NGHIÊM CẤM), NEVER (KHÔNG BAO GIỜ), DO NOT (KHÔNG ĐƯỢC). Đây chỉ là cách la hét mang tính thẩm mỹ, hay nó thực sự thay đổi hành vi của mô hình? Đó là toán học thuần túy. Trong mạng lưới transformer, "Attention" (cơ chế chú ý) là một ma trận toán học cụ thể được tính toán thông qua các phép nhân vô hướng có tỷ lệ. Khi một mô hình xử lý lời nhắc của bạn, nó gán trọng số xác suất cho các từ dựa trên những gì đã được nhập. Khi bạn sử dụng các thuật ngữ được tính toán kỹ lưỡng, viết hoa, bạn không chỉ khiến văn bản trông hung hăng đối với người đọc mà còn thao túng rõ ràng trọng số chú ý của mô hình transformer. [ Hướng dẫn tiêu chuẩn ] "Không áp dụng các thông số luật tiêu dùng." │ (Sự chú ý bị phân tán trong các ngữ cảnh dài) ▼ [ Xác suất ảo giác: Cao ] [ Chú ý được neo giữ ] "NGHIÊM CẤM áp dụng luật tiêu dùng." │ (Hoạt động như một bức tường toán học khổng lồ) ▼ [ Xác suất ảo giác: ~0% ] Khi một mô hình nhỏ hơn sắp bị phân tán hoặc tạo ra một phản hồi chung chung, những mã thông báo được nhấn mạnh đó hoạt động như những rào cản thống kê lớn. Chúng làm lệch đáng kể ma trận xác suất, buộc khả năng xảy ra ảo giác giảm thẳng xuống 0. ⚖️ Bài học cho các kiến trúc sư AI Xây dựng các hệ thống AI mạnh mẽ đòi hỏi sự thấu hiểu sâu sắc về cách phần cứng và kiến trúc cơ bản tính toán xác suất. Không bao giờ bịt miệng các mô hình của bạn. Hiệu quả là vô ích nếu nó làm giảm độ chính xác. Luôn cung cấp một vùng đệm suy nghĩ dựa trên văn bản trong các lược đồ có cấu trúc của bạn. Neo giữ sự chú ý một cách có chủ đích. Khi tối ưu hóa cho các mô hình nhỏ hơn, hãy sử dụng định dạng chuỗi khác biệt và phủ định cứng để hướng dẫn trọng tâm chú ý của transformer một cách toán học. Lời nhắc không phải là mã. Chúng là những con đường xác suất. Thiết kế chúng với không gian để suy nghĩ và ranh giới để giữ an toàn. "Kẻ giết người thầm lặng của độ chính xác LLM: Tại sao việc buộc xuất JSON trực tiếp đang làm bạn mất độ chính xác" ban đầu được xuất bản trên Towards AI trên Medium, nơi mọi người đang tiếp tục cuộc trò chuyện bằng cách làm nổi bật và phản hồi câu chuyện này.

Kẻ th thầm lặng hủy hoại độ chính xác của LLM: Tại sao việc ép buộc xuất JSON trực tiếp đang làm giảm độ chính xác của bạn