Xác định các tương tác ở quy mô lớn cho LLM

--> Hiểu hành vi của các hệ thống máy học phức tạp, đặc biệt là Mô hình ngôn ngữ lớn (LLM), là một thách thức quan trọng trong trí tuệ nhân tạo hiện đại. Nghiên cứu về khả năng diễn giải nhằm mục đích làm cho quá trình ra quyết định trở nên minh bạch hơn đối với những người xây dựng mô hình và những người bị ảnh hưởng, một bước tiến tới AI an toàn hơn và đáng tin cậy hơn. Để hiểu biết toàn diện, chúng ta có thể phân tích các hệ thống này thông qua các lăng kính khác nhau: phân bổ tính năng, giúp tách biệt các tính năng đầu vào cụ thể thúc đẩy dự đoán (Lundberg & Lee, 2017; Ribeiro và cộng sự, 2022); phân bổ dữ liệu, liên kết các hành vi của mô hình với các ví dụ đào tạo có ảnh hưởng (Koh & Liang, 2017; Ilyas và cộng sự, 2022); và khả năng diễn giải cơ học, phân tích chức năng của các thành phần bên trong (Conmy và cộng sự, 2023; Sharkey và cộng sự, 2025). Trên các quan điểm này, vẫn tồn tại một rào cản cơ bản giống nhau: độ phức tạp ở quy mô. Hành vi của mô hình hiếm khi là kết quả của các thành phần biệt lập; đúng hơn, nó xuất hiện từ những phụ thuộc và khuôn mẫu phức tạp. Để đạt được hiệu suất cao nhất, các mô hình tổng hợp các mối quan hệ tính năng phức tạp, tìm các mẫu chung từ các ví dụ đào tạo đa dạng và xử lý thông tin thông qua các thành phần bên trong có tính liên kết cao. Do đó, các phương pháp diễn giải có căn cứ hoặc được kiểm tra thực tế cũng phải có khả năng nắm bắt được những tương tác có ảnh hưởng này. Khi số lượng tính năng, điểm dữ liệu huấn luyện và thành phần mô hình tăng lên, số lượng tương tác tiềm năng sẽ tăng theo cấp số nhân, khiến cho việc phân tích toàn diện về mặt tính toán trở nên không khả thi. Trong bài đăng trên blog này, chúng tôi mô tả các ý tưởng cơ bản đằng sau SPEX và ProxySPEX, các thuật toán có khả năng xác định các tương tác quan trọng này trên quy mô lớn. Ghi công thông qua Ablation Trọng tâm trong cách tiếp cận của chúng tôi là khái niệm cắt bỏ, đo lường ảnh hưởng bằng cách quan sát những thay đổi khi một thành phần bị loại bỏ. Thuộc tính tính năng: Chúng tôi che dấu hoặc xóa các phân đoạn cụ thể của lời nhắc đầu vào và đo lường sự thay đổi dẫn đến dự đoán. Phân bổ dữ liệu: Chúng tôi đào tạo các mô hình trên các tập hợp con khác nhau của tập huấn luyện, đánh giá xem kết quả đầu ra của mô hình tại một điểm kiểm tra sẽ thay đổi như thế nào khi không có dữ liệu đào tạo cụ thể. Thuộc tính thành phần mô hình (Khả năng diễn giải cơ học): Chúng tôi can thiệp vào quá trình chuyển tiếp của mô hình bằng cách loại bỏ ảnh hưởng của các thành phần bên trong cụ thể, xác định cấu trúc bên trong nào chịu trách nhiệm cho dự đoán của mô hình. Trong mỗi trường hợp, mục tiêu đều giống nhau: cô lập các yếu tố thúc đẩy quyết định bằng cách làm xáo trộn hệ thống một cách có hệ thống, với hy vọng phát hiện ra các tương tác có ảnh hưởng. Vì mỗi lần cắt bỏ đều phát sinh một chi phí đáng kể, cho dù thông qua các cuộc gọi suy luận tốn kém hay đào tạo lại, chúng tôi mong muốn tính toán các phân bổ với ít lần cắt bỏ nhất có thể. --> Che giấu các phần khác nhau của đầu vào, chúng tôi đo lường sự khác biệt giữa đầu ra ban đầu và đầu ra bị loại bỏ. Khung SPEX và ProxySPEX Để khám phá các tương tác có ảnh hưởng với số lượng cắt bỏ có thể điều chỉnh được, chúng tôi đã phát triển SPEX (Spectral Giải thích). Khung này dựa trên lý thuyết mã hóa và xử lý tín hiệu để nâng cao khả năng khám phá tương tác ở quy mô lớn hơn các phương pháp trước đó. SPEX phá vỡ điều này bằng cách khai thác một quan sát cấu trúc quan trọng: trong khi tổng số lượng tương tác cực kỳ lớn thì số lượng tương tác có ảnh hưởng thực sự khá nhỏ. Chúng tôi chính thức hóa điều này thông qua hai quan sát: độ thưa thớt (tương đối ít tương tác thực sự thúc đẩy đầu ra) và mức độ thấp (các tương tác có ảnh hưởng thường chỉ liên quan đến một tập hợp con các tính năng). Các thuộc tính này cho phép chúng ta biến vấn đề tìm kiếm khó khăn thành vấn đề khôi phục thưa thớt có thể giải quyết được. Dựa trên các công cụ mạnh mẽ từ lý thuyết mã hóa và xử lý tín hiệu, SPEX sử dụng phương pháp cắt bỏ được lựa chọn một cách chiến lược để kết hợp nhiều tương tác ứng cử viên lại với nhau. Sau đó, bằng cách sử dụng các thuật toán giải mã hiệu quả, chúng tôi tách các tín hiệu kết hợp này để tách biệt các tương tác cụ thể chịu trách nhiệm về hành vi của mô hình. --> Trong thuật toán tiếp theo, ProxySPEX, chúng tôi đã xác định được một thuộc tính cấu trúc khác phổ biến trong các mô hình học máy phức tạp: hệ thống phân cấp. Điều này có nghĩa là khi tương tác bậc cao là quan trọng thì các tập hợp con bậc thấp hơn của nó cũng có thể quan trọng. Quan sát cấu trúc bổ sung này mang lại sự cải thiện đáng kể về chi phí tính toán: nó phù hợp với hiệu suất của SPEX với số lần cắt bỏ ít hơn khoảng 10 lần. Nói chung, các khung này cho phép khám phá tương tác hiệu quả, mở khóa các ứng dụng mới về phân bổ thành phần mô hình, dữ liệu và tính năng. Thuộc tính tính năng Kỹ thuật phân bổ tính năng chỉ định điểm quan trọng cho các tính năng đầu vào dựa trên mức độ ảnh hưởng của chúng đối với đầu ra của mô hình. Ví dụ: nếu LLM được sử dụng để chẩn đoán y tế, phương pháp này có thể xác định chính xác triệu chứng nào khiến mô hình đưa ra kết luận. Mặc dù việc gán tầm quan trọng cho từng đặc điểm riêng lẻ có thể có giá trị nhưng sức mạnh thực sự của các mô hình phức tạp nằm ở khả năng nắm bắt các mối quan hệ phức tạp giữa các đặc điểm. Hình bên dưới minh họa các ví dụ về những tương tác có ảnh hưởng này: từ cảm xúc thay đổi tiêu cực kép (trái) đến việc tổng hợp cần thiết nhiều tài liệu trong một nhiệm vụ RAG (phải). --> Hình bên dưới minh họa hiệu suất phân bổ tính năng của SPEX trong nhiệm vụ phân tích cảm tính. Chúng tôi đánh giá hiệu suất bằng cách sử dụng độ trung thực: thước đo mức độ chính xác của các phân bổ được khôi phục có thể dự đoán kết quả đầu ra của mô hình đối với các lần cắt bỏ thử nghiệm không nhìn thấy. Chúng tôi thấy rằng SPEX phù hợp với độ trung thực cao của các kỹ thuật tương tác hiện có (Faith-Shap, Faith-Banzhaf) trên các đầu vào ngắn nhưng vẫn duy trì hiệu suất này một cách duy nhất khi bối cảnh mở rộng tới hàng nghìn tính năng. Ngược lại, trong khi các phương pháp tiếp cận cận biên (LIME, Banzhaf) cũng có thể hoạt động ở quy mô này, chúng lại thể hiện độ trung thực thấp hơn đáng kể vì không nắm bắt được các tương tác phức tạp thúc đẩy đầu ra của mô hình. --> SPEX cũng được áp dụng cho một phiên bản sửa đổi của bài toán xe đẩy, trong đó