Giải thích cơ chế đang có thời điểm của nó: Những gì kỹ sư thực…

Công nghệ này vừa lọt vào danh sách 10 công nghệ đột phá hàng đầu của MIT. Anthropic, DeepMind và OpenAI đều đang tích cực sử dụng. Dưới đây là những gì phân tích cấp độ mạch thực sự tiết lộ – và tại sao điều này lại quan trọng đối với bất kỳ ai đang xây dựng trên các mô hình ngôn ngữ lớn (LLM). Ảnh của Ahmad Odeh trên UnsplashTrong phần lớn lịch sử của mình, khả năng diễn giải cơ chế chỉ chiếm một góc nhỏ trong nghiên cứu an toàn AI. Các bài báo có tính kỹ thuật nghiêm ngặt và các phát hiện thực sự đáng ngạc nhiên – các neuron riêng lẻ mã hóa nhiều khái niệm không liên quan cùng lúc; các đầu chú ý cụ thể thực hiện các thuật toán có thể nhận dạng được; các mô hình lập kế hoạch khi viết thơ.

Công nghệ này vừa lọt vào danh sách 10 công nghệ đột phá hàng đầu của MIT. Anthropic, DeepMind và OpenAI đều đang tích cực sử dụng nó. Dưới đây là những gì phân tích cấp mạch thực sự tiết lộ – và tại sao nó lại quan trọng đối với bất kỳ ai đang xây dựng trên các mô hình ngôn ngữ lớn (LLM). Ảnh của Ahmad Odeh trên Unsplash. Trong phần lớn lịch sử của mình, khả năng diễn giải cơ học (mechanistic interpretability) chiếm một góc hẹp trong nghiên cứu an toàn AI. Các bài báo có tính kỹ thuật nghiêm ngặt và các phát hiện thực sự đáng ngạc nhiên – các neuron riêng lẻ mã hóa nhiều khái niệm không liên quan đồng thời; các đầu chú ý (attention heads) cụ thể triển khai các thuật toán có thể nhận dạng; các mô hình lập kế hoạch khi viết thơ. Nhưng công việc này dường như xa rời kỹ thuật sản xuất. Thú vị, nhưng không khả thi. Điều đó đã thay đổi vào năm 2025 và 2026. MIT Technology Review đã vinh danh khả năng diễn giải cơ học là một trong mười công nghệ đột phá của năm 2026. Anthropic đã áp dụng biểu đồ thuộc tính (attribution graphs) cho Claude 3.5 Haiku – một mô hình sản xuất phục vụ hàng triệu người dùng – và mã nguồn mở công cụ theo dõi mạch (circuit tracing tooling) đã giúp điều này trở nên khả thi. Gemma Scope 2 của DeepMind đã mở rộng phân tích bộ mã hóa tự động thưa thớt (sparse autoencoder analysis) lên đến 27 tỷ tham số. OpenAI đã sử dụng giám sát chuỗi suy nghĩ (chain-of-thought monitoring), một sản phẩm trực tiếp của nghiên cứu khả năng diễn giải, để phát hiện một mô hình tiên tiến gian lận trong các đánh giá mã hóa theo thời gian thực. Khoảng cách giữa "nghiên cứu khả năng diễn giải" và "mối quan tâm kỹ thuật sản xuất" đang thu hẹp nhanh hơn hầu hết các chuyên gia nhận ra. Bài viết này là cầu nối: những gì thực sự đã được khám phá, cách các công cụ hoạt động và ý nghĩa của nó đối với các nhóm đang xây dựng trên các mô hình này ngày nay. TL;DR (Tóm tắt) Khả năng diễn giải cơ học đảo ngược kỹ thuật các mạng thần kinh để hiểu cách chúng tính toán – không chỉ những gì chúng xuất ra. Hai khái niệm cốt lõi: các đặc trưng (features) (các hướng có thể diễn giải được bằng con người trong không gian kích hoạt) và các mạch (circuits) (các đường dẫn nhân quả kết nối các đặc trưng với đầu ra). Các bộ mã hóa tự động thưa thớt phân tách các neuron đa nghĩa (polysemantic neurons) thành các đặc trưng có thể diễn giải được. Biểu đồ thuộc tính theo dõi các đặc trưng đó thông qua tính toán của mô hình. Việc theo dõi mạch của Anthropic đối với Claude 3.5 Haiku đã tiết lộ rằng mô hình lập kế hoạch trước khi viết thơ, xử lý các khái niệm trong các mạch độc lập với ngôn ngữ và có các đặc trưng "thiên vị mô hình phần thưởng" (reward model bias) dai dẳng hoạt động trong mọi tương tác với trợ lý. Đối với các chuyên gia, các ứng dụng liên quan trực tiếp là: điều khiển kích hoạt (activation steering) để kiểm soát hành vi, gỡ lỗi dựa trên mạch (circuit-based debugging) để điều tra các chế độ lỗi và bộ phân loại thăm dò (probe classifiers) để giám sát thời gian thực. Vấn đề khởi đầu mọi thứ: Tính đa nghĩa (Polysemanticity) Để hiểu tại sao khả năng diễn giải cơ học tồn tại, bạn cần hiểu vấn đề mà nó đang cố gắng giải quyết: các neuron trong mạng thần kinh không có nghĩa là một điều duy nhất. Trong nghiên cứu khả năng diễn giải ban đầu, giả thuyết lạc quan là các neuron riêng lẻ sẽ chuyên biệt hóa – một neuron cho "mèo", một neuron khác cho "Pháp", một neuron khác cho "phủ định". Thực tế phức tạp hơn. Một đặc trưng là một biểu diễn nội bộ bên trong mạng thần kinh tương ứng với một khái niệm có thể diễn giải được bằng con người – nhưng các đặc trưng không phải là các neuron đơn lẻ. Các mạng thần kinh hiện đại sử dụng sự chồng chất (superposition) – chúng đóng gói nhiều đặc trưng vào các neuron của chúng hơn số neuron có sẵn. Hiện tượng này – được gọi là tính đa nghĩa – có nghĩa là một neuron đơn lẻ có thể kích hoạt đồng thời cho "hình dạng cong", "nội dung tình dục", "số 17" và "văn bản tiếng Pháp". Đây không phải là những khái niệm có liên quan lỏng lẻo; chúng là những khái niệm thực sự không liên quan chia sẻ cùng một không gian tính toán. Khi bạn hỏi, "Tại sao mô hình lại tạo ra đầu ra này?", việc xem xét các neuron nào đã kích hoạt sẽ cho bạn một hỗn hợp khó hiểu của những điều không liên quan. tín hiệu. Hiện tượng chồng chất (superposition) phát sinh do mô hình chịu áp lực biểu diễn nhiều khái niệm hơn số lượng nơ-ron mà nó có. Mô hình nén nhiều đặc trưng thưa thớt, chủ yếu không trùng lặp vào cùng một nơ-ron, tận dụng thực tế là bất kỳ lần truyền tiến nào cũng chỉ kích hoạt một phần nhỏ các đặc trưng cùng lúc. Giải pháp không phải là huấn luyện mô hình theo cách khác, mà là tìm cách phân tách hoạt động của nơ-ron thành các đặc trưng cấu thành của nó. Sự phân tách đó chính là điều mà các bộ tự mã hóa thưa thớt (sparse autoencoder) thực hiện. **Các công cụ cốt lõi: Bộ tự mã hóa thưa thớt và Đồ thị thuộc tính** **Bộ tự mã hóa thưa thớt (SAE)** Bộ tự mã hóa thưa thớt là một mạng nơ-ron thứ cấp được huấn luyện để phân tách các véc-tơ kích hoạt của một mô hình ngôn ngữ thành một tập hợp lớn hơn các đặc trưng hoạt động thưa thớt. Ràng buộc chính là tính thưa thớt: trong bất kỳ lần truyền tiến nào, chỉ một số lượng nhỏ các đặc trưng nên được kích hoạt. Ràng buộc này buộc SAE phải tìm ra cấu trúc cơ bản – các khái niệm riêng biệt được nén chồng chất – thay vì chỉ ghi nhớ các kích hoạt. ```python # Cấu trúc SAE khái niệm — không phải thiết lập huấn luyện đầy đủ, mà là kiến trúc import torch import torch.nn as nn ``` class SparseAutoencoder(nn.Module): def __init__(self, d_model: int, d_hidden: int, sparsity_coeff: float = 1e-3): super().__init__() # Bộ mã hóa (Encoder): kích hoạt mô hình → không gian đặc trưng thưa thớt self.encoder = nn.Linear(d_model, d_hidden) # Bộ giải mã (Decoder): đặc trưng thưa thớt → kích hoạt được tái tạo self.decoder = nn.Linear(d_hidden, d_model) self.sparsity_coeff = sparsity_coeff def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]: # Mã hóa thành các đặc trưng thưa thớt (ReLU đảm bảo tính không âm) features = torch.relu(self.encoder(x)) # Tái tạo các kích hoạt từ các đặc trưng x_reconstructed = self.decoder(features) return features, x_reconstructed def loss(self, x: torch.Tensor) -> torch.Tensor: features, x_reconstructed = self.forward(x) # Tổn thất tái tạo: SAE (Sparse Autoencoder) phải thể hiện chính xác các kích hoạt reconstruction_loss = (x - x_reconstructed).pow(2).mean() # Tổn thất thưa thớt: hầu hết các đặc trưng phải bằng 0 tại bất kỳ thời điểm nào sparsity_loss = self.sparsity_coeff * features.abs().mean() return reconstruction_loss + sparsity_loss Các đặc trưng mà SAE học được có xu hướng dễ hiểu. Nghiên cứu về tính đơn nghĩa (monosemanticity) của Anthropic trên Claude 3 Sonnet đã tìm thấy các mẫu kích hoạt cụ thể cho các khái niệm như “cầu Cổng Vàng” (Golden Gate Bridge), “các từ có vần điệu”, “ngôn ngữ pháp lý” và “sự nhỏ bé”. Khi các nhà nghiên cứu khuếch đại nhân tạo đặc trưng của cầu Cổng Vàng, thì

Giải thích cơ chế đang có thời điểm của nó: Những gì kỹ sư thực sự cần biết