NVIDIA AI ra mắt Gated DeltaNet-2: Lớp chú ý tuyến tính tách…

Cơ chế linear attention thay thế bộ nhớ đệm KV (KV cache) không giới hạn của softmax attention bằng một trạng thái lặp lại có kích thước cố định. Điều này giúp giảm thời gian trộn chuỗi xuống tuyến tính và giải mã xuống bộ nhớ không đổi. Phần khó không phải là quên đi điều gì, mà là làm thế nào để chỉnh sửa một bộ nhớ đã nén mà không làm xáo trộn các liên kết hiện có. NVIDIA đã phát hành Gated DeltaNet-2, một lớp linear attention nhằm giải quyết nút thắt này. Mô hình này tách biệt việc chỉnh sửa bộ nhớ đang hoạt động thành hai cổng theo kênh. Mô hình được huấn luyện với 1,3 tỷ tham số trên 100 tỷ token FineWeb-Edu. Kết quả cho thấy mô hình này vượt trội so với Mamba-2, Gated DeltaNet, KDA và Mamba-3 trong các nghiên cứu.

Cơ chế linear attention thay thế bộ nhớ đệm KV không giới hạn của softmax attention bằng một trạng thái lặp lại có kích thước cố định. Điều này giúp giảm thời gian trộn chuỗi xuống tuyến tính và giải mã xuống bộ nhớ không đổi. Phần khó không phải là quên đi điều gì, mà là làm thế nào để chỉnh sửa một bộ nhớ đã nén mà không làm xáo trộn các liên kết hiện có. NVIDIA đã phát hành Gated DeltaNet-2, một lớp linear attention nhằm giải quyết nút thắt này. Mô hình này tách biệt việc chỉnh sửa bộ nhớ đang hoạt động thành hai cổng theo kênh. Nó được huấn luyện với 1,3 tỷ tham số trên 100 tỷ token FineWeb-Edu. Nó vượt trội hơn Mamba-2, Gated DeltaNet, KDA và Mamba-3 trên bộ tiêu chuẩn nghiên cứu. Vấn đề cổng vô hướng trong các mô hình quy tắc delta Một lớp linear attention lặp lại lưu trữ trạng thái ma trận St và đọc nó bằng truy vấn. DeltaNet thêm một chỉnh sửa chủ động bằng cách trừ đi giá trị hiện đang liên kết với khóa hiện tại. Nó sử dụng một bước nhảy vô hướng βt để kiểm soát mức độ ghi đè. Mamba-2 thêm một độ suy giảm vô hướng phụ thuộc dữ liệu αt để quên toàn cục. Gated DeltaNet kết hợp cả hai hoạt động, nhưng cả hai cổng vẫn là vô hướng trên mỗi đầu. Kimi Delta Attention (KDA) tinh chỉnh phía suy giảm. Nó thay thế αt vô hướng bằng một vector theo kênh. KDA vẫn giữ một βt vô hướng duy nhất cho chỉnh sửa chủ động. Vô hướng đó kiểm soát hai thứ khác nhau cùng một lúc. Nó quyết định lượng nội dung cũ cần xóa ở phía khóa. Nó cũng quyết định lượng nội dung mới cần cam kết ở phía giá trị. Hai quyết định này tác động lên các trục khác nhau của trạng thái. Việc gắn kết chúng lại với nhau là một hạn chế của mô hình, không phải là một thuộc tính của quy tắc delta. https://github.com/NVlabs/GatedDeltaNet-2/blob/main/paper/GDN2_paper.pdf Quy tắc Delta có cổng-2: hai cổng thay vì một Gated DeltaNet-2 tách biệt hai quyết định thông qua Quy tắc Delta có cổng-2. Nó giới thiệu một cổng xóa bt ∈ [0,1]dk theo kênh trên trục khóa. Nó cũng giới thiệu một cổng ghi wt ∈ [0,1]dv theo kênh trên trục giá trị. Cả hai cổng được tạo ra bằng các phép chiếu sigmoid của biểu diễn token. Bản cập nhật áp dụng suy giảm trước khi chỉnh sửa chủ động. Viết gọn, công thức lặp lại là: St = (I − kt (bt ⊙ kt)⊤) Dt St−1 + kt (wt ⊙ vt)⊤ Ở đây Dt = Diag(αt) là độ suy giảm theo kênh được kế thừa từ KDA. Yếu tố bên trái của ma trận xóa vẫn là kt, bảo toàn hướng ghi của quy tắc delta. Yếu tố bên phải trở thành bt ⊙ kt, làm cho hướng đọc có chọn lọc theo kênh. Thuật ngữ ghi kt zt⊤ sử dụng zt = wt ⊙ vt, làm cho bản cập nhật giá trị có chọn lọc theo kênh. Khi cả hai cổng sụp đổ thành cùng một vô hướng βt, bản cập nhật khôi phục chính xác KDA. Khi độ suy giảm αt cũng sụp đổ thành một vô hướng, nó khôi phục Gated DeltaNet. Cả hai mô hình trước đó đều được bảo toàn dưới dạng các không gian con liên kết của bản cập nhật mới. Theo quan điểm trọng số nhanh, Quy tắc Delta có cổng-2 là một bước gradient trực tuyến trên một hàm mất mát hồi quy cục bộ. Trạng thái suy giảm vẫn gần với bộ nhớ, trong khi chỉnh sửa còn lại sử dụng các mục tiêu đọc có cổng và ghi có cổng. Huấn luyện theo khối và backward nhận biết cổng Công thức lặp lại chấp nhận dạng WY theo khối phù hợp với cấu trúc được KDA sử dụng. Độ suy giảm theo kênh tích lũy được hấp thụ vào hai yếu tố của mỗi lần xóa hạng một. Bản cập nhật trên mỗi khối trở thành một tích của các ma trận bất đối xứng có dạng I − k̄r ēr⊤. Việc triển khai sử dụng kích thước khối C = 64 với các nhân Triton được hợp nhất. Đối với quá trình truyền ngược (backward pass), phím tắt vô hướng (scalar shortcut) được KDA sử dụng không còn áp dụng. Phía ghi (write side) chứa một cổng chéo (diagonal gate) khác trên các kênh giá trị (value channels). Phía xóa (erase side) chứa một cổng chéo khác trên các kênh khóa (key channels). Do đó, các yếu tố cổng phải xuất hiện bên trong các tích vô hướng (dot products) tích lũy gradient. Bài báo đã trình bày rõ ràng tích vector-Jacobian có nhận biết cổng này. Trên các GPU Hopper, nhân WY backward hợp nhất bị giới hạn ở hai và bốn warps để tránh một xác nhận bố cục WGMMA của Triton. Thiết kế khối và mô hình lai Gated DeltaNet-2 được sử dụng làm bộ trộn token đệ quy (recurrent token mixer) trong một khối kiểu Transformer tiêu chuẩn. Các đường dẫn truy vấn (query) và khóa (key) sử dụng phép chiếu tuyến tính (linear projection), tích chập nhân quả ngắn (short causal convolution), SiLU và chuẩn hóa L2. Đường dẫn giá trị (value path) sử dụng phép chiếu tuyến tính, tích chập ngắn và SiLU. Các tham số phân rã αt, cổng xóa bt và cổng ghi wt đến từ các nhánh tuyến tính riêng biệt. Đầu ra đệ quy được chuẩn hóa RMS, nhân với một cổng đầu ra SiLU và được chiếu ngược lại. Một biến thể lai chèn Sliding-Window Attention (SWA) sau bộ trộn đệ quy. Một ô lặp lại chứa Gated DeltaNet-2, một MLP, SWA và một MLP khác. SWA xử lý các tương tác cục bộ chính xác, trong khi bộ trộn đệ quy nén các lịch sử dài. Mô hình lai duy trì khả năng mở rộng chuỗi tuyến tính với bộ nhớ đệm chú ý (attention cache) có giới hạn. Kết quả ở 1,3 tỷ tham số Tất cả các mô hình đều có 1,3 tỷ tham số được huấn luyện trên 100 tỷ token FineWeb-Edu. Số lượng tham số và kích thước trạng thái đệ quy được khớp giữa các mô hình. Trạng thái đệ quy chứa 262.144 số thực (float) trên mỗi lớp trên mỗi phần tử lô (batch element). Chiều dài huấn luyện là 4K token và các mô hình lai sử dụng cửa sổ SWA 2K. Mô hình cơ sở Mamba-3 MIMO sử dụng hạng R = 4. Trong mô hình ngôn ngữ và suy luận thông thường, Gated DeltaNet-2 có điểm trung bình tốt nhất ở cả hai thiết lập. Mô hình đệ quy đạt trung bình 53,11 trên LAMBADA và bộ suy luận. Con số này cao hơn Mamba-3 MIMO ở mức 52,39 và KDA ở mức 52,28. Trong thiết lập lai, Gated DeltaNet-2 đạt trung bình 53,97 so với Mamba-3 MIMO ở mức 52,72. Vì kích thước trạng thái đệ quy được khớp, lợi ích này cho thấy quy tắc cập nhật, không phải bộ nhớ lớn hơn. Những cải thiện rõ ràng nhất xuất hiện trên khả năng truy xuất ngữ cảnh dài RULER. Trong thiết lập đệ quy, S-NIAH-2 ở 4K tăng từ 89,0 (KDA) lên 93,0. S-NIAH-3 ở 2K tăng vọt từ 63,2 (KDA) lên 89,8. MK-NIAH-1 ở 4K tăng từ 28,0 (KDA) lên 37,8. Trong truy xuất thực tế (SWDE, SQuAD, FDA, TriviaQA, NQ, DROP), Gated DeltaNet-2 cũng dẫn đầu cả hai thiết lập. Mức trung bình đệ quy là 29,88 và mức trung bình lai là 42,28. Giải thích trực quan của Marktechpost Gated DeltaNet-2 · Bắt đầu nhanh 01 / 08 NVIDIA · 2026 Gated DeltaNet-2 Tách biệt xóa và ghi trong chú ý tuyến tính. Một lớp chú ý đệ quy theo quy tắc delta với các cổng xóa và ghi theo kênh. PyTorch Triton kernels 1,3 tỷ tham số 100 tỷ token FineWeb-Edu

NVIDIA AI ra mắt Gated DeltaNet-2: Lớp chú ý tuyến tính tách biệt thao tác xóa và ghi trong quy tắc Delta