Phục vụ DeepSeek-V4: tại sao bối cảnh hàng triệu mã thông báo…

DeepSeek-V4 khiến bối cảnh hàng triệu token trở thành vấn đề của hệ thống phục vụ. AI cùng nhau khám phá công việc suy luận đằng sau V4 trên NVIDIA HGX B200, bao gồm bố cục KV nén, bộ nhớ đệm tiền tố, độ hoàn thiện của nhân và cấu hình điểm cuối cho khối lượng công việc có ngữ cảnh dài.

Bảng điểm chuẩn bỏ sót điểm chính của DeepSeek-V4: thay đổi quan trọng là về mặt kiến trúc. V4 biến bối cảnh hàng triệu token thành một vấn đề về hệ thống phục vụ. Mô hình này hỗ trợ cửa sổ ngữ cảnh 1M mã thông báo thông qua thiết kế chú ý kết hợp nén ngữ cảnh trước khi lưu trữ khóa-giá trị (KV), kết hợp các đường dẫn chú ý cục bộ và nén, đồng thời thay đổi cách hoạt động của việc tái sử dụng tiền tố. Những lựa chọn đó làm giảm áp lực KV, nhưng mức tiết kiệm chỉ quan trọng nếu công cụ suy luận có thể quản lý bố cục bộ đệm kết quả, khôi phục trạng thái cục bộ, yêu cầu hàng loạt một cách hiệu quả và chọn cấu hình điểm cuối phù hợp với khối lượng công việc. Bài đăng này tập trung vào ý nghĩa phục vụ của thiết kế Chú ý thưa thớt nén (CSA) / Chú ý nén nặng (HCA) / Chú ý cửa sổ trượt (SWA) của V4, dựa trên công trình phát triển ban đầu của Together về NVIDIA HGX B200. V4 cũng bao gồm các thay đổi về kiến trúc và đào tạo khác, bao gồm các kết nối còn lại Siêu kết nối bị ràng buộc đa dạng (mHC) và các lựa chọn trình tối ưu hóa Muon, nhưng những lựa chọn đó nằm ngoài phạm vi chính ở đây. V4 nén trục mã thông báo của bộ đệm KV Suy luận tự động lưu trữ bối cảnh trước đó trong bộ đệm KV. Trong quá trình giải mã, mỗi mã thông báo mới được tạo sẽ đọc và tuân theo trạng thái được lưu trữ đó. Bộ đệm phát triển theo độ dài chuỗi: Bộ đệm KV ∝ lớp × mã thông báo × kv_heads × head_dim × byte Ở bối cảnh dài, bộ đệm KV truy cập phân phát hai lần. Nó giới hạn khả năng đồng thời vì mỗi yêu cầu hiện hoạt sẽ chiếm bộ nhớ và làm giảm thông lượng vì bộ giải mã phải đọc ngữ cảnh được lưu trữ trong mỗi bước. V4 quan trọng vì nó tấn công cả hai mặt của vấn đề đó: ít mục trong bộ nhớ đệm để lưu trữ hơn và ít mục trong bộ nhớ đệm hơn để di chuyển qua sự chú ý. Trên NVIDIA Blackwell, áp lực bộ đệm đó ánh xạ trực tiếp đến hiệu quả kinh tế phục vụ. Suy luận theo ngữ cảnh dài phụ thuộc vào việc giữ đủ KV thường trú cho hoạt động đồng thời trong khi vẫn duy trì băng thông bộ nhớ để giải mã. Tính năng nén trục mã thông báo của V4 giúp cho sự cân bằng đó trở nên thuận lợi hơn: công cụ có nhiều chỗ hơn cho các yêu cầu hàng loạt, tái sử dụng tiền tố và duy trì khối lượng công việc có ngữ cảnh dài trong chế độ phân phối hiệu quả. Cấu trúc mô hình gần đây đã giảm bớt các thuật ngữ khác nhau trong sản phẩm trên. Chú ý truy vấn nhóm (GQA) làm giảm đầu KV. Chú ý tiềm ẩn nhiều đầu (MLA) nén KV thành biểu diễn tiềm ẩn. FP8, MXFP4 và NVFP4 giảm byte trên mỗi phần tử. Sự chú ý thưa thớt của DeepSeek-V3.2 đã làm giảm lượng KV phải đọc trong quá trình giải mã, trong khi bộ nhớ đệm đầy đủ vẫn phải được giữ nguyên. DeepSeek-V4 nhắm mục tiêu trục mã thông báo. Nó nén bối cảnh trước khi lưu trữ KV. Đó là sự thay đổi quan trọng. Theo tính toán chú ý nhiều đầu BF16 vanilla, mô hình lớp 70B có thể yêu cầu megabyte bộ đệm KV cho mỗi mã thông báo. Hệ số chính xác phụ thuộc vào số lớp, đầu KV, kích thước đầu và độ chính xác. Với 1M token, bộ nhớ đệm trở nên không thể thực hiện được đối với một yêu cầu. Tính năng nén trục mã thông báo của V4, kết hợp với tính năng nén đầu kiểu MLA và KV có độ chính xác thấp, giảm dung lượng bộ nhớ đệm theo yêu cầu đủ để làm cho bối cảnh rất dài trở nên thiết thực hơn về mặt vật chất. Trong thời gian đầu phát triển, khả năng phân phát của V4 ít bị chi phối bởi bộ nhớ đệm CSA / HCA được nén mà nhiều hơn bởi cách động cơ xử lý trạng thái SWA. Việc triển khai SWA đầy đủ thực tế có mức sử dụng KV trên mỗi mã thông báo cao hơn đường dẫn V3 của chúng tôi — khoảng 3,8 KB mỗi mã thông báo so với 3,4 KB — vì công cụ đang lưu trữ trạng thái cửa sổ trượt đầy đủ. Lợi ích thực tế đến từ chính sách bộ đệm. Bằng cách chỉ giữ lại các trạng thái SWA có nhiều khả năng được sử dụng lại nhất, chúng tôi đã tăng tổng dung lượng bộ đệm KV trên một nút NVIDIA HGX B200 từ khoảng 1,2 triệu mã thông báo lên 3,7 triệu mã thông báo với những thay đổi tối thiểu. Đó là bài học chính: Kiến trúc của V4 tạo cơ hội cho hiệu quả trong bối cảnh dài, nhưng công suất nhận ra phụ thuộc vào cách công cụ suy luận lưu trữ, tính toán lại và loại bỏ các loại bộ nhớ đệm khác nhau. Chiến thắng thực tế còn vượt xa các yêu cầu đầy đủ 1 triệu mã thông báo. Nó làm cho khối lượng công việc 200K–500K mã thông báo trở nên đồng thời hơn và ít dễ hỏng hơn vì động cơ có nhiều ngân sách KV hơn để hoạt động trước khi áp lực bộ nhớ buộc phải loại bỏ hoặc hạn chế việc phân khối. Các mô hình bối cảnh triệu mã thông báo trước đó vẫn để lại những thách thức lớn về phân phối xung quanh bộ nhớ, tính đồng thời và chi phí. V4 di chuyển phạm vi đó đến gần hơn với khối lượng công việc thực tế khi chính sách cung cấp phù hợp với bố cục bộ nhớ đệm. V4 yêu cầu nhiều bố cục bộ đệm KV Nhiều đường dẫn phân phối hiện có giả định một cái gì đó gần giống với bố cục bộ đệm KV duy nhất: một đối tượng bộ đệm trên mỗi lớp trên mỗi mã thông báo, có cùng hình dạng trên toàn bộ ngăn xếp. V4 yêu cầu ba loại bộ đệm khác nhau, được trộn lẫn giữa các lớp. Chú ý thưa thớt được nén (CSA) nén bối cảnh ở bước 4, nhưng mỗi mục nhập được nén được xây dựng từ trường tiếp thu rộng hơn một chút. Trong cấu hình của V4, mỗi mục nhập tóm tắt một vùng lân cận gồm 8 mã thông báo, do đó các mục nhập được nén liền kề chồng lên nhau ở các ranh giới. Khi một truy vấn chọn 128 mục được nén, nó sẽ chọn các bản tóm tắt của các vùng lân cận cục bộ thay vì các vị trí mã thông báo riêng biệt. Điều đó mang lại cho CSA một đường dẫn chi tiết hơn vào các vùng đã chọn của tiền tố triệu mã thông báo trong khi vẫn giảm dấu chân bộ nhớ đệm được lưu trữ. Chú ý nén mạnh (HCA) sử dụng cùng một ý tưởng nén nhưng với bước tiến 128. Với độ dài ngữ cảnh 1M mã thông báo, điều đó làm giảm bộ đệm từ vị trí mã thông báo 1M xuống còn khoảng 8K mục được nén. Đó là điểm khác biệt chính so với CSA: bộ đệm nén đủ nhỏ để mô hình có thể quản lý nó một cách dày đặc thay vì chọn tập hợp con top-k. HCA cung cấp cho mô hình khả năng đọc tổng thể thô trên toàn bộ bối cảnh, trong khi CSA cung cấp cho mô hình khả năng đọc thưa thớt tốt hơn trên các vùng đã chọn. Chú ý cửa sổ trượt (SWA) duy trì đường dẫn cục bộ. Cửa sổ ngắn, khoảng 128 mã thông báo và giữ chính xác bối cảnh gần đây. Trên toàn bộ ngăn xếp, động cơ phải quản lý trạng thái nén CSA, trạng thái nén HCA, trạng thái cục bộ SWA và trạng thái đuôi ngắn không nén được sử dụng bởi máy nén CSA và HCA. Những đối tượng này có kích thước, tuổi thọ và kiểu đọc khác nhau. Hạt nhân chú ý mới chỉ là một phần của công việc. Vấn đề phục vụ khó khăn hơn là quản lý bộ nhớ: yêu cầu theo đợt

Phục vụ DeepSeek-V4: tại sao bối cảnh hàng triệu mã thông báo lại là một vấn đề của hệ thống suy luận