NVIDIA giới thiệu phương pháp huấn luyện trước 4-bit sử dụng…

Việc huấn luyện trước các mô hình ngôn ngữ lớn (LLM) quy mô tiên tiến bằng định dạng FP8 hiện là thông lệ tiêu chuẩn, nhưng việc chuyển sang định dạng dấu phẩy động 4-bit vẫn là một vấn đề nghiên cứu mở vì các định dạng hẹp hơn nén dải động và khuếch đại lỗi lượng tử hóa ở các chuỗi token dài. Một nghiên cứu mới từ NVIDIA mô tả một phương pháp huấn luyện trước được xây dựng dựa trên NVFP4, một định dạng vi tỷ lệ 4-bit được hỗ trợ nguyên bản bởi Blackwell Tensor Cores, và xác thực nó bằng cách huấn luyện trước một mô hình Mamba-Transformer lai 12 tỷ tham số trên 10 nghìn tỷ token. Nhóm nghiên cứu tuyên bố đây là lần chạy huấn luyện được ghi nhận công khai dài nhất ở độ chính xác 4-bit cho đến nay. Mô hình thu được đạt 62,58% trên MMLU-Pro 5-shot so với 62,62% của FP8 cơ sở, và được hỗ trợ trong Transformer Engine của NVIDIA. NVFP4 thực sự là gì Để hiểu tại sao NVFP4 lại quan trọng, cần xem xét lại cách các định dạng vi tỷ lệ hoạt động. Trong định dạng vi tỷ lệ (MX), một khối liên tục các phần tử độ chính xác thấp chia sẻ một hệ số tỷ lệ duy nhất, được sử dụng để ánh xạ khối trở lại một dải số rộng hơn trong quá trình nhân ma trận. MXFP4 sử dụng các khối 32 phần tử, trong đó mỗi phần tử được lưu trữ dưới dạng E2M1 — 1 bit dấu, 2 bit mũ, 1 bit mantissa — chỉ mã hóa các giá trị ±0, ±0,5, ±1, ±1,5, ±2, ±3, ±4 và ±6. Các hệ số tỷ lệ khối được lưu trữ trong UE8M0, giới hạn chúng ở các lũy thừa của hai. NVFP4 thay đổi ba điều. Thứ nhất, kích thước khối giảm từ 32 xuống 16 phần tử, thu hẹp dải động mà mỗi tỷ lệ phải bao phủ. Thứ hai, các hệ số tỷ lệ khối được lưu trữ trong E4M3 thay vì UE8M0, đánh đổi dải mũ để lấy độ chính xác mantissa để amax (giá trị tuyệt đối tối đa) trên mỗi khối có thể được ánh xạ gần hơn nhiều với giá trị tối đa có thể biểu diễn của FP4. Thứ ba, NVFP4 thêm một cấp độ tỷ lệ thứ hai: một tỷ lệ trên mỗi tensor FP32 ánh xạ lại các giá trị để các tỷ lệ khối E4M3 tự chúng nằm trong phạm vi. Kết quả là ít nhất 6,25% giá trị trong mỗi khối — amax trên mỗi khối — được biểu diễn ở độ chính xác gần FP8, trong khi phần còn lại nằm trong FP4. Trên NVIDIA Blackwell, FP4 GEMM chạy với thông lượng gấp 4 lần BF16 trên GB200 và gấp 6 lần trên GB300, tương đương với tốc độ tăng khoảng 2 lần và 3 lần so với FP8. Dung lượng bộ nhớ toán hạng giảm khoảng một nửa so với FP8. https://arxiv.org/pdf/2509.25149 Những gì được lượng tử hóa — và những gì không Chỉ các GEMM bên trong các lớp tuyến tính (kết nối đầy đủ) Fprop, Dgrad và Wgrad mới thực sự chạy trong NVFP4. Các nhúng (embeddings), đầu chiếu đầu ra, các lớp chuẩn hóa, các hàm phi tuyến tính và tất cả các thành phần chú ý (softmax và các GEMM theo lô query-key và attention score-value) vẫn ở BF16 hoặc FP32. Các trọng số mô hình, gradient trọng số được sử dụng để tích lũy trên các microbatch và các bản sao song song dữ liệu, và các trạng thái tối ưu hóa được giữ ở FP32. Các phép giảm song song tensor chạy trong BF16. Phương pháp huấn luyện bốn phần Lượng tử hóa mọi GEMM lớp tuyến tính thành NVFP4 với cài đặt mặc định (tỷ lệ khối 1x16 ở mọi nơi, làm tròn đến số chẵn gần nhất trên mọi tensor, không biến đổi) sẽ phân kỳ sớm trong quá trình huấn luyện. Cách tiếp cận của NVIDIA ổn định nó với bốn thành phần, và các nghiên cứu cắt bỏ trên mô hình 12B cho thấy mỗi thành phần đều cần thiết. Độ chính xác cao có chọn lọc: Các lớp tuyến tính trong hai khối đầu tiên và tám khối cuối cùng trong số 62 khối (khoảng 16% tổng số lớp tuyến tính) được giữ ở BF16. Các nghiên cứu cắt bỏ chỉ ra rằng các khối cuối cùng là những khối nhạy cảm vì chúng yêu cầu dải động lớn hơn so với FP4 cung cấp; việc chỉ giữ bốn khối cuối cùng ở BF16 cũng đủ để hội tụ ổn định. Biến đổi Hadamard ngẫu nhiên (RHT): Các giá trị ngoại lai trong độ dốc trọng số được trải rộng thành phân bố xấp xỉ Gaussian bằng cách nhân các ô đầu vào với ma trận Hadamard 16×16 kết hợp với một vectơ dấu ±1 ngẫu nhiên. Do các biến đổi trực giao triệt tiêu bên trong tích vô hướng, không cần hiệu chỉnh toán học trong GEMM. Kích thước d=16 được chọn theo kinh nghiệm: d=4 làm giảm khả năng hội tụ, d=128 cho kết quả tương tự. RHT chỉ được áp dụng cho đầu vào của GEMM độ dốc trọng số (Wgrad) và một vectơ dấu ngẫu nhiên duy nhất được chia sẻ trên tất cả các lớp tuyến tính. Bản thân việc ngẫu nhiên hóa không có tác dụng ở quy mô 1,2 tỷ nhưng đã cải thiện đáng kể quá trình chạy 12 tỷ. Phân chia khối hai chiều (2D) cho trọng số: NVFP4 tiêu chuẩn chia các khối 1×16 dọc theo chiều tích vô hướng. Do quá trình truyền ngược chuyển vị tensor trọng số, quá trình truyền xuôi và truyền ngược cuối cùng có các trọng số lượng tử hóa khác nhau, phá vỡ quy tắc chuỗi. Giải pháp của NVIDIA là chia trọng số thành các khối 16×16 để cùng một biểu diễn lượng tử hóa được sử dụng trong cả hai quá trình. Các kích hoạt và độ dốc vẫn giữ tỷ lệ 1×16, vì chúng ít nhạy cảm với sự không nhất quán này. Làm tròn ngẫu nhiên trên độ dốc: Làm tròn đến số chẵn gần nhất gây ra sai lệch hệ thống khi áp dụng cho các tensor độ dốc. Làm tròn ngẫu nhiên làm tròn theo xác suất dựa trên khoảng cách đến hai giá trị có thể biểu diễn gần nhất, loại bỏ sai lệch đó. Nhóm nghiên cứu đặc biệt lưu ý trong bài báo nghiên cứu rằng làm tròn ngẫu nhiên có hại khi áp dụng cho các tensor truyền xuôi, vì vậy nó được giới hạn trong các độ dốc. Kết quả trên Hybrid Mamba-Transformer 12B Mô hình 12B sử dụng kiến trúc Nemotron-Nano-12B-v2-Base — 62 khối (6 Tự chú ý, 28 FFN, 28 Mamba-2), chiều ẩn 5120, chiều FFN 20480 — được huấn luyện với lịch trình Warmup-Stable-Decay (tốc độ học không đổi trong 80% quá trình huấn luyện, giảm dần trong 20% cuối), kích thước lô 736, độ dài chuỗi 8192. Đường cơ sở tham chiếu FP8 tuân theo phương pháp DeepSeek-V3: các phần tử E4M3, các khối trọng số 128×128, các khối kích hoạt và độ dốc 1×128, với khối đầu tiên và hai khối cuối cùng được giữ ở BF16. Mất mát xác thực NVFP4 duy trì trong vòng 1% so với đường cơ sở FP8 trong giai đoạn ổn định và mở rộng lên hơn 1,5% trong giai đoạn suy giảm. Độ chính xác hạ nguồn tương đương trên hầu hết các điểm chuẩn: MMLU 76,57% so với 77,36%, GSM8K CoT 92,27% so với 89,08%, MATH 81,48% so với 83,32%, AGIEval English CoT 70,31% so với 67,01%. Mã hóa cho thấy khoảng cách lớn nhất — HumanEval+ 57,43% so với 59,93%, MBPP+ 55,91% so với 59,11% — mà nhóm nghiên cứu một phần quy cho việc đánh giá điểm kiểm tra cuối cùng bị nhiễu. Nhóm nghiên cứu cũng ghi nhận một

NVIDIA giới thiệu phương pháp huấn luyện trước 4-bit sử dụng NVFP4, đã được xác thực trên mô hình Mamba-Transformer lai 12B với 10T token.