
NVIDIA giới thiệu SANA-WM: Mô hình thế giới nguồn mở tham số 2,6B tạo ra video 720p ở tỷ lệ phút trên một GPU
Các mô hình thế giới (hệ thống tổng hợp các chuỗi video thực tế từ hình ảnh ban đầu và một tập hợp hành động) đang trở thành trọng tâm trong nghiên cứu AI, mô phỏng và robot. Thách thức cốt lõi là mở rộng quy mô các hệ thống này để tạo ra video có độ phân giải cao, dài một phút mà không yêu cầu các cụm quá lớn cho cả quá trình đào tạo và suy luận. Hầu hết các đường cơ sở nguồn mở cạnh tranh đều yêu cầu suy luận đa GPU hoặc hy sinh độ phân giải để duy trì trong phạm vi ngân sách điện toán. SANA-WM của NVIDIA trực tiếp nhắm tới những nút thắt cổ chai này. Được xây dựng trên cơ sở mã SANA-Video và có sẵn thông qua
Các mô hình thế giới (hệ thống tổng hợp các chuỗi video thực tế từ hình ảnh ban đầu và một tập hợp hành động) đang trở thành trọng tâm trong nghiên cứu AI, mô phỏng và robot. Thách thức cốt lõi là mở rộng quy mô các hệ thống này để tạo ra video có độ phân giải cao, dài một phút mà không yêu cầu các cụm quá lớn cho cả quá trình đào tạo và suy luận. Hầu hết các đường cơ sở nguồn mở cạnh tranh đều yêu cầu suy luận đa GPU hoặc hy sinh độ phân giải để duy trì trong phạm vi ngân sách điện toán.
SANA-WM của NVIDIA trực tiếp nhắm tới những nút thắt cổ chai này. Được xây dựng trên cơ sở mã SANA-Video và có sẵn thông qua kho lưu trữ NVlabs/Sana GitHub, đây là Biến áp khuếch tán (DiT) tham số 2,6B được đào tạo nguyên bản để tạo một phút ở 720p với điều khiển camera 6-DoF theo hệ mét. Nó hỗ trợ ba biến thể suy luận GPU đơn: một trình tạo hai chiều để tổng hợp ngoại tuyến chất lượng cao, một trình tạo tự hồi quy theo nguyên nhân đoạn để triển khai tuần tự và một trình tạo tự hồi quy được chắt lọc vài bước để triển khai nhanh hơn. Biến thể chưng cất khử nhiễu một clip 720p dài 60 giây trong 34 giây trên một RTX 5090 duy nhất với lượng tử hóa NVFP4.
https://arxiv.org/pdf/2605.15178
Kiến trúc: Bốn quyết định thiết kế cốt lõi
1. Chú ý tuyến tính kết hợp với DeltaNet có kiểm soát (GDN)
Chú ý softmax tiêu chuẩn có độ phức tạp về bộ nhớ và tính toán tăng theo bậc hai với độ dài chuỗi — một vấn đề nghiêm trọng khi tạo 961 khung hình tiềm ẩn cho video 60 giây ở 720p. SANA-Video, phiên bản tiền nhiệm, đã sử dụng sự chú ý tuyến tính dựa trên ReLU tích lũy, duy trì trạng thái lặp lại có kích thước không đổi. Tuy nhiên, điều này không có cơ chế phân rã: tất cả các khung hình trong quá khứ đều tích lũy với trọng lượng bằng nhau, gây ra sự trôi dạt theo các chuỗi quy mô phút.
SANA-WM thay thế hầu hết các khối chú ý bằng Gated DeltaNet (GDN) theo khung. Không giống như GDN theo mã thông báo được sử dụng trong các mô hình ngôn ngữ, biến thể theo khung của SANA-WM xử lý toàn bộ khung tiềm ẩn trên mỗi bước lặp lại. Quy tắc cập nhật GDN kết hợp cổng phân rã γ (làm giảm trọng số của các khung hình cũ trong quá khứ) và hiệu chỉnh quy tắc delta (chỉ cập nhật phần dư giữa giá trị mục tiêu và dự đoán trạng thái hiện tại), giữ trạng thái lặp lại ở kích thước D×D không đổi bất kể độ dài video.
Để ổn định quá trình đào tạo, nhóm nghiên cứu giới thiệu phương pháp chia tỷ lệ khóa đại số: các khóa được chia tỷ lệ theo 1/√(D·S), trong đó D là kích thước đầu và S là số lượng mã thông báo không gian trên mỗi khung. Điều này đảm bảo chuẩn phổ của ma trận chuyển tiếp vẫn bị giới hạn và loại bỏ các sự kiện phân kỳ NaN được quan sát bằng chuẩn hóa khóa L2 tiêu chuẩn (1/√D) hoặc không chia tỷ lệ, cả hai đều kích hoạt các sự kiện NaN ở bước 16 và 1, tương ứng.
Đường trục cuối cùng xen kẽ 15 khối GDN theo khung với 5 khối chú ý softmax (ở các lớp 3, 7, 11, 15 và 19) trên tổng số 20 khối biến áp. Các khối softmax cung cấp khả năng thu hồi tầm xa chính xác trong đó chỉ tính tái phát của GDN là không đủ.
2. Điều khiển camera hai nhánh
Việc lập mô hình thế giới do máy ảnh điều khiển yêu cầu mô hình phải tuân theo một cách trung thực quỹ đạo 6-DoF liên tục, chứ không chỉ căn chỉnh với mô tả văn bản về chuyển động. SANA-WM sử dụng hai nhánh bổ sung hoạt động ở các tốc độ thời gian khác nhau:
Nhánh thô (Chú ý UCPE): Hoạt động ở tốc độ khung hình tiềm ẩn. Đối với mỗi mã thông báo tiềm ẩn, nó tính toán cơ sở tia cục bộ của máy ảnh từ tư thế và nội tại của máy ảnh đến thế giới, sau đó áp dụng Mã hóa vị trí máy ảnh thống nhất (UCPE) cho các kênh hình học của từng đầu chú ý. Điều này nắm bắt cấu trúc quỹ đạo toàn cầu trong toàn bộ chuỗi.
Nhánh mịn (Trộn Plücker): Giải quyết vấn đề nén không khớp. Mỗi mã thông báo tiềm ẩn tóm tắt tám khung hình thô, mỗi khung hình có tư thế máy ảnh riêng biệt. Nhánh tinh tế tính toán các bản đồ tia Plücker theo pixel (biểu diễn 6D: hướng tia d và mô men o×d) từ tất cả tám khung hình thô trong một bước thời gian VAE, gói chúng thành một tensor 48 kênh và đưa phần nhúng này sau mỗi đầu ra tự chú ý thông qua phép chiếu không được khởi tạo. Điều này khôi phục chuyển động của camera trong sải chân mà nhánh thô không thể nhìn thấy ở độ phân giải khung hình tiềm ẩn.
Ablations trên OmniWorld cho thấy rằng không riêng nhánh nào phù hợp với cách tiếp cận kép: chỉ UCPE đạt được Độ nhất quán chuyển động của máy ảnh (CamMC) là 0,2453, trong khi sự kết hợp UCPE + Plücker đạt 0,2047.
3. Đường ống thế hệ hai giai đoạn
Các đầu ra SANA-WM Giai đoạn 1, mặc dù nhất quán về mặt không gian và thời gian, nhưng có thể chứa các tạo phẩm cấu trúc trên các chuỗi dài. Bộ tinh chỉnh giai đoạn hai, được khởi tạo từ mẫu 17B LTX-2 với bộ điều hợp LoRA cấp 384 được tinh chỉnh trên dữ liệu video thực và tổng hợp được ghép nối, sẽ sửa các thành phần giả này. Nó sử dụng phương pháp khớp luồng-σ bị cắt ngắn: các giai đoạn tiềm ẩn ở giai đoạn 1 bị nhiễu loạn với tiếng ồn ban đầu lớn (σ_start = 0,9) và bộ tinh chỉnh học cách ánh xạ đầu vào nhiễu này tới mục tiêu có độ chính xác cao. Chỉ cần ba bước khử nhiễu Euler khi suy luận. Bộ tinh chỉnh giảm độ lệch hình ảnh theo chiều dài (ΔIQ) từ 3,79 xuống 1,17 ở phần phân chia Quỹ đạo đơn giản và từ 3,09 xuống 0,31 ở phần phân chia Quỹ đạo cứng.
4. Đường dẫn chú thích dữ liệu mạnh mẽ
Việc đào tạo tạo video do máy ảnh điều khiển yêu cầu chú thích tư thế 6-DoF theo tỷ lệ số liệu, thông tin không có sẵn trong bộ dữ liệu video tiêu chuẩn. Nhóm nghiên cứu đã sửa đổi VIPE (một công cụ chú thích tư thế máy ảnh) bằng cách thay thế phần phụ trợ độ sâu của nó bằng Pi3X (cho độ sâu nhất quán theo chuỗi dài) được hợp nhất với MoGe-2 (để có thang đo chính xác trên mỗi khung hình). Họ cũng mở rộng giai đoạn điều chỉnh gói để coi độ dài tiêu cự và điểm chính là các biến số trên mỗi khung hình thay vì nội dung chung được chia sẻ, cho phép chú thích mạnh mẽ hơn trên video trên Internet với các độ dài tiêu cự khác nhau.
Quy trình kết quả xử lý bảy mục nhập kho ngữ liệu đào tạo được rút ra từ nhiều nguồn nguồn mở: SpatialVID-HQ (clip thực, 10 giây), clip thực DL3DV (10 giây), clip tổng hợp tinh tế DL3DV GS (60 giây, được hiển thị qua 3D Gaussian Splatting), OmniWorld (tổng hợp, 60 giây), Sekai Game (tổng hợp, 60 giây), Sekai Walking-HQ (thực, 60 giây) và MiraData (thực tế, thập niên 60). Điều này mang lại tổng cộng 212.975 c


Nguồn tin: MarkTechPost — Tác giả: Asif Razzaq. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.