NVIDIA đã phát hành miễn phí một mô hình AI 550B. Một công ty…

Nemotron 3 Ultra là mô hình mã nguồn mở mạnh nhất do một phòng thí nghiệm của Mỹ phát hành. Người dùng có thể tải xuống toàn bộ mô hình, bao gồm trọng số, dữ liệu huấn luyện và công thức. Điều này đặt ra một câu hỏi rõ ràng: Tại sao công ty bán chip lại cung cấp miễn phí phần mềm chạy trên chúng? Câu trả lời sẽ làm sáng tỏ cách thức cuộc đua AI thực sự diễn ra. Ngày 4/6, NVIDIA đã phát hành Nemotron 3 Ultra, một mô hình ngôn ngữ với 550 tỷ tham số, và thực hiện một điều vẫn khiến nhiều người ngạc nhiên khi lần đầu nghe đến: họ đã cung cấp miễn phí toàn bộ mô hình. Không phải là một API (giao diện lập trình ứng dụng) mà người dùng phải thuê, mà là trọng số mô hình thực tế, dữ liệu huấn luyện và các công thức.

Nemotron 3 Ultra là mô hình mã nguồn mở mạnh nhất do một phòng thí nghiệm của Mỹ phát hành, và người dùng có thể tải xuống toàn bộ: trọng số, dữ liệu huấn luyện, công thức. Điều này đặt ra một câu hỏi hiển nhiên. Tại sao công ty bán chip lại cung cấp miễn phí phần mềm chạy trên chúng? Câu trả lời giải thích nhiều điều về cách cuộc đua AI thực sự diễn ra. Ngày 4/6, NVIDIA đã phát hành Nemotron 3 Ultra, một mô hình ngôn ngữ với 550 tỷ tham số, và thực hiện một điều vẫn khiến nhiều người ngạc nhiên khi lần đầu nghe đến: cung cấp toàn bộ miễn phí. Không phải là một API (giao diện lập trình ứng dụng) mà người dùng phải thuê. Mà là trọng số mô hình thực tế, dữ liệu huấn luyện và các công thức được sử dụng để xây dựng nó, tất cả đều được công bố công khai theo giấy phép cho phép sử dụng thương mại, tinh chỉnh và tự chạy. Điều này đặt ra hai câu hỏi hợp lý, và bài viết này sẽ trả lời cả hai. Thứ nhất, thực chất đây là gì, và nó có tốt không? Thứ hai, và thú vị hơn, tại sao NVIDIA, một công ty kiếm tiền từ việc bán chip, lại dành nguồn lực khổng lồ để xây dựng một mô hình tiên tiến và sau đó cung cấp miễn phí? Câu hỏi đầu tiên sẽ đi sâu vào một số kỹ thuật thực sự thông minh. Câu hỏi thứ hai sẽ cho thấy một điều thực tế về chiến lược đằng sau toàn bộ sự bùng nổ của AI. **Nemotron 3 Ultra thực chất là gì** Bắt đầu với những điều cơ bản, sau đó là những phần làm cho nó trở nên thú vị. Nemotron 3 Ultra là mô hình lớn nhất và mạnh nhất trong dòng Nemotron 3 của NVIDIA, bao gồm cả mô hình Nano nhỏ và mô hình Super cỡ trung khoảng 100 tỷ tham số. Ultra được xây dựng đặc biệt cho công việc tác nhân (agentic work), tức là các tác vụ dài hạn, nhiều bước, nơi mô hình phải suy luận, sử dụng công cụ và tiếp tục hoạt động qua nhiều lượt, thay vì chỉ trả lời một câu hỏi duy nhất. Trọng tâm này định hình mọi khía cạnh trong thiết kế của nó. Con số nổi bật, 550 tỷ tham số, đi kèm với một dấu hoa thị quan trọng, và dấu hoa thị này là điểm thông minh đầu tiên. Ultra là một mô hình Hỗn hợp các Chuyên gia (Mixture-of-Experts), có nghĩa là mặc dù nó chứa tổng cộng 550 tỷ tham số, nhưng chỉ khoảng 55 tỷ trong số đó hoạt động cho bất kỳ token (đơn vị thông tin) nào. Mô hình định tuyến mỗi phần đầu vào thông qua một tập hợp con nhỏ các mạng "chuyên gia" chuyên biệt thay vì kích hoạt tất cả 550 tỷ mỗi lần. Tỷ lệ thưa thớt (sparsity ratio) xấp xỉ mười trên một, vì vậy khoảng 90% mô hình nằm im trong bất kỳ lần chạy nào. Lợi ích là rất lớn: người dùng có được chất lượng từ một mô hình khổng lồ, với một phần nhỏ chi phí tính toán mà một mô hình 550 tỷ tham số dày đặc sẽ đòi hỏi, vốn sẽ cần gấp khoảng mười lần chi phí tính toán cho mỗi lần gọi. Đối với các hệ thống tác nhân nơi nhiều cuộc gọi diễn ra liên tục, hiệu quả đó là sự khác biệt giữa khả thi và không thể chi trả. Có nhiều điều đáng biết hơn bên trong về mặt kỹ thuật. Kiến trúc là một kiến trúc lai, kết hợp các lớp Mamba, một giải pháp thay thế hiệu quả cho cơ chế chú ý Transformer tiêu chuẩn, xử lý các ngữ cảnh dài với chi phí thấp, với các lớp chú ý và định tuyến chuyên gia. Nó sử dụng một thứ gọi là dự đoán đa token (multi-token prediction), nơi mô hình được huấn luyện để đoán nhiều token sắp tới cùng một lúc thay vì từng cái một, đây là một phần cách nó đạt tốc độ đầu ra hơn 300 token mỗi giây. Và nó được huấn luyện bằng NVFP4, định dạng số bốn bit riêng của NVIDIA có sẵn trên các chip Blackwell mới nhất của hãng, giúp giảm đáng kể dung lượng bộ nhớ trong khi vẫn giữ nguyên độ chính xác. Kết quả thông lượng mà NVIDIA báo cáo là điểm bán hàng thực sự: tốc độ suy luận nhanh hơn khoảng sáu lần so với các mô hình mã nguồn mở tương đương với độ chính xác tương tự. Nó cũng có cửa sổ ngữ cảnh một triệu token và đáng chú ý là đạt điểm cao nhất không phải là -điểm gây ảo giác (hallucination score) thấp nhất trong bộ so sánh, nghĩa là mô hình này ít tạo ra thông tin sai lệch hơn so với các mô hình cùng loại. Tóm lại: đây là một mô hình mở lớn, nhanh, hiệu quả, tập trung vào tác nhân (agent-focused), và kỹ thuật thực sự mạnh mẽ. Điều này làm cho phần tiếp theo trở nên thú vị hơn, chứ không phải kém thú vị hơn. Đây là mô hình mở tốt nhất từ một phòng thí nghiệm của Mỹ, và nó vẫn còn kém Trung Quốc Đây là cách nhìn nhận trung thực mà sự nhiệt tình trong ngày ra mắt thường làm lu mờ. Theo chỉ số độc lập được trích dẫn nhiều nhất, Chỉ số Trí tuệ Phân tích Nhân tạo (Artificial Analysis Intelligence Index), Nemotron 3 Ultra đạt khoảng 48 điểm, và đó là điểm số cao nhất mà bất kỳ mô hình mã nguồn mở nào từ một phòng thí nghiệm của Mỹ đạt được. Nó vượt xa các đối thủ mã nguồn mở trước đây của Mỹ: Gemma 4 của Google với khoảng 39 điểm, Super cỡ trung của NVIDIA với 36 điểm, và mô hình mã nguồn mở của OpenAI với khoảng 33 điểm. Vì vậy, xét riêng về các mô hình mã nguồn mở của Mỹ, đây là một cột mốc thực sự. Nó là người dẫn đầu mới. Nhưng nếu mở rộng phạm vi, bức tranh sẽ trở nên đáng suy nghĩ hơn. Mô hình mã nguồn mở tốt nhất của Trung Quốc, Kimi K2.6 từ Moonshot AI, đạt khoảng 54 điểm trên cùng chỉ số, vượt xa Ultra một cách thoải mái, và mô hình mã nguồn mở tiên tiến của DeepSeek cũng vượt trội hơn. Vì vậy, mô hình mã nguồn mở mạnh nhất mà Mỹ vừa sản xuất vẫn còn kém các mô hình mã nguồn mở tốt nhất đến từ Trung Quốc. Và so với các mô hình độc quyền hàng đầu, từ Anthropic, Google và OpenAI, vốn tập trung quanh mức 57 điểm, Ultra cũng kém vài điểm. Đây là bối cảnh thực sự quan trọng. Có một cuộc đua thực sự trong lĩnh vực AI mã nguồn mở, và đó không phải là cuộc đua mà Mỹ đang giành chiến thắng. Trung Quốc đã liên tục cho ra mắt các mô hình mã nguồn mở mạnh mẽ với tốc độ nhanh, và Nemotron 3 Ultra, dù ấn tượng đến đâu, chỉ thu hẹp khoảng cách của Mỹ với các đối thủ trong nước mà không thu hẹp khoảng cách với biên giới mở toàn cầu. Câu chuyện về hiệu quả là nơi Ultra thực sự dẫn đầu, nó được xây dựng để chạy nhanh hơn và rẻ hơn so với các mô hình của Trung Quốc, điều này rất quan trọng đối với việc triển khai thực tế, nhưng về trí thông minh thô, nó đang theo đuổi, chứ không phải dẫn đầu. Bất cứ ai nói rằng Mỹ vừa giành lại vị trí dẫn đầu về mô hình mã nguồn mở đều đang bỏ qua sự so sánh phù hợp nhất. Vậy tại sao một công ty chip lại tặng một mô hình tiên tiến? Đây là câu hỏi khiến mọi người bối rối, và câu trả lời là điều làm sáng tỏ nhất trong toàn bộ câu chuyện này. NVIDIA không phải là một công ty mô hình AI theo cách mà OpenAI hay Anthropic là. NVIDIA là một công ty chip. Nó kiếm tiền, một lượng lớn tiền, bằng cách bán các GPU mà AI chạy trên đó. Một khi bạn ghi nhớ sự thật đó, việc tặng Nemotron không còn có vẻ lạ lùng mà bắt đầu trở nên hiển nhiên. Logic rất đơn giản. Hoạt động kinh doanh của NVIDIA phát triển

NVIDIA đã phát hành miễn phí một mô hình AI 550B. Một công ty sản xuất chip không làm điều đó một cách ngẫu nhiên.