Suy luận AI tác nhân (Agentic AI inference) với chi phí trên mỗi token giảm 10 lần nhờ NVIDIA Vera Rubin NVL72. Các môi trường thử nghiệm tác nhân (Agent sandboxes) chạy nhanh hơn 50% trên NVIDIA Vera so với CPU truyền thống – trong khi các truy vấn dữ liệu doanh nghiệp nhanh hơn tới 3 lần với CPU Vera. Và 5.000 doanh nghiệp như Lilly, Samsung và Honeywell đang triển khai các tác vụ AI trên Dell AI Factories với NVIDIA, biến tham vọng thành sản xuất ở quy mô lớn.
Đó là bức tranh mà Michael Dell đã phác họa vào sáng thứ Hai tại Dell Technologies World. Dell đã đánh giá mức độ quan trọng: chi tiêu cho hạ tầng AI toàn cầu có thể đạt 3-4 nghìn tỷ USD vào năm 2030, với mức tiêu thụ token dự kiến sẽ tăng.
Suy luận AI tác nhân (Agentic AI inference) với chi phí trên mỗi token giảm 10 lần nhờ NVIDIA Vera Rubin NVL72. Các môi trường thử nghiệm tác nhân (Agent sandboxes) chạy nhanh hơn 50% trên NVIDIA Vera so với CPU truyền thống – trong khi các truy vấn dữ liệu doanh nghiệp nhanh hơn tới 3 lần với CPU Vera. Và 5.000 doanh nghiệp như Lilly, Samsung và Honeywell đang triển khai các tác vụ AI trên Dell AI Factories với NVIDIA, biến tham vọng thành sản xuất quy mô lớn.
Đó là bức tranh mà ông Michael Dell đã phác họa vào sáng thứ Hai tại Dell Technologies World. Ông Dell đã đánh giá mức độ quan trọng: chi tiêu cho hạ tầng AI toàn cầu có thể đạt 3-4 nghìn tỷ USD vào năm 2030, với mức tiêu thụ token dự kiến tăng 3.400% trong cùng khoảng thời gian.
Ông Dell cho biết: “Đang có một làn sóng đầu tư AI khổng lồ đã và đang diễn ra, và một làn sóng năng suất đang bắt đầu, và ở một số công ty, bao gồm cả công ty của chúng tôi. Tốc độ thay đổi đã trở nên phi mã, và nó không hề chậm lại”.
Sau đó, Chủ tịch kiêm Giám đốc điều hành Dell đã chào đón người sáng lập và Giám đốc điều hành NVIDIA, ông Jensen Huang, lên sân khấu chính – với một cái nhìn về danh mục sản phẩm NVIDIA phía sau ông, từ máy trạm Dell Pro Max với GB10 đặt cạnh bàn làm việc đến Dell PowerRack với NVIDIA Vera Rubin NVL72.
Ông Huang nói: “Chúng ta đã bước vào kỷ nguyên AI hữu ích, đó là lý do tại sao nhu cầu đang tăng phi mã, hoàn toàn phi mã. Những gì mất hàng tháng giờ chỉ mất vài tuần. Những gì mất vài tuần giờ chỉ mất vài ngày. Và những gì mất vài ngày giờ chỉ mất vài giờ. Đó là một bước tiến lớn về năng suất, nhưng là một bước nhảy vọt khổng lồ về yêu cầu tính toán”.
Thông điệp: AI doanh nghiệp đã vượt qua giai đoạn thử nghiệm để đi vào triển khai AI tác nhân và suy luận quy mô lớn. Nền tảng cho những gì tiếp theo là Dell AI Factory với NVIDIA – chạy các mô hình tiên tiến và tác nhân tự động một cách an toàn phía sau tường lửa doanh nghiệp.
Một Nhà máy AI mới cho Kỷ nguyên Tác nhân
Tin tức về điện toán tăng tốc dẫn đầu sự đổi mới: Dell PowerEdge XE9812, được xây dựng trên NVIDIA Vera Rubin NVL72, mang lại chi phí trên mỗi token thấp hơn tới 10 lần so với Blackwell cho suy luận AI tác nhân quy mô lớn.
Cùng với đó là các máy chủ PowerEdge XE9880L, XE9885L và XE9882L – các hệ thống Dell đầu tiên được xây dựng trên NVIDIA HGX Rubin NVL8, hỗ trợ tới 144 GPU trên mỗi giá đỡ với các nút tính toán làm mát bằng chất lỏng trực tiếp 100% và hiệu suất cao hơn tới 5,5 lần so với HGX B200.
Ngoài ra, mạng lưới có danh mục Dell PowerSwitch mới với NVIDIA Quantum-X800 InfiniBand, có tính năng quang học đồng đóng gói làm mát bằng chất lỏng và NVIDIA Spectrum-6 Ethernet.
Dell cũng giới thiệu Dell PowerRack, một hệ thống tích hợp hoàn chỉnh – tính toán, mạng và lưu trữ được thiết kế như một thể thống nhất – với thiết kế tản nhiệt, quản lý điện năng và tối ưu hóa phần mềm được xây dựng để hoạt động cùng nhau ngay từ đầu. Kết quả là các tác vụ AI và HPC được tăng tốc ở quy mô doanh nghiệp, mà không cần chi phí tích hợp của việc lắp ráp các thành phần.
Về phía CPU, các máy chủ Dell PowerEdge M9822 và R9822 mang CPU NVIDIA Vera đến nhà máy AI doanh nghiệp. Được xây dựng chuyên biệt cho AI tác nhân, Vera chạy các đường ống dữ liệu, phân tích, công cụ hộp cát (sandboxed tools) và các tác vụ mã hóa mà mỗi bước đều phải chờ bước trước đó.
Với băng thông bộ nhớ 1,2 TB/s và hiệu suất ổn định dưới tải, Vera hoàn thành các tác vụ tác nhân nhanh hơn 50% so với bộ xử lý x86, giúp các hệ thống PowerEdge tăng sản lượng nhà máy AI với phản hồi tác nhân nhanh hơn và vòng lặp phản hồi ngắn hơn.
Ông Huang cho biết: “Vera CPU có hiệu năng đơn luồng cao nhất trong số tất cả các CPU trên thế giới. Nó có băng thông bộ nhớ gấp ba lần – do đó, Starburst, DuckDB, tất cả các cơ sở dữ liệu này chạy cực kỳ nhanh, bởi vì các tác nhân đang tác động mạnh vào cơ sở dữ liệu, nên CPU cần phải siêu nhanh”.
Starburst, một công cụ dữ liệu mới trong Nền tảng dữ liệu AI của Dell với NVIDIA, mang lại thông lượng truy vấn nhanh hơn 3 lần trên NVIDIA Vera CPU cho các phân tích SQL quy mô lớn.
Dữ liệu doanh nghiệp cung cấp nhiên liệu cho nhà máy AI. Bản cập nhật của Dell cho Nền tảng dữ liệu AI của họ với NVIDIA tập trung vào các công cụ dữ liệu được tăng tốc được xây dựng trên thư viện NVIDIA CUDA-X – bao gồm cuDF cho dữ liệu có cấu trúc và cuVS cho dữ liệu phi cấu trúc.
Nhiều khách hàng của Dell AI Factory với NVIDIA đã được giới thiệu trong bài phát biểu chính.
Ông Diogo Rau, Phó Chủ tịch điều hành và Giám đốc thông tin và kỹ thuật số của Lilly, đã tham gia ngay từ đầu bài phát biểu chính – thảo luận về những tiến bộ và đổi mới do AI điều khiển của Lilly trong khoa học đời sống, được hỗ trợ bởi cơ sở hạ tầng AI được triển khai ở quy mô lớn với Dell và NVIDIA.
Ông mô tả công nghệ là chìa khóa để mang lại khoa học tiên tiến, ở quy mô lớn. Ông Rau nói: “Tôi nghĩ chúng ta đang trên bờ vực có thể chấm dứt bệnh tật như chúng ta biết. Một điều như vậy hoàn toàn không thể tưởng tượng được 20 năm trước, nhưng ngày nay chúng ta có thể hình dung ra nó”.
Một video từ Samsung sau đó đã được trình chiếu – nêu bật các trường hợp sử dụng cho thiết kế và sản xuất chip R&D chạy trên Dell AI Factory với NVIDIA.
Giám đốc công nghệ của Honeywell, ông Suresh Venkatarayalu, đã cùng ông Michael Dell trình bày về việc công ty chuyển từ đám mây công cộng sang AI tại chỗ – sử dụng Dell AI Factory và Dell AI Data Platform với NVIDIA cho các trường hợp sử dụng AI công nghiệp, bản sao kỹ thuật số và tự động hóa từ trung tâm dữ liệu đến biên.
Ông Venkatarayalu cho biết: “Đối với tôi, việc hợp tác với Dell và NVIDIA không chỉ là về việc có được cơ sở hạ tầng”. Ông giải thích, đó là toàn bộ ngăn xếp AI: có thể mở rộng, được bảo mật và được khách hàng tin cậy.
Và trong lĩnh vực dịch vụ tài chính, Hudson River Trading, công ty giao dịch thuật toán, đang mở rộng triển khai Dell của mình để cung cấp năng lượng cho nghiên cứu do AI điều khiển – chạy máy chủ Dell PowerEdge XE9685L với điện toán tăng tốc NVIDIA và NVIDIA Spectrum-X Ethernet để mở rộng quy mô với dữ liệu, mô hình và tham vọng của công ty.
Các tác nhân và mô hình tại chỗ – một cách an toàn
Khảo sát về việc áp dụng AI của Dell, được trích dẫn từ sân khấu chính, cho thấy 67% khối lượng công việc AI hiện đang chạy bên ngoài đám mây – tại chỗ, trên thiết bị, ở biên hoặc trong trung tâm dữ liệu đồng vị trí – và 88% số người được hỏi đang chạy ít nhất một khối lượng công việc AI tại chỗ.
Các thông báo về AI tại chỗ đã trả lời trực tiếp một câu hỏi mà Dell đặt ra cho khán phòng: “Làm thế nào để bạn triển khai các mô hình AI tốt nhất thế giới ở nơi bạn cần, với bảo mật và quản trị được tích hợp sẵn?”
Câu trả lời nằm ở NVIDIA Conf
Nguồn tin: NVIDIA AI Blog — Tác giả: NVIDIA Writers. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.