Máy chủ mới kỳ vọng phá vỡ "bức tường bộ nhớ" của AI

Bộ nhớ được cho là yếu tố hạn chế nghiêm trọng nhất đối với các mô hình ngôn ngữ lớn (LLM) hiện đại của trí tuệ nhân tạo (AI). Theo một bài báo có ảnh hưởng, việc tạo mã thông báo (token generation) của LLM là một tác vụ bị giới hạn bởi bộ nhớ (memory-bound task) một cách cố hữu, nghĩa là tốc độ mà các mô hình xuất văn bản bị giới hạn bởi tốc độ đọc dữ liệu từ bộ nhớ. Mức độ nghiêm trọng của nút thắt cổ chai này tăng lên theo kích thước mô hình. Điều này tạo ra một "bức tường bộ nhớ" (memory wall) cản trở hiệu suất suy luận của LLM. Majestic Labs, một công ty khởi nghiệp phần cứng AI, đang áp dụng một cách tiếp cận trực tiếp và toàn diện để giải quyết vấn đề này. Công ty đang phát triển một máy chủ AI mới, Prometheus, với bộ nhớ lên tới 128 terabyte.

Bộ nhớ được cho là yếu tố hạn chế nghiêm trọng nhất đối với các mô hình ngôn ngữ lớn (LLM) hiện đại của AI. Theo một bài báo có ảnh hưởng, việc tạo token của LLM là một tác vụ bị giới hạn bởi bộ nhớ, nghĩa là tốc độ các mô hình xuất văn bản bị giới hạn bởi tốc độ đọc dữ liệu từ bộ nhớ. Mức độ nghiêm trọng của nút thắt cổ chai này tăng lên theo kích thước mô hình. Điều này tạo ra một "bức tường bộ nhớ" cản trở hiệu suất suy luận của LLM. Công ty khởi nghiệp phần cứng AI Majestic Labs đang áp dụng một phương pháp trực tiếp và toàn diện để giải quyết vấn đề này. Công ty đang phát triển một máy chủ AI mới, Prometheus, với bộ nhớ lên tới 128 terabyte. Con số này cao hơn 60 lần so với máy chủ Nvidia DGX B300, một hệ thống xử lý AI tiên tiến. Ông Sha Rabii, đồng sáng lập và Chủ tịch của Majestic Labs, tin rằng việc tăng đáng kể dung lượng bộ nhớ này sẽ mang lại lợi thế cho công ty của ông. Mặc dù ông thừa nhận rằng “Nvidia đã làm rất tốt trong việc tạo ra một hệ thống có thể mở rộng”, ông lập luận rằng điều đó trở nên kém hiệu quả hơn khi các mô hình phát triển và “cuối cùng dẫn đến việc cung cấp quá nhiều tài nguyên tính toán và thiếu hụt bộ nhớ”. **Kiến trúc tập trung vào DRAM cho bộ nhớ LLM** Majestic Labs dự định vượt qua “bức tường bộ nhớ” bằng một kiến trúc khác biệt cơ bản so với các đối thủ cạnh tranh. Các máy chủ hiện tại của Nvidia có bộ nhớ băng thông cao (HBM) tốc độ nhanh, thường được sử dụng để đọc trọng số mô hình của LLM. Ngoài ra, còn có một nhóm bộ nhớ truy cập ngẫu nhiên động (DRAM) thường lớn hơn nhưng chậm hơn, xử lý LLM và các tác vụ chung của máy chủ. Majestic thay vào đó tập trung hoàn toàn vào DRAM (cụ thể là LPDDR6) trong một kiến trúc thống nhất. Ông Rabii cho biết hầu hết các giao diện bộ nhớ được thiết kế để hoạt động trong một khoảng cách vật lý ngắn – đôi khi chỉ vài milimet. Điều đó hạn chế lượng bộ nhớ có thể được đặt. “Bạn có một đường bờ tại chip tính toán nơi bạn có thể đặt HBM của mình. Nếu bạn muốn đặt thêm, bạn không thể,” ông Rabii giải thích. Để giải quyết vấn đề đó, Majestic sử dụng một giao diện bộ nhớ độc quyền được chế tạo từ các cáp đồng thu nhỏ có hiệu quả lên đến một mét. Điều này được kết hợp với các chip tổng hợp bộ nhớ tùy chỉnh nằm cạnh các mô-đun bộ nhớ và điều phối bộ nhớ trên toàn máy chủ. “Đó là một điểm cuối cho giao diện tốc độ cao đó và phân nhánh ra nhiều, nhiều chip DRAM thông thường,” ông Rabii giải thích. Ngoài việc giải quyết các nhóm bộ nhớ lớn, Majestic cho biết thiết kế này cung cấp băng thông bộ nhớ lên tới 25,6 terabyte mỗi giây. **Bộ xử lý AI Ignite để tăng tốc LLM** Nhiều bộ nhớ là tốt, nhưng nó cần được kết hợp với khả năng tăng tốc AI, một cái gì đó tương tự như GPU của Nvidia. Giải pháp của Majestic cho vấn đề này là Ignite, một đơn vị xử lý AI tùy chỉnh đóng vai trò là công cụ tính toán của máy chủ. Máy chủ Prometheus chứa 12 chip Ignite. Ignite kết hợp các lõi ứng dụng ARM cấp trung tâm dữ liệu với các lõi vector và tensor RISC-V trên một chip duy nhất, tất cả đều chia sẻ cùng một không gian bộ nhớ. Các lõi ARM hoạt động như một bộ xử lý chủ trên chip để điều phối mô hình AI. Các lõi RISC-V thực hiện quá trình xử lý LLM thực tế. Kết quả là một chip duy nhất xử lý nhiều khía cạnh của nhu cầu suy luận LLM mà không cần chuyển giao giữa các bộ xử lý. Majestic Labs vẫn chưa tiết lộ các số liệu cụ thể về hiệu suất tính toán của Prometheus. Ông Rabii thừa nhận rằng phần mềm cũng quan trọng, vì nhiều khung AI đã được thiết lập. “Chúng tôi đang cố gắng giảm thiểu ma sát càng nhiều càng tốt trong mọi khía cạnh của việc khách hàng chấp nhận sản phẩm của chúng tôi, cho dù đó là vật lý hay phần mềm,” ông nói. Prometheus sẽ hỗ trợ các khung suy luận PyTorch, vLLM và Triton của OpenAI mà không yêu cầu sửa đổi mã. Điều đó có nghĩa là các mô hình hiện có tương thích với các khung này có thể chạy nguyên trạng. **Thiết kế và giá cả của máy chủ Prometheus** Tất cả những điều này kết hợp trong chính máy chủ, được xây dựng theo yếu tố hình thức tuân thủ Open Compute Project rộng 21 inch và sâu 36 inch. Có thể lắp tối đa bốn máy chủ vào một giá máy chủ; mức tiêu thụ điện năng dự kiến lên tới 120 kilowatt mỗi giá; và nhiệt sẽ được quản lý. với hệ thống làm mát bằng chất lỏng cold-plate. Thiết kế bộ nhớ của máy chủ là dạng mô-đun, cho phép nâng cấp các máy chủ được mua với dung lượng bộ nhớ dưới mức tối đa 128 TB vào thời điểm sau. Mặc dù dự án có quy mô lớn, Majestic vẫn muốn định vị Prometheus về giá cả – điều này có thể gây bất ngờ khi xét đến dung lượng bộ nhớ mà mỗi máy chủ có thể chứa. Majestic lập luận rằng điều này sẽ khả thi vì họ sử dụng DRAM thay vì HBM. Giá cả vẫn chưa được công bố, do Prometheus dự kiến sẽ xuất xưởng vào năm 2027. Ông Rabii tuyên bố: “Chi phí vốn của khách hàng sẽ giảm từ 10 đến 50 lần, tùy thuộc vào khối lượng công việc, và mức tiêu thụ điện năng cũng giảm tương tự”.