Các khối xây dựng để đào tạo và suy luận mô hình nền tảng trên…

Quay lại bài viết Các khối xây dựng để đào tạo và suy luận mô hình nền tảng trên AWS Bài viết doanh nghiệp đã xuất bản Ngày 11 tháng 5 năm 2026 Ủng hộ 20 +14 Keita Watanabe KeitaWatanabe Theo dõi amazon Pavel Belevich pbelevich Theo dõi amazon Aman Shanbhag amanshanbhag Theo dõi amazon Cơ sở hạ tầng khối xây dựng AWS: Điện toán, mạng và lưu trữ Điều phối tài nguyên: Slurm và Kubernetes Ngăn xếp phần mềm ML Khả năng quan sát Kết luận tác giả Trong một thời gian dài, việc "mở rộng quy mô" trong các mô hình nền tảng chủ yếu có nghĩa là: dành nhiều điện toán hơn cho việc đào tạo trước và nâng cao năng lực. Trực giác đó được hỗ trợ bởi công việc thực nghiệm như Kaplan et al. (2020), đã báo cáo xu hướng tổn thất theo quy luật lũy thừa có thể dự đoán được khi bạn mở rộng các tham số mô hình, kích thước tập dữ liệu và tính toán đào tạo. Trên thực tế, những xu hướng này biện minh cho sự đầu tư bền vững vào công suất máy gia tốc quy mô lớn và cơ sở hạ tầng phân tán xung quanh cần thiết để duy trì sử dụng hiệu quả. Nhưng ranh giới đã phát triển—và việc mở rộng quy mô không còn là một đường cong đơn lẻ nữa. Khung "quy luật chia tỷ lệ từ một đến ba" của NVIDIA nhấn mạnh một cách hữu ích rằng, ngoài đào tạo trước, hiệu suất ngày càng tăng quy mô thông qua đào tạo sau (ví dụ: các phương pháp dựa trên tinh chỉnh có giám sát (SFT) và học tăng cường (RL)) và thông qua tính toán trong thời gian thử nghiệm ("suy nghĩ lâu", tìm kiếm/xác minh, chiến lược nhiều mẫu). Hình: Chuyển thể từ "Ba quy luật mở rộng của AI, được giải thích" (Blog NVIDIA). Kết hợp lại với nhau, các chế độ mở rộng quy mô này thúc đẩy vòng đời của mô hình nền tảng—đào tạo trước, sau đào tạo và suy luận—hướng tới các yêu cầu cơ sở hạ tầng hội tụ: điện toán tăng tốc được kết hợp chặt chẽ, mạng có độ trễ thấp băng thông cao và phụ trợ lưu trữ phân tán. Họ cũng nâng cao tầm quan trọng của việc phối hợp quản lý tài nguyên cũng như khả năng quan sát ở cấp độ ứng dụng và phần cứng để duy trì tình trạng của cụm và chẩn đoán các bệnh lý về hiệu suất trên quy mô lớn. Một xu hướng quan trọng khác là sự phụ thuộc ngày càng tăng của vòng đời mô hình nền tảng vào hệ sinh thái phần mềm nguồn mở (OSS), bao gồm các khung phát triển mô hình, quản lý tài nguyên cụm và công cụ vận hành. Ở lớp cụm, việc quản lý tài nguyên thường được cung cấp bởi các hệ thống như Slurm và Kubernetes. Việc phát triển mô hình và đào tạo phân tán thường được triển khai trong các khuôn khổ như PyTorch và JAX. Giám sát và trực quan hóa—tức là khả năng quan sát—thường đạt được bằng cách sử dụng Prometheus để thu thập số liệu và Grafana để trực quan hóa và cảnh báo, được định vị là lớp vận hành trên cơ sở hạ tầng và quản lý tài nguyên. Hình 1 minh họa kiến trúc phân lớp này, cho thấy cách cơ sở hạ tầng phần cứng hỗ trợ điều phối tài nguyên, từ đó kích hoạt các khung ML, với khả năng quan sát trải rộng trên tất cả các lớp. Hình 1: Kiến trúc phân lớp của ngăn xếp phần mềm nguồn mở để đào tạo và suy luận mô hình nền tảng Bài đăng này dành cho các kỹ sư và nhà nghiên cứu máy học tham gia vào quá trình đào tạo và suy luận mô hình nền tảng, đặc biệt chú ý đến các quy trình làm việc được xây dựng trên các khung OSS. Nó phân tích cách cơ sở hạ tầng AWS—bao gồm điện toán tăng tốc đa nút, kết nối mạng có độ trễ thấp băng thông cao, bộ nhớ chia sẻ phân tán và các dịch vụ được quản lý liên quan—tương tác với các ngăn xếp OSS chung trong suốt vòng đời của mô hình nền tảng. Mục tiêu chính là cung cấp nền tảng kỹ thuật để hiểu các điểm nghẽn của hệ thống và các đặc điểm mở rộng quy mô bao gồm đào tạo trước, sau đào tạo và suy luận. Bài viết giới thiệu này trình bày kiến trúc hệ thống tổng thể, nhấn mạnh các điểm tích hợp giữa các thành phần cơ sở hạ tầng AWS và các công cụ OSS làm nền tảng cho việc đào tạo và suy luận phân tán quy mô lớn. Khối xây dựng AWS Phần còn lại của loạt bài này xem xét cách triển khai kiến trúc phân lớp này trên AWS, tiến triển thông qua cơ sở hạ tầng, điều phối tài nguyên, ngăn xếp phần mềm ML và khả năng quan sát. Các phần sau đây xem trước từng lớp. Cơ sở hạ tầng: Điện toán, Mạng và Lưu trữ Như minh họa trong Hình 1, cơ sở hạ tầng được cố định bởi ba khối xây dựng kết hợp—điện toán tăng tốc với bộ nhớ thiết bị lớn, kết nối băng thông rộng để liên lạc tập thể và bộ lưu trữ phân tán có thể mở rộng cho dữ liệu và điểm kiểm tra. Điện toán tăng tốc tạo thành nền tảng của quá trình đào tạo trước, sau đào tạo và suy luận mô hình nền tảng quy mô lớn. AWS cung cấp nhiều thế hệ GPU NVIDIA như một phần của phiên bản điện toán tăng tốc Amazon EC2, bao gồm cả dòng phiên bản Amazon EC2 P. Dòng phiên bản P5 bao gồm p5.48xlarge với tám GPU NVIDIA H100, p5.4xlarge với một GPU H100 duy nhất cho khối lượng công việc quy mô nhỏ hơn và các biến thể p5e.48xlarge/p5en.48xlarge với GPU NVIDIA H200. Dòng phiên bản P6 giới thiệu kiến trúc NVIDIA Blackwell B200 với p6-b200.48xlarge và Blackwell Ultra B300 với p6-b300.48xlarge. Trong các thế hệ này, các trục chia tỷ lệ chiếm ưu thế là thông lượng Tensor cao nhất, dung lượng và băng thông HBM cũng như băng thông kết nối (trong và trên các nút). Dưới dạng xấp xỉ bậc một, thông lượng Tensor Core cao nhất—được đo bằng các phép toán dấu phẩy động mỗi giây (FLOPS)—giúp đặt các máy gia tốc này trên một trục chung. Bảng dưới đây tóm tắt thông lượng tối đa trên mỗi GPU cho các hoạt động Tensor BF16/FP16 và FP8 dày đặc, cùng với dung lượng HBM và băng thông HBM, sử dụng thông số kỹ thuật lớp SXM/HGX phù hợp với các nút đa GPU dựa trên NVSwitch/NVLink. GPU (biến thể đại diện) Đỉnh Tensor BF16/FP16 (dày đặc) Đỉnh Tensor FP8 (dày đặc) Đỉnh Tensor FP4 (dày đặc) công suất HBM băng thông HBM H100 (SXM) 0,9895 PFLOPS 1,979 PFLOPS — 80GB HBM3 3,35 TB/giây H200 (SXM) 0,9895 PFLOPS 1,979 PFLOPS — 141GB HBM3e 4,8 TB/giây B200 (HGX, mỗi GPU) 2,25 PFLOPS 4.5 PFLOPS 9 PFLOPS 180GB HBM3e 8 TB/giây B300 (HGX, mỗi GPU) 2,25 PFLOPS 4.5 PFLOPS 13,5 PFLOPS 288GB HBM3e 8 TB/giây Lưu ý: Các bảng sản phẩm NVIDIA thường báo cáo thông lượng Tensor “có độ thưa thớt”; cái bàn này lại