LoongForge - Một khuôn khổ đào tạo hiệu suất cao cho các mô…

URL bài viết: https://github.com/baidu-baige/LoongForge URL bình luận: https://news.ycombinator.com/item?id=48297959 Điểm: 2 Bình luận: 0

Một khung huấn luyện mô-đun, có khả năng mở rộng, hiệu suất cao cho các mô hình LLM, VLM, khuếch tán và mô hình thực thể. 🚀 Tăng tốc độ huấn luyện lên tới 5,04 lần · 🌐 Hỗ trợ nguyên bản NVIDIA GPU & Kunlun XPU 💡 Tại sao chọn LoongForge? 🐉 LoongForge là một phần của chuỗi mã nguồn mở Loong của Baidu Baige — được đặt tên theo thuyền rồng (龙舟) truyền thống của Trung Quốc, một biểu tượng của sức mạnh phối hợp và động lực tiến lên. LoongForge là một khung huấn luyện thống nhất cho các mô hình LLM, VLM, VLA và khuếch tán, bao gồm tiền huấn luyện, tiền huấn luyện tiếp tục và SFT. Được xây dựng dựa trên Megatron-LM với những cải tiến sâu rộng về phạm vi mô hình, hiệu suất huấn luyện và hỗ trợ phần cứng, nó mang lại tốc độ tăng đáng kể so với các nền tảng mã nguồn mở chính thống. Trước khi trở thành mã nguồn mở, LoongForge được phát triển dưới dạng AIAK-Training-LLM, bộ tăng tốc huấn luyện của Baidu Baige. Nó đã hỗ trợ huấn luyện sản xuất cho các khách hàng doanh nghiệp trong lĩnh vực Giáo dục, Thị giác máy tính và AI thực thể, thường mang lại tốc độ tăng 30%~50% so với các nền tảng của khách hàng, với các lần chạy sản xuất lớn nhất đạt hơn 5.000 XPU. 🔥 Tin tức mới nhất [Tháng 5/2026] ⚡ Tăng tốc huấn luyện Wan 2.2 lên 116% và bổ sung hỗ trợ CP và đóng gói dữ liệu. [Tháng 5/2026] ✨ Bổ sung hỗ trợ huấn luyện cho Kimi K2.5 / K2.6 và giới thiệu INT4 / NVFP4 PTQ. [Tháng 5/2026] 🎉 v0.1.0 — bản phát hành chính thức đầu tiên của LoongForge. [Tháng 5/2026] 🌟 Cung cấp sức mạnh cho việc huấn luyện và phát hành công khai LLaVA-OneVision-2.0. [Tháng 5/2026] 🤖 Mở rộng phạm vi VLA với GR00T N1.6; tăng tốc hơn 60% khi huấn luyện Pi0.5 và GR00T. [Tháng 4/2026] 🧩 Bổ sung hỗ trợ huấn luyện cho MiniMax-M2.7 trên cả NVIDIA GPU và Kunlun XPU. [Tháng 4/2026] 🚀 Mã nguồn LoongForge được công khai trên GitHub. [blog] [Tháng 10/2025] 🌟 Cung cấp sức mạnh cho việc huấn luyện và phát hành công khai LLaVA-OneVision-1.5 dưới AIAK-Training-LLM, tiền thân của LoongForge. [blog] ⚡ Bắt đầu nhanh Xem tài liệu đầy đủ để cài đặt, hướng dẫn và sử dụng nâng cao — Tiếng Anh · Tiếng Trung. 1. Cài đặt — qua Docker (hình ảnh dựng sẵn sẽ sớm ra mắt) hoặc xây dựng từ mã nguồn: NVIDIA GPU: Hướng dẫn cài đặt Kunlun XPU: Hướng dẫn cài đặt 2. Chạy lần huấn luyện đầu tiên của bạn — làm theo hướng dẫn cho phần cứng và phương thức mục tiêu của bạn: NVIDIA GPU: LLM · VLM · VLA · Khuếch tán (WAN) Kunlun XPU: Hướng dẫn Kunlun XPU 3. Khám phá — duyệt configs/models/ và examples/ / examples_xpu/ để tìm các tập lệnh sẵn sàng chạy. ✨ Các tính năng chính 🧩 Thành phần đa phương thức linh hoạt — Lắp ráp VLM dựa trên cấu hình từ các thành phần ViT và LLM có thể hoán đổi. ⚡ Song song không đồng nhất — TP / DP / tính toán lại độc lập cho mỗi thành phần mô hình (ví dụ: ViT so với LLM) để đạt được thông lượng và bộ nhớ tối ưu. [blog] 🔀 Huấn luyện bộ mã hóa-giải mã tách rời — Tách ViT và LLM thành các tác vụ độc lập, loại bỏ các bong bóng đường ống do bộ mã hóa gây ra. ⚖️ Cân bằng tải DP — Phân phối lại dữ liệu nhận biết tải giúp giảm thiểu sự mất cân bằng đóng gói chuỗi, cải thiện hiệu quả mở rộng đa nút. [blog] 🚀 Tối ưu hóa gốc MoE — All2All / giải phóng kích hoạt / tính toán chồng chéo, với việc giảm bộ nhớ hơn nữa ngoài Megatron-LM thượng nguồn trên DeepSeek-V3, Qwen3-MoE, v.v. 🔬 Huấn luyện FP8 thích ứng — FP8 từ đầu đến cuối cho LLM và VLM với FP8 khối tiêu chuẩn; chế độ thích ứng tùy chọn chọn độ chính xác trên mỗi toán tử theo hình dạng và hiệu quả GEMM. 🔧 Các toán tử hợp nhất tùy chỉnh — Các nhân hợp nhất như FusedDSA cho các mô hình kiểu DSA — phiên bản TileLang mã nguồn mở, phiên bản CUDA hiệu suất cao có sẵn trên nền tảng Baidu Baige. 🔁 Kiểm tra linh hoạt — Chuyển đổi hai chiều ngoại tuyến Megatron ↔ HuggingFace cùng khả năng tải/lưu trực tuyến nguyên bản của HF — không rào cản định dạng trong toàn bộ quy trình làm việc. 🧰 Công cụ dữ liệu & quy trình đa năng — Huấn luyện trước (Pretrain) / Huấn luyện giữa (MidTrain) / Huấn luyện tinh chỉnh có giám sát (SFT) / LoRA sẵn sàng sử dụng, với tính năng chuyển đổi định dạng tập dữ liệu và đóng gói chuỗi tích hợp. 🌐 Phần cứng không đồng nhất — Hỗ trợ nguyên bản GPU NVIDIA và XPU Kunlun thông qua thiết kế plugin ít can thiệp nhất. 📖 Tìm hiểu sâu: Tính năng LLM · Tính năng VLM 📊 Điểm chuẩn Được đo trên phiên bản v0.1.1 đối với các tác vụ LLM, VLM, VLA và DIT so với các đường cơ sở huấn luyện mã nguồn mở chính thống: Mô hình Loại Đường cơ sở Cấu hình Tăng tốc Qwen3-30B-A3B MoE Megatron-LM† 32 × A800‡ · GBS 1024 · 32K 1,16× DeepSeek-V3.2 Lite § MoE + DSA Megatron-LM† Lớp giảm · GBS 128 · 8K 5,04× Qwen3-VL-30B-A3B VLM VeOmni† 32 × A800‡ · GBS 128 · 32K 1,45× GR00T N1.6 VLA LeRobot† 8 × A800‡ · GBS 128 · 224×224 2,31× Pi0.5 VLA OpenPI† 8 × A800‡ · GBS 112 · 224×224 1,65× Wan2.2 DIT DiffSynth† 8 × A800‡ · 480×832x49 2,16× § Do giới hạn quy mô của môi trường thử nghiệm, DeepSeek-V3.2 được xác thực riêng trên cấu hình lớp giảm — các tối ưu hóa kernel DSA CUDA của LoongForge vẫn mang lại tốc độ tăng khoảng 5 lần so với Megatron-LM và đạt chuỗi 64K (đường cơ sở OOMs vượt quá 8K). † Các số liệu phản ánh phiên bản đường cơ sở và LoongForge tại thời điểm đo lường, và có thể thay đổi khi các triển khai thay đổi. ‡ Việc xác thực trên phần cứng bổ sung sẽ được triển khai trong các bản phát hành sắp tới. 🌟 Được hỗ trợ bởi LoongForge LLaVA-OneVision-2.0 — Mô hình đa phương thức thế hệ tiếp theo, với các tập dữ liệu VideoCaption và Spatial mới. LLaVA-OneVision-1.5 — Khung mở hoàn toàn cho huấn luyện đa phương thức dân chủ hóa. Qianfan-VL — Các mô hình ngôn ngữ-thị giác tăng cường theo miền cho doanh nghiệp, từ 3 tỷ đến 70 tỷ tham số. 🏛️ Các mô hình được hỗ trợ LoongForge hỗ trợ nhiều loại mô hình tiên tiến trên LLM, VLM, khuếch tán và VLA. Phương thức Kiến trúc Mô hình LLM DeepSeek-V2 deepseek-v2-lite, deepseek-v2 DeepSeek-V3 deepseek-v3, deepseek-v32 LLaMA2 llama2-7b, llama2-13b, llama2-70b LLaMA3 llama3-8b, llama3-70b LLaMA3.1 llama3.1-8b, llama3.1-70b, llama3.1-405b Qwen qwen-1.8b → qwen-72b Qwen1.5 qwen1.5-0.5b → qwen1.5-72b Qwen2 qwen2-0.5b → qwen2-72b Qwen2.5 qwen2.5-0.5b → qwen2.5-72b Qwen3 qwen3-0.6b → qwen3-480b-a35b, qwen3-coder-30b-a3b Qwen3-Next qwen3-next-80b-a3b MiniMax minimax-m2.1, minimax-m2.5, minimax-m2.7 MIMO mimo-7b GLM glm5 VLM Qwen2.5-VL qwen2.5-vl-3b → qwen2.5-vl-72b Qwen3-VL qwen3-vl-30b-a3b, qwen3-vl-235b-a22b Qwen3.5 qwen3.5-0.8b → qwen3.5-397b-a17b Qwen3.6 qwen3.6-27b, qwen3.6-35b-a3b Kim

LoongForge - Một khuôn khổ đào tạo hiệu suất cao cho các mô hình LLM, VLM, DIT, VLA