LoongForge - Một khuôn khổ đào tạo hiệu suất cao cho các mô hình LLM, VLM, DIT, VLA
URL bài viết: https://github.com/baidu-baige/LoongForge URL bình luận: https://news.ycombinator.com/item?id=48297959 Điểm: 2 Bình luận: 0
Một khung huấn luyện mô-đun, có khả năng mở rộng, hiệu suất cao cho các mô hình LLM, VLM, khuếch tán và mô hình thực thể.
🚀 Tăng tốc độ huấn luyện lên tới 5,04 lần · 🌐 Hỗ trợ nguyên bản NVIDIA GPU & Kunlun XPU
💡 Tại sao chọn LoongForge?
🐉 LoongForge là một phần của chuỗi mã nguồn mở Loong của Baidu Baige — được đặt tên theo thuyền rồng (龙舟) truyền thống của Trung Quốc, một biểu tượng của sức mạnh phối hợp và động lực tiến lên.
LoongForge là một khung huấn luyện thống nhất cho các mô hình LLM, VLM, VLA và khuếch tán, bao gồm tiền huấn luyện, tiền huấn luyện tiếp tục và SFT. Được xây dựng dựa trên Megatron-LM với những cải tiến sâu rộng về phạm vi mô hình, hiệu suất huấn luyện và hỗ trợ phần cứng, nó mang lại tốc độ tăng đáng kể so với các nền tảng mã nguồn mở chính thống.
Trước khi trở thành mã nguồn mở, LoongForge được phát triển dưới dạng AIAK-Training-LLM, bộ tăng tốc huấn luyện của Baidu Baige. Nó đã hỗ trợ huấn luyện sản xuất cho các khách hàng doanh nghiệp trong lĩnh vực Giáo dục, Thị giác máy tính và AI thực thể, thường mang lại tốc độ tăng 30%~50% so với các nền tảng của khách hàng, với các lần chạy sản xuất lớn nhất đạt hơn 5.000 XPU.
🔥 Tin tức mới nhất
[Tháng 5/2026] ⚡ Tăng tốc huấn luyện Wan 2.2 lên 116% và bổ sung hỗ trợ CP và đóng gói dữ liệu.
[Tháng 5/2026] ✨ Bổ sung hỗ trợ huấn luyện cho Kimi K2.5 / K2.6 và giới thiệu INT4 / NVFP4 PTQ.
[Tháng 5/2026] 🎉 v0.1.0 — bản phát hành chính thức đầu tiên của LoongForge.
[Tháng 5/2026] 🌟 Cung cấp sức mạnh cho việc huấn luyện và phát hành công khai LLaVA-OneVision-2.0.
[Tháng 5/2026] 🤖 Mở rộng phạm vi VLA với GR00T N1.6; tăng tốc hơn 60% khi huấn luyện Pi0.5 và GR00T.
[Tháng 4/2026] 🧩 Bổ sung hỗ trợ huấn luyện cho MiniMax-M2.7 trên cả NVIDIA GPU và Kunlun XPU.
[Tháng 4/2026] 🚀 Mã nguồn LoongForge được công khai trên GitHub. [blog]
[Tháng 10/2025] 🌟 Cung cấp sức mạnh cho việc huấn luyện và phát hành công khai LLaVA-OneVision-1.5 dưới AIAK-Training-LLM, tiền thân của LoongForge. [blog]
⚡ Bắt đầu nhanh
Xem tài liệu đầy đủ để cài đặt, hướng dẫn và sử dụng nâng cao — Tiếng Anh · Tiếng Trung.
1. Cài đặt — qua Docker (hình ảnh dựng sẵn sẽ sớm ra mắt) hoặc xây dựng từ mã nguồn:
NVIDIA GPU: Hướng dẫn cài đặt
Kunlun XPU: Hướng dẫn cài đặt
2. Chạy lần huấn luyện đầu tiên của bạn — làm theo hướng dẫn cho phần cứng và phương thức mục tiêu của bạn:
NVIDIA GPU: LLM · VLM · VLA · Khuếch tán (WAN)
Kunlun XPU: Hướng dẫn Kunlun XPU
3. Khám phá — duyệt configs/models/ và examples/ / examples_xpu/ để tìm các tập lệnh sẵn sàng chạy.
✨ Các tính năng chính
🧩 Thành phần đa phương thức linh hoạt — Lắp ráp VLM dựa trên cấu hình từ các thành phần ViT và LLM có thể hoán đổi.
⚡ Song song không đồng nhất — TP / DP / tính toán lại độc lập cho mỗi thành phần mô hình (ví dụ: ViT so với LLM) để đạt được thông lượng và bộ nhớ tối ưu. [blog]
🔀 Huấn luyện bộ mã hóa-giải mã tách rời — Tách ViT và LLM thành các tác vụ độc lập, loại bỏ các bong bóng đường ống do bộ mã hóa gây ra.
⚖️ Cân bằng tải DP — Phân phối lại dữ liệu nhận biết tải giúp giảm thiểu sự mất cân bằng đóng gói chuỗi, cải thiện hiệu quả mở rộng đa nút. [blog]
🚀 Tối ưu hóa gốc MoE — All2All / giải phóng kích hoạt / tính toán chồng chéo, với việc giảm bộ nhớ hơn nữa ngoài Megatron-LM thượng nguồn trên DeepSeek-V3, Qwen3-MoE, v.v.
🔬 Huấn luyện FP8 thích ứng — FP8 từ đầu đến cuối cho LLM và VLM với FP8 khối tiêu chuẩn; chế độ thích ứng tùy chọn chọn độ chính xác trên mỗi toán tử theo hình dạng và hiệu quả GEMM.
🔧 Các toán tử hợp nhất tùy chỉnh — Các nhân hợp nhất như FusedDSA cho các mô hình kiểu DSA — phiên bản TileLang mã nguồn mở, phiên bản CUDA hiệu suất cao có sẵn trên nền tảng Baidu Baige.
🔁 Kiểm tra linh hoạt — Chuyển đổi hai chiều ngoại tuyến Megatron ↔ HuggingFace cùng khả năng tải/lưu trực tuyến nguyên bản của HF — không rào cản định dạng trong toàn bộ quy trình làm việc.
🧰 Công cụ dữ liệu & quy trình đa năng — Huấn luyện trước (Pretrain) / Huấn luyện giữa (MidTrain) / Huấn luyện tinh chỉnh có giám sát (SFT) / LoRA sẵn sàng sử dụng, với tính năng chuyển đổi định dạng tập dữ liệu và đóng gói chuỗi tích hợp.
🌐 Phần cứng không đồng nhất — Hỗ trợ nguyên bản GPU NVIDIA và XPU Kunlun thông qua thiết kế plugin ít can thiệp nhất.
📖 Tìm hiểu sâu: Tính năng LLM · Tính năng VLM
📊 Điểm chuẩn
Được đo trên phiên bản v0.1.1 đối với các tác vụ LLM, VLM, VLA và DIT so với các đường cơ sở huấn luyện mã nguồn mở chính thống:
Mô hình
Loại
Đường cơ sở
Cấu hình
Tăng tốc
Qwen3-30B-A3B
MoE
Megatron-LM†
32 × A800‡ · GBS 1024 · 32K
1,16×
DeepSeek-V3.2 Lite §
MoE + DSA
Megatron-LM†
Lớp giảm · GBS 128 · 8K
5,04×
Qwen3-VL-30B-A3B
VLM
VeOmni†
32 × A800‡ · GBS 128 · 32K
1,45×
GR00T N1.6
VLA
LeRobot†
8 × A800‡ · GBS 128 · 224×224
2,31×
Pi0.5
VLA
OpenPI†
8 × A800‡ · GBS 112 · 224×224
1,65×
Wan2.2
DIT
DiffSynth†
8 × A800‡ · 480×832x49
2,16×
§ Do giới hạn quy mô của môi trường thử nghiệm, DeepSeek-V3.2 được xác thực riêng trên cấu hình lớp giảm — các tối ưu hóa kernel DSA CUDA của LoongForge vẫn mang lại tốc độ tăng khoảng 5 lần so với Megatron-LM và đạt chuỗi 64K (đường cơ sở OOMs vượt quá 8K).
† Các số liệu phản ánh phiên bản đường cơ sở và LoongForge tại thời điểm đo lường, và có thể thay đổi khi các triển khai thay đổi.
‡ Việc xác thực trên phần cứng bổ sung sẽ được triển khai trong các bản phát hành sắp tới.
🌟 Được hỗ trợ bởi LoongForge
LLaVA-OneVision-2.0 — Mô hình đa phương thức thế hệ tiếp theo, với các tập dữ liệu VideoCaption và Spatial mới.
LLaVA-OneVision-1.5 — Khung mở hoàn toàn cho huấn luyện đa phương thức dân chủ hóa.
Qianfan-VL — Các mô hình ngôn ngữ-thị giác tăng cường theo miền cho doanh nghiệp, từ 3 tỷ đến 70 tỷ tham số.
🏛️ Các mô hình được hỗ trợ
LoongForge hỗ trợ nhiều loại mô hình tiên tiến trên LLM, VLM, khuếch tán và VLA.
Phương thức
Kiến trúc
Mô hình
LLM
DeepSeek-V2
deepseek-v2-lite, deepseek-v2
DeepSeek-V3
deepseek-v3, deepseek-v32
LLaMA2
llama2-7b, llama2-13b, llama2-70b
LLaMA3
llama3-8b, llama3-70b
LLaMA3.1
llama3.1-8b, llama3.1-70b, llama3.1-405b
Qwen
qwen-1.8b → qwen-72b
Qwen1.5
qwen1.5-0.5b → qwen1.5-72b
Qwen2
qwen2-0.5b → qwen2-72b
Qwen2.5
qwen2.5-0.5b → qwen2.5-72b
Qwen3
qwen3-0.6b → qwen3-480b-a35b, qwen3-coder-30b-a3b
Qwen3-Next
qwen3-next-80b-a3b
MiniMax
minimax-m2.1, minimax-m2.5, minimax-m2.7
MIMO
mimo-7b
GLM
glm5
VLM
Qwen2.5-VL
qwen2.5-vl-3b → qwen2.5-vl-72b
Qwen3-VL
qwen3-vl-30b-a3b, qwen3-vl-235b-a22b
Qwen3.5
qwen3.5-0.8b → qwen3.5-397b-a17b
Qwen3.6
qwen3.6-27b, qwen3.6-35b-a3b
Kim
Nguồn tin: Hacker News LLM — Tác giả: mindzzz. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.