JetBrains đã phát hành Mellum2: Một mô hình MoE 12B cho các tác…

JetBrains đã phát hành Mellum2, công khai mã nguồn các trọng số theo giấy phép Apache 2.0. Phiên bản đầu tiên của Mellum là một mô hình dày đặc 4B tập trung vào việc hoàn thành tác vụ. Mellum2 là phiên bản kế nhiệm: một mô hình đa năng chuyên về kỹ thuật phần mềm. Mô hình này bao gồm tạo và chỉnh sửa mã, gỡ lỗi, suy luận đa bước, sử dụng công cụ và gọi hàm, lập trình tự động (agentic coding) và hỗ trợ lập trình đàm thoại. Nhóm JetBrains định vị Mellum2 là một "mô hình trọng tâm" – một thành phần nhanh, chuyên biệt bên trong các hệ thống AI lớn hơn, không phải là một sự thay thế độc lập cho các mô hình tiên tiến. Kiến trúc Mellum2 sử dụng

JetBrains đã phát hành Mellum2, công khai mã nguồn (open-sourcing) các trọng số (weights) theo giấy phép Apache 2.0. Phiên bản đầu tiên của Mellum là một mô hình dày đặc 4B tập trung vào việc hoàn thành tác vụ. Mellum2 là phiên bản kế nhiệm: một mô hình đa năng chuyên về kỹ thuật phần mềm. Mô hình này bao gồm các chức năng tạo và chỉnh sửa mã, gỡ lỗi, suy luận đa bước, sử dụng công cụ và gọi hàm, lập trình tự động (agentic coding) và hỗ trợ lập trình đàm thoại. Đội ngũ JetBrains định vị Mellum2 là một "mô hình trọng tâm" – một thành phần nhanh, chuyên biệt bên trong các hệ thống AI lớn hơn, không phải là một sự thay thế độc lập cho các mô hình tiên phong. Kiến trúc Mellum2 sử dụng kiến trúc Mixture-of-Experts (MoE) với tổng số 12 tỷ tham số và 2,5 tỷ tham số hoạt động trên mỗi token. Trong các mô hình MoE, chỉ một tập hợp con các tham số chạy trên mỗi token. Ở đây, mô hình có 64 chuyên gia (experts) và kích hoạt 8 chuyên gia trên mỗi token. Điều này giữ cho tính toán trên mỗi token tương đương với một mô hình dày đặc 2,5 tỷ tham số, trong khi tổng số tham số cung cấp khả năng chuyên biệt hóa cao hơn. Các chi tiết kiến trúc chính: Số lớp: 28 Kích thước ẩn (Hidden size): 2304 Chuyên gia MoE: Tổng cộng 64, 8 được kích hoạt trên mỗi token Cơ chế chú ý (Attention): Grouped-Query Attention (GQA) với 32 đầu truy vấn và 4 đầu KV Cơ chế chú ý cửa sổ trượt (Sliding Window Attention - SWA): Áp dụng cho ba trong số bốn lớp, với kích thước cửa sổ là 1.024. Cơ chế chú ý đầy đủ chạy trên lớp còn lại. Độ dài ngữ cảnh (Context length): 131.072 token Đầu dự đoán đa token (Multi-Token Prediction - MTP): Đóng vai trò là mục tiêu tiền huấn luyện phụ trợ và là mô hình nháp tích hợp cho giải mã suy đoán (speculative decoding). Độ chính xác: bfloat16 Kích thước từ vựng: 98.304 Mô hình xử lý ngôn ngữ tự nhiên và mã. Mô hình này không đa phương thức (multimodal) – không có đầu vào hình ảnh hoặc video. Tiền huấn luyện Quá trình tiền huấn luyện kéo dài khoảng 10,6 nghìn tỷ token thông qua chương trình ba giai đoạn. Hỗn hợp dữ liệu dần dần chuyển từ nội dung web đa dạng sang mã và nội dung toán học được tuyển chọn qua ba giai đoạn. Quá trình huấn luyện sử dụng bộ tối ưu hóa Muon dưới độ chính xác lai FP8 với lịch trình tốc độ học Warmup-Hold-Decay với suy giảm tuyến tính về 0. Sau tiền huấn luyện, cửa sổ ngữ cảnh của mô hình cơ sở đã được mở rộng lên 128K token bằng phương pháp YaRN chọn lọc lớp trước khi bắt đầu hậu huấn luyện. Dòng mô hình Đội ngũ JetBrains đã phát hành sáu điểm kiểm tra (checkpoints) bao gồm toàn bộ quy trình huấn luyện: Điểm kiểm traMô tảMellum2-12B-A2.5B-Base-PretrainĐiểm kiểm tra cơ sở trước khi mở rộng ngữ cảnh dàiMellum2-12B-A2.5B-BaseMô hình cơ sở cuối cùng sau khi mở rộng ngữ cảnhMellum2-12B-A2.5B-Instruct-SFTSFT hướng dẫn được tinh chỉnh có giám sátMellum2-12B-A2.5B-Thinking-SFTSFT suy nghĩ được tinh chỉnh có giám sátMellum2-12B-A2.5B-InstructMô hình hướng dẫn được tinh chỉnh bằng RL (RL-tuned)Mellum2-12B-A2.5B-ThinkingMô hình suy nghĩ được tinh chỉnh bằng RL (RL-tuned) Hậu huấn luyện theo hai giai đoạn: tinh chỉnh có giám sát (SFT), sau đó là học tăng cường với phần thưởng có thể kiểm chứng (RLVR) trên các tác vụ toán học, lập trình thực thi, sử dụng công cụ, tuân thủ hướng dẫn, suy luận và kiến thức. Biến thể Instruct trả lời trực tiếp, không có chuỗi suy nghĩ bên ngoài. Sử dụng biến thể này cho các tác vụ có độ trễ thấp: trả lời trực tiếp, sử dụng công cụ và tuân thủ hướng dẫn. Biến thể Thinking đưa ra một dấu vết suy luận rõ ràng trước câu trả lời cuối cùng. Sử dụng biến thể này cho việc gỡ lỗi phức tạp, lập kế hoạch đa bước hoặc các luồng tự động (agentic flows) nơi suy luận từng bước quan trọng. Kết quả đánh giá Tất cả các số liệu dưới đây đều do JetBrains tự báo cáo. Bộ so sánh là các mô hình mã nguồn mở trong phạm vi 4B–14B. Lập trình: **Điểm chuẩn** | Điểm chuẩn | Mellum2 Instruct | Qwen3.5 (4B) | Qwen3.5 (9B) | Ministral 3 (14B) | OLMo-3 (7B) | Seed-Coder (8B) | |---|---|---|---|---|---|---| | LiveCodeBench v6 | 37,2 | 51,0 | 63,7 | 42,4 | 28,2 | 28,1 | | EvalPlus | 78,4 | 69,4 | 71,8 | 74,1 | 67,3 | 73,8 | | MultiPL-E | 67,1 | 51,0 | 67,1 | 71,5 | 36,1 | 77,0 | **Sử dụng công cụ:** | Điểm chuẩn | Mellum2 Instruct | Qwen3.5 (4B) | Qwen3.5 (9B) | Ministral 3 (14B) | OLMo-3 (7B) | |---|---|---|---|---|---| | BFCL v3 | 66,3 | 64,1 | 70,5 | 52,7 | 41,9 | | BFCL v4 | 44,2 | 52,0 | 60,6 | 38,8 | 19,8 | **Toán học:** | Điểm chuẩn | Mellum2 Instruct | Qwen3.5 (4B) | Qwen3.5 (9B) | Ministral 3 (14B) | OLMo-3 (7B) | |---|---|---|---|---|---| | AIME 2025+2026 | 41,7 | 38,3 | 58,3 | 33,3 | 40,0 | | GSM-Plus | 80,5 | 85,2 | 87,9 | 86,6 | 85,8 | **Kiến thức và đàm thoại:** | Điểm chuẩn | Mellum2 Instruct | Qwen3.5 (4B) | Qwen3.5 (9B) | Ministral 3 (14B) | OLMo-3 (7B) | |---|---|---|---|---|---| | MMLU-Redux | 78,1 | 87,5 | 91,1 | 85,9 | 71,8 | | GPQA Diamond | 40,9 | 76,8 | 79,8 | 58,6 | 40,9 | | IFEval | 75,8 | 82,1 | 83,9 | 67,3 | 83,2 | | MixEval | 62,2 | 65,9 | 71,1 | 71,2 | 59,4 | **Ghi chú điểm chuẩn:** EvalPlus là giá trị trung bình của HumanEval+ và MBPP+. AIME là giá trị trung bình của AIME 2025 và AIME 2026 (mỗi bài 30 câu hỏi). BFCL v4 là giá trị trung bình macro của năm tác vụ phụ: v1, v2, v3, tìm kiếm web, bộ nhớ. Seed-Coder (8B) không hỗ trợ gọi công cụ gốc; điểm BFCL không được liệt kê cho mô hình này. https://blog.jetbrains.com/ai/2026/06/mellum2-goes-open-source-a-fast-model-for-ai-workflows/ **Các trường hợp sử dụng** JetBrains xác định bốn kịch bản sản xuất mà độ trễ và hiệu quả của Mellum2 có liên quan: Định tuyến và điều phối: Trong một hệ thống đa mô hình, bộ định tuyến phân tích các lời nhắc đến và chọn mô hình hoặc công cụ thích hợp cho từng tác vụ. Khả năng tính toán thấp trên mỗi token của Mellum2 làm cho nó phù hợp với bước phân loại tần số cao này. Các đường ống RAG có độ trễ thấp: Các hệ thống Tạo sinh tăng cường truy xuất (RAG) truy xuất ngữ cảnh liên quan, tóm tắt và tạo phản hồi. Mellum2 xử lý tóm tắt truy xuất với độ trễ thấp hơn so với các mô hình dày đặc lớn hơn. Các tác nhân phụ trong các quy trình làm việc phức tạp: Các đường ống tác nhân chia các tác vụ thành các bước: thu thập ngữ cảnh, lập kế hoạch, xác thực và thực thi. Mellum2 có thể xử lý các bước lặp lại hoặc nhạy cảm với độ trễ thay vì định tuyến mọi bước thông qua một mô hình biên lớn duy nhất. Triển khai riêng tư và cục bộ: Giấy phép Apache 2.0 cho phép tự lưu trữ mà không có hạn chế. Các kỹ sư có thể chạy Mellum2 trên cơ sở hạ tầng của riêng họ, giữ mã và dữ liệu dưới sự kiểm soát của họ. **Điểm mạnh và hạn chế** **Điểm mạnh:** Thiết kế MoE chỉ kích hoạt 2,5 tỷ trong số 12 tỷ tham số trên mỗi token — khả năng tính toán trên mỗi token tương đương với một mô hình dày đặc 2,5 tỷ. Đầu MTP cho phép giải mã suy đoán mà không cần mô hình nháp riêng biệt. Cửa sổ ngữ cảnh 131.072 token. Bộ điểm kiểm tra đầy đủ được phát hành: bản tiền huấn luyện cơ sở, bản cơ sở, SFT và các biến thể được điều chỉnh RL cho cả Instruct và Thinking. Giấy phép Apache 2.0 — cho phép sử dụng thương mại, tự lưu trữ và tinh chỉnh. Điểm EvalPlus (78,4) và BFCL v3 (66,3) mạnh mẽ so với các mô hình 4B–14B.

JetBrains đã phát hành Mellum2: Một mô hình MoE 12B cho các tác vụ chuyên biệt, nhanh chóng trong các quy trình AI đa mô hình.