MiniMax M3: Mô hình mã nguồn mở với ngữ cảnh một triệu token…

Công ty AI Trung Quốc MiniMax đã phát hành mô hình mới M3. Đây được coi là mô hình mã nguồn mở đầu tiên kết hợp hiệu suất mã hóa hàng đầu, cửa sổ ngữ cảnh một triệu token và khả năng đa phương thức gốc. Bài viết MiniMax M3: Mô hình mã nguồn mở với ngữ cảnh một triệu token thách thức các nhà lãnh đạo độc quyền xuất hiện lần đầu trên The Decoder.

Nghiên cứu AI MiniMax M3: Mô hình mã nguồn mở với cửa sổ ngữ cảnh một triệu token thách thức các nhà lãnh đạo độc quyền Jonathan Kemper Ngày 1/6/2026 Nano Banana Pro theo yêu cầu của THE DECODER Những điểm chính Công ty AI Trung Quốc MiniMax đang phát hành M3, một mô hình mã nguồn mở mới kết hợp hiệu suất mã hóa mạnh mẽ, tính đa phương thức gốc và cửa sổ ngữ cảnh một triệu token. Kiến trúc "MiniMax Sparse Attention" mới chỉ xử lý các khối dữ liệu liên quan. Điều này giúp giảm chi phí tính toán xuống còn một phần hai mươi và tăng tốc độ xử lý đầu vào lên hơn chín lần. Trong các thử nghiệm và kiểm tra tự động hóa dài hạn, M3 đạt kết quả ngang bằng với các mô hình hàng đầu như Opus 4.7 và GPT-5.5. Mô hình này có sẵn thông qua API và các trọng số sẽ được công bố trong thời gian ngắn. Công ty AI Trung Quốc MiniMax đã phát hành mô hình M3 mới của mình. Đây được coi là mô hình mã nguồn mở đầu tiên kết hợp hiệu suất mã hóa hàng đầu, cửa sổ ngữ cảnh một triệu token và tính đa phương thức gốc. Theo MiniMax, sự kết hợp này trước đây nằm ngoài tầm với của các mô hình mở và chỉ dành cho các hệ thống độc quyền như Opus 4.7, GPT-5.5 hoặc Gemini 3.1 Pro. Một cơ chế chú ý mới giúp thực hiện bước nhảy vọt này bằng cách mở rộng cửa sổ ngữ cảnh lên một triệu token mà không làm chi phí tính toán tăng vọt. Trong các thử nghiệm nội bộ, M3 cũng tự lên kế hoạch, gỡ lỗi và tự sửa lỗi trong nhiều giờ. Các thử nghiệm đặt M3 vào lãnh thổ độc quyền Trên SWE-Bench Pro, một thử nghiệm phát triển phần mềm đã được thiết lập, M3 đạt 59% theo MiniMax. Con số này cao hơn GPT-5.5 và Gemini 3.1 Pro, nhưng chỉ đứng sau Opus 4.7. M3 cũng nằm trong phân khúc độc quyền về các tác vụ đầu cuối và sử dụng công cụ. Trong tìm kiếm web tự động, nó thực sự vượt qua Opus 4.7 (79,3) với 83,5 điểm trên BrowseComp. Anthropic kể từ đó đã phát hành Opus 4.8, một mô hình mạnh hơn một chút. MiniMax định vị M3 gần với Opus 4.7 trên các thử nghiệm của riêng mình, một phần vượt trội so với GPT-5.5 và Gemini 3.1 Pro. Để tiếp cận gần hơn với quy trình làm việc của nhà phát triển thực tế, MiniMax đã xây dựng một khung mô phỏng bắt chước các mẫu hành vi điển hình. Chúng bao gồm tinh chỉnh yêu cầu, thảo luận các phương pháp giải pháp, phản ứng với kết quả trung gian và thực hiện các tác vụ trên nhiều ngữ cảnh. Điều này giúp mô hình tiếp xúc với sự hợp tác đa lượt trong quá trình đào tạo, không chỉ là các lời nhắc đơn lẻ, được xác định rõ ràng. Ba thử nghiệm cho thấy khả năng tự động hóa dài hạn MiniMax mô tả ba thử nghiệm nội bộ được thiết kế để cho thấy cách các khả năng này hoạt động cùng nhau. Trong thử nghiệm đầu tiên, nhóm đã để M3 tự động tái tạo một bài báo về tinh chỉnh LLM. Mô hình đã hoạt động trong gần mười hai giờ mà không cần can thiệp, tạo ra 18 cam kết và 23 hình ảnh, đồng thời xác nhận các phát hiện chính của bài báo. M3 đã tự động tái tạo một bài báo ICLR 2025 trong mười hai giờ, đạt điểm 0,650. Trong thử nghiệm thứ hai, M3 được yêu cầu tối ưu hóa một nhân tính toán cho phép nhân ma trận trên GPU Nvidia Hopper, một trong những khối xây dựng tiêu tốn nhiều tài nguyên tính toán nhất trong suy luận mô hình lớn. Theo MiniMax, các nhóm có kinh nghiệm thường cần từ một đến hai tuần cho việc này. M3 chỉ nhận được mô tả nhiệm vụ, một tập lệnh đánh giá hiệu năng và một khung mã không hoạt động mà không có giải pháp tham chiếu để sao chép. Sau khoảng 24 giờ, mô hình đã đẩy mức sử dụng phần cứng Hopper từ 7,6% lên 71,3%. Hầu hết các mô hình khác được thử nghiệm đã từ bỏ sau vài chục lần thử, trong khi M3 đã vượt qua nhiều giai đoạn ổn định và chỉ đạt được giải pháp tốt nhất ở lần thử thứ 145. Khi tối ưu hóa nhân FP8, M3 đạt 71,3% hiệu suất đỉnh của Hopper sau 147 lần chạy, vượt qua Opus 4.7. Tuy nhiên, mô hình của Anthropic cần ít lần chạy hơn nhiều. Trong thử nghiệm thứ ba, PostTrainBench, M3 được giao nhiệm vụ tự động huấn luyện bốn mô hình cơ sở, tổng hợp dữ liệu, huấn luyện, đánh giá và lặp lại mà không cần sự can thiệp của con người. Mô hình này xếp ngay sau Opus 4.7 và GPT-5.5 nhưng vượt xa các mô hình còn lại được thử nghiệm. MiniMax cho biết M3 được huấn luyện với các phương thức hỗn hợp ngay từ đầu. Dữ liệu xen kẽ, trong đó văn bản và hình ảnh được kết hợp với nhau trong một chuỗi, hóa ra lại quan trọng hơn dự kiến ban đầu. Sau khi điều chỉnh lại quy trình dữ liệu, quá trình huấn luyện mở rộng đến khoảng 100 nghìn tỷ token. Một cơ chế chú ý mới giúp ngữ cảnh một triệu token trở nên khả thi. Nền tảng kỹ thuật là một biến thể chú ý mới có tên MiniMax Sparse Attention (MSA). Chú ý đầy đủ cổ điển so sánh mọi token với mọi token khác, do đó chi phí tính toán tăng theo cấp số nhân với độ dài đầu vào. MSA tránh điều này bằng cách tính toán điểm chú ý chỉ cho các phân đoạn được chọn thay vì mọi cặp token. Ngữ cảnh được lưu trữ, được gọi là bộ nhớ đệm khóa-giá trị (KV cache), được chia thành các khối. Một bước lọc sơ bộ quyết định khối nào thực sự liên quan đến truy vấn hiện tại. Chỉ những khối đó mới được đưa vào tính toán đầy đủ. MSA lọc trước các khối KV liên quan và chỉ xử lý những khối đó, mang lại cho M3 một cửa sổ ngữ cảnh một triệu token. Ngoài ra còn có một thay đổi ở cấp độ tính toán GPU. Thông thường, mô hình tải các khối KV phù hợp từ bộ nhớ cho từng truy vấn riêng lẻ và nhiều khối được tìm nạp nhiều lần. MSA đảo ngược logic và xử lý các khối tuần tự. Đối với mỗi khối, tất cả các truy vấn cần nó đều được nhóm lại. Mỗi khối chỉ phải được đọc từ bộ nhớ một lần, theo một mẫu truy cập liên tục thay vì các bước nhảy rải rác. MiniMax cho biết việc triển khai của họ chạy nhanh hơn bốn lần so với các giải pháp mã nguồn mở cạnh tranh. Tổng cộng, M3 chỉ cần một phần hai mươi tài nguyên tính toán của phiên bản tiền nhiệm cho mỗi token với một triệu token ngữ cảnh. Các lời nhắc đầu vào được xử lý nhanh hơn chín lần và các phản hồi được tạo nhanh hơn mười lăm lần. Giá cả và tính khả dụng M3 có sẵn.