Mô hình AI mới nhất của Alibaba đã tự động chạy trong 35 giờ để…

Đội ngũ Qwen của Alibaba đã phát hành Qwen3.7-Max, một mô hình độc quyền được xây dựng cho các tác vụ tác nhân tự chủ chạy dài hạn. Mô hình này đạt hiệu suất tương đương Claude Opus 4.6 trên các tiêu chuẩn đánh giá và vượt trội so với các đối thủ Trung Quốc như DeepSeek V4 Pro và Kimi K2.6. Đội ngũ cũng đã trình diễn khả năng điều khiển robot bốn chân của mô hình. Bài viết Mô hình AI mới nhất của Alibaba tự chủ hoạt động trong 35 giờ để tối ưu hóa mã cho chip tùy chỉnh của riêng nó xuất hiện lần đầu trên The Decoder.

Nghiên cứu AI Alibaba đã công bố mô hình AI mới nhất của mình, hoạt động tự chủ trong 35 giờ để tối ưu hóa mã cho chip tùy chỉnh của riêng mình. Jonathan Kemper Ngày 23/5/2026 Các điểm chính Đội ngũ Qwen của Alibaba đã phát hành Qwen3.7-Max, một mô hình AI mới được xây dựng đặc biệt cho các tác vụ tự chủ, chỉ có sẵn thông qua API thay vì giao diện người dùng. Mô hình được thiết kế để xử lý các dự án phần mềm phức tạp và hoạt động độc lập trong thời gian dài. Trong các thử nghiệm thực tế, mô hình này đã tối ưu hóa mã hoàn toàn tự động và vượt trội hơn nhiều mô hình cạnh tranh về tốc độ. Qwen3.7-Max hoạt động ngang bằng với các phòng thí nghiệm AI hàng đầu trong các thử nghiệm tiêu chuẩn. Đáng chú ý, các nhà phát triển cũng đã sử dụng mô hình này để tự động phát hiện hành vi không mong muốn và các nỗ lực gian lận trong quá trình đào tạo của chính nó. Đội ngũ Qwen của Alibaba đã phát hành Qwen3.7-Max, một mô hình độc quyền được thiết kế cho các tác vụ dựa trên tác nhân (agent-based tasks). Trong một thử nghiệm thực tế, mô hình đã thực hiện tối ưu hóa nhân (kernel optimization) hoàn toàn tự động trong 35 giờ liên tục. Giống như các phiên bản tiền nhiệm Qwen3-Max và Qwen3.6-Plus, phiên bản Max mới chỉ có sẵn thông qua API của Alibaba Cloud Model Studio. Alibaba từng phát hành các mô hình Qwen của mình dưới dạng mã nguồn mở, nhưng điều đó đã thay đổi. Mô hình flagship mã nguồn mở cuối cùng là Qwen3.5-397B-A17B từ tháng 2/2026. Qwen3.7-Max hỗ trợ các giao diện tương thích với OpenAI và Anthropic, đồng thời tích hợp trực tiếp vào Claude Code, OpenClaw hoặc Qwen Code. Đội ngũ Qwen cho biết mô hình này nhắm đến bốn trường hợp sử dụng: hoạt động như một tác nhân lập trình từ các nguyên mẫu giao diện người dùng (front-end prototypes) đến các dự án phần mềm đa tệp phức tạp, tự động hóa các tác vụ văn phòng bằng các công cụ bên ngoài, hoạt động tự chủ trong thời gian dài và thực hiện nhất quán trên các khung tác nhân khác nhau. Một thử nghiệm nhân kéo dài 35 giờ Qwen3.7-Max được giao nhiệm vụ tối ưu hóa một nhân chú ý (attention kernel) dựa trên phần cứng cho phần mềm suy luận mã nguồn mở SGLang. Phần cứng là một phiên bản đám mây với bộ tăng tốc T-Head-ZW-M890, một nền tảng chip AI từ bộ phận bán dẫn của Alibaba. Đội ngũ Qwen cho biết mô hình này chưa từng thấy kiến trúc chip này trong quá trình đào tạo. Nó bắt đầu mà không có dữ liệu đo lường, không có tài liệu phần cứng và không có mã mẫu. Điều duy nhất nó có để làm việc là triển khai tham chiếu hiện có, được viết bằng ngôn ngữ lập trình Triton. Trong khoảng 35 giờ làm việc tự chủ không ngừng nghỉ, mô hình đã chạy 432 thử nghiệm nhân với tổng cộng 1.158 lệnh gọi công cụ. Nó đã biên dịch, đo lường và sửa đổi mã theo các vòng lặp, phát hiện lỗi biên dịch và tự tìm ra các nút thắt cổ chai về hiệu suất. Kết quả, theo các nhà nghiên cứu Qwen, là tốc độ tăng trung bình 10 lần so với triển khai tham chiếu. Các mô hình cạnh tranh đã kém xa trong cùng một thiết lập. GLM 5.1 đạt tốc độ tăng 7,3 lần, Kimi K2.6 đạt 5 lần, DeepSeek V4 Pro đạt 3,3 lần và phiên bản tiền nhiệm Qwen3.6-Plus hầu như không thay đổi ở mức 1,1 lần. Các mô hình ngừng hoạt động sớm đã tự kết thúc phiên làm việc sau năm vòng liên tiếp không có lệnh gọi công cụ. Trên thử nghiệm KernelBench L3 tiêu chuẩn hóa, Qwen3.7-Max tuyên bố tạo ra các nhân được tăng tốc 96% thời gian, chỉ đứng sau Opus 4.6 của Anthropic ở mức 98%. Quá trình đào tạo phân chia tác vụ, môi trường công cụ và trình xác thực. Qwen3.7-Max được xây dựng dựa trên phương pháp huấn luyện mà nhóm nghiên cứu đã triển khai lần đầu với Qwen3.5. Mỗi tác vụ huấn luyện được chia thành ba phần độc lập: tác vụ thực tế, môi trường công cụ và trình xác thực kiểm tra kết quả. Các phần này có thể được kết hợp và ghép nối tự do. Kiểm tra chéo: Qwen3.6-Plus có hiệu suất thay đổi tùy thuộc vào khung tác nhân (agent framework) chạy nó, nhưng Qwen3.7-Max đạt điểm gần như tương đồng trên OpenClaw, Claude Code (CC) và Hermes, theo nhóm nghiên cứu – và vượt trội hơn Claude Opus 4.6 trên QwenClawBench. | Hình ảnh: Qwen Cùng một tác vụ được thực hành trong các môi trường công cụ khác nhau và được kiểm tra bằng các phương pháp thử nghiệm khác nhau. Điều này nhằm buộc mô hình phải tiếp thu các chiến lược hoạt động ở mọi nơi, không chỉ các lối tắt gắn liền với một thiết lập cụ thể. Trên QwenClawBench và CoWorkBench, Qwen3.7-Max duy trì ổn định bất kể môi trường thử nghiệm nào được đưa vào, nhóm nghiên cứu cho biết. Mô hình tự giám sát quá trình huấn luyện để chống lại việc "hack" phần thưởng Nhóm Qwen cũng sử dụng Qwen3.7-Max làm công cụ giám sát trong quá trình huấn luyện của chính nó. Mô hình đã theo dõi các đợt huấn luyện cho các tác vụ kỹ thuật phần mềm trong hơn 80 giờ và thực hiện hơn 10.000 lần kiểm tra. Nó đã tìm kiếm các thủ thuật mà mô hình đang được huấn luyện có thể sử dụng để gian lận phần thưởng, chẳng hạn như lấy câu trả lời đúng trực tiếp từ GitHub. Qwen3.7-Max đã viết 13 quy tắc phát hiện mới và gắn cờ 1.618 trường hợp. Trong hơn 86 giờ hoạt động tự động, Qwen3.7-Max đã kiểm tra 13.952 quỹ đạo và phát hiện 1.618 trường hợp mô hình đang được huấn luyện gian lận phần thưởng, theo nhóm nghiên cứu. Các trường hợp được phát hiện tăng lên theo mỗi quy tắc phát hiện mới (ngôi sao màu xanh lá cây). | Hình ảnh: Qwen Một năm thử nghiệm mô phỏng kế hoạch dài hạn Để đánh giá khả năng lập kế hoạch dài hạn, nhóm nghiên cứu đã sử dụng YC-Bench, một công cụ đo lường mô phỏng toàn bộ vòng đời một năm của một công ty khởi nghiệp. Mô hình phải quản lý nhân sự qua hàng trăm vòng quyết định, xem xét hợp đồng, phát hiện khách hàng không trung thực và duy trì lợi nhuận lành mạnh trước chi phí lao động tăng cao. Qwen3.7-Max đã đạt tổng doanh thu 2,08 triệu USD và hoàn thành 237 tác vụ. Phiên bản tiền nhiệm của nó, Qwen3.6-Plus, đạt 1,05 triệu USD. Qwen3.5-Plus chỉ đạt 352.000 USD. Trên hầu hết các tiêu chuẩn, Qwen3.7-Max cạnh tranh ngang ngửa với Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking và DeepSeek V4 Pro Max. Trên SWE-Verified, mô hình đạt 80,4 điểm, gần bằng Opus 4.6 Max (80,8) và DeepSeek V4 Pro Max (80,6). Trên các tiêu chuẩn toán học và khoa học GPQA Diamond (92,4), HMMT 2026 February (97,1) và Apex (44,5), Qwen3.7-Max đứng đầu bảng so sánh của nhà cung cấp. Qwen3.7-Max nhìn chung dẫn đầu hoặc ngang bằng với Claude Opus 4.6.

Mô hình AI mới nhất của Alibaba đã tự động chạy trong 35 giờ để tối ưu hóa mã cho chip tùy chỉnh của riêng mình.