Hầu hết các mô hình AI hiện nay không được thiết kế để thực hiện tự chủ, đa bước một cách bền vững. Các tác vụ như chạy hàng trăm lần sửa đổi mã lặp đi lặp lại, hoặc kết nối các lệnh gọi công cụ trong nhiều giờ mà không có sự can thiệp của con người, đòi hỏi một loại kiến trúc mô hình và trọng tâm đào tạo khác.
Nhóm Qwen của Alibaba đã chính thức công bố Qwen3.7-Max tại Hội nghị thượng đỉnh Alibaba Cloud 2026 vào ngày 20/5. Mặc dù vậy, hai phiên bản xem trước của dòng Qwen3.7 đã lặng lẽ xuất hiện trên bảng xếp hạng của Arena AI mà không có thông cáo báo chí và không có thông báo API chính thức.
Hai mô hình xem trước được phát hành đồng thời
Alibaba đã xem trước
Hầu hết các mô hình AI hiện nay không được thiết kế để thực hiện tự động, đa bước một cách bền vững. Các tác vụ như chạy hàng trăm lần sửa đổi mã lặp đi lặp lại, hoặc xâu chuỗi các lệnh gọi công cụ trong nhiều giờ mà không có sự can thiệp của con người, đòi hỏi một loại kiến trúc mô hình và trọng tâm đào tạo khác.
Đội ngũ Qwen của Alibaba đã chính thức công bố Qwen3.7-Max tại Hội nghị thượng đỉnh Alibaba Cloud 2026 vào ngày 20/5. Mặc dù vậy, hai phiên bản xem trước của dòng Qwen3.7 đã lặng lẽ xuất hiện trên bảng xếp hạng của Arena AI mà không có thông cáo báo chí hay thông báo API chính thức.
Hai mô hình xem trước được phát hành đồng thời
Alibaba đã giới thiệu đồng thời hai mô hình: Qwen3.7-Max-Preview và Qwen3.7-Plus-Preview. Chúng lần lượt xếp thứ 13 toàn cầu về khả năng xử lý văn bản và thứ 16 về khả năng thị giác, theo LM Arena.
Trong Text Arena, Qwen3.7-Max-Preview xếp thứ 13 tổng thể, đưa Alibaba trở thành phòng thí nghiệm thứ 6 về xử lý văn bản. Trong Vision Arena, Qwen3.7-Plus-Preview xếp thứ 16 tổng thể, đưa Alibaba trở thành phòng thí nghiệm thứ 5 về thị giác. Xếp hạng mô hình và xếp hạng phòng thí nghiệm là hai số liệu riêng biệt.
Qwen3.7-Plus-Preview được mô tả là phiên bản xem trước cân bằng hiệu suất cao, tập trung vào khả năng suy luận và biểu đạt logic, với chuỗi công cụ sẽ dần được mở trong tương lai. Nó xử lý đầu vào thị giác và đa phương thức. Qwen3.7-Max là mô hình chủ lực chỉ xử lý văn bản. Bài viết này đề cập đến Qwen3.7-Max, vì đây là mô hình mà Alibaba đã chính thức công bố với quyền truy cập API.
Qwen3.7-Max được thiết kế cho mục đích gì
Đội ngũ Qwen của Alibaba đã mô tả Qwen3.7-Max là mô hình tác nhân tiên tiến và toàn diện nhất của họ cho đến nay. Mô hình này là độc quyền và có trọng số đóng. Nó có khả năng xử lý mã hóa và gỡ lỗi, tự động hóa quy trình làm việc văn phòng và các tác vụ dài hạn kéo dài hàng trăm hoặc thậm chí hàng nghìn bước.
Chế độ tư duy mở rộng
Qwen3.7-Max là một mô hình suy luận. Mô hình này tạo ra một chuỗi suy nghĩ trước tiên – một chuỗi các bước nội bộ nơi nó lập kế hoạch, kiểm tra công việc của mình và điều chỉnh hướng đi trước khi đưa ra câu trả lời cuối cùng. Trên các giao diện như Qwen Chat, điều này hiển thị dưới dạng chế độ "Thinking" mà bạn có thể bật để xem dấu vết suy luận của mô hình.
Các mô hình suy luận tạo ra nhiều mã thông báo đầu ra hơn đáng kể so với các hoàn thành tiêu chuẩn. Khi Artificial Analysis chạy đánh giá Chỉ số thông minh của mình, Qwen3.7-Max đã tạo ra khoảng 97 triệu mã thông báo, so với mức trung bình 24 triệu cho các mô hình trên điểm chuẩn đó. Đối với các tác vụ ngắn hoặc đơn giản, chi phí này làm tăng độ trễ mà không cải thiện chất lượng đầu ra. Đối với lập kế hoạch đa bước, tái cấu trúc mã hoặc chuỗi tác nhân dài, chế độ tư duy mở rộng là nơi sức mạnh của mô hình được áp dụng.
Cửa sổ ngữ cảnh
Mô hình có cửa sổ ngữ cảnh 1 triệu mã thông báo, tăng từ 256 nghìn trên Qwen3.6 Max Preview. Nó chỉ hỗ trợ đầu vào và đầu ra văn bản. Giá cả vẫn chưa được công bố. Qwen3.6 Max Preview có giá 1,30 USD/7,80 USD cho mỗi triệu mã thông báo đầu vào/đầu ra trên Alibaba Cloud.
Cửa sổ ngữ cảnh một triệu mã thông báo có thể chứa toàn bộ kho lưu trữ mã kích thước trung bình hoặc một chồng tài liệu lớn trong một yêu cầu duy nhất. Các mô hình thường suy luận kém tin cậy hơn khi cửa sổ ngữ cảnh đầy. Thử nghiệm ngữ cảnh dài độc lập cho Qwen3.7-Max vẫn chưa có sẵn.
Kết quả điểm chuẩn
Qwen3.7-Max đạt 56,6 điểm trên Chỉ số thông minh của Artificial Analysis, xếp thứ năm tổng thể. Con số này thể hiện mức tăng 4,8 điểm so với phiên bản tiền nhiệm Qwen3.6 Max Preview (51,8) và vượt qua Gemini 3.5 Flash của Google (55,3). GPT-5.5 (60,2), Claude Opus 4.7 (57,3) và Gemini 3.1 Pro Preview (57,2) vẫn dẫn đầu bảng xếp hạng tổng thể.
Chỉ số Thông minh (Intelligence Index) phiên bản 4.0 tổng hợp mười đánh giá, bao gồm GDPval-AA, Terminal-Bench Hard, SciCode, AA-Omniscience, Humanity’s Last Exam và GPQA Diamond.
https://qwen.ai/blog?id=qwen3.7
Sự cải thiện so với Qwen3.6 Max Preview không đồng đều. Hầu hết các điểm tăng của Chỉ số tập trung vào khả năng suy luận khoa học, năng lực tác nhân (agentic capability) và lập trình. CritPt tăng 9,7 điểm phần trăm (từ 3,7% lên 13,4%), Humanity’s Last Exam tăng 9,2 điểm (từ 28,9% lên 38,1%) và Terminal-Bench Hard tăng 6,9 điểm (từ 43,9% lên 50,8%). GDPval-AA tăng 42 điểm Elo (từ 1504 lên 1546). Điểm số trên các tiêu chuẩn khác phần lớn không thay đổi so với Qwen3.6 Max Preview.
Một kết quả trên Chỉ số cần được đọc kỹ. Trên AA-Omniscience, độ chính xác thô của Qwen3.7-Max thực tế đã giảm 7,6 điểm phần trăm (từ 37,7% xuống 30,1%), trong khi tỷ lệ ảo giác (hallucination rate) giảm 21,3 điểm (từ 44,2% xuống 22,9%). Mô hình này chọn nói "Tôi không biết" thường xuyên hơn thay vì nhớ lại nhiều sự kiện hơn. Tỷ lệ thử nghiệm của nó giảm từ 67,3% xuống 48,0%, mức thấp nhất trong số các mô hình tiên tiến trong so sánh. Tiêu chuẩn AA-Omniscience thưởng cho các câu trả lời đúng và phạt các ảo giác nhưng không phạt việc từ chối trả lời. Đối với các trường hợp sử dụng phụ thuộc vào khả năng nhớ lại thông tin rộng lớn, đây là một hạn chế đáng kể cần kiểm tra đối với khối lượng công việc của bạn.
Trong Text Arena, Qwen3.7-Max-Preview xếp hạng 13 tổng thể với điểm Elo là 1.475. Xếp hạng theo danh mục bao gồm hạng 7 về Toán học, hạng 9 về Lời nhắc chuyên gia (Expert Prompts), hạng 9 về Phần mềm và CNTT, và hạng 10 về Lập trình.
Tất cả các con số tiêu chuẩn đều là sơ bộ. Mô hình mang chế độ 'Preview' (Xem trước), cho thấy Alibaba coi đây là một bản dựng ban đầu.
Hiệu suất tác nhân (Agentic Performance) — Thử nghiệm nội bộ
Trong một thử nghiệm nội bộ của Alibaba trên nền tảng chip mới, mô hình đã tự động thực hiện hơn 1.000 lệnh gọi công cụ (tool calls) và các sửa đổi mã lặp đi lặp lại để tối ưu hóa một nhân (kernel) quan trọng. Alibaba tuyên bố quá trình này đã cải thiện tốc độ suy luận (inference speed) khoảng 10 lần so với phiên bản trước.
Giải thích trực quan của Marktechpost
Cách sử dụng Qwen3.7-Max
Hướng dẫn thực tế dành cho nhà phát triển và nhà khoa học dữ liệu
Tháng 5 năm 2026
Tổng quan
Bắt đầu nhanh
Truy cập API
Chế độ tư duy
Sử dụng tác nhân
Hạn chế
Trang 1 trên 6
Qwen3.7-Max là gì?
Một mô hình suy luận độc quyền từ Alibaba, được thiết kế cho các tác vụ tác nhân dài hạn (long-horizon agent tasks), tạo mã và tự động hóa nhiều bước.
Cửa sổ ngữ cảnh (Context Window)
1 triệu token — đủ để chứa toàn bộ một kho lưu trữ mã kích thước trung bình trong một yêu cầu duy nhất.
Nguồn tin: MarkTechPost — Tác giả: Asif Razzaq. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.