Bỏ qua tới nội dung chính
Quay lại tin tức

Đội ngũ Qwen của Alibaba đã ra mắt Qwen3.7-Plus, bổ sung các tính năng thị giác, suy luận sâu, gọi công cụ và lặp lại tự động trên nền tảng Bailian.

MarkTechPost· Michal Sutter· 2/6/2026general

Nhóm Qwen của Alibaba đã phát hành Qwen3.7-Plus. Mô hình này hiện có sẵn thông qua nền tảng Bailian của Alibaba Cloud. Bailian là bảng điều khiển mà người dùng quốc tế truy cập với tên gọi Model Studio. Nền tảng này cung cấp dịch vụ API cho các nhà phát triển bên ngoài. Việc phát hành này diễn ra sau khi Alibaba ra mắt thế hệ Qwen3.7 vào tháng 5. Qwen3.7-Plus Qwen3.7-Plus là một mô hình ngôn ngữ lớn đa phương thức. Mô hình này hiểu hình ảnh và video, cùng với các lời nhắc bằng văn bản. Phiên bản tương tự của nó, Qwen3.7-Max, chỉ xử lý văn bản. Đây là khả năng hiểu hình ảnh, không phải tạo hình ảnh. Mô hình đọc hình ảnh và video; nó không tạo ra chúng.

Đội ngũ Qwen của Alibaba đã phát hành Qwen3.7-Plus. Mô hình này hiện có sẵn thông qua nền tảng Bailian của Alibaba Cloud. Bailian là bảng điều khiển mà người dùng quốc tế truy cập với tên gọi Model Studio. Nền tảng này cung cấp dịch vụ API cho các nhà phát triển bên ngoài. Việc phát hành diễn ra sau khi Alibaba công bố thế hệ Qwen3.7 vào tháng 5. Qwen3.7-Plus Qwen3.7-Plus là một mô hình ngôn ngữ lớn đa phương thức. Mô hình này hiểu hình ảnh và video, cùng với các lời nhắc bằng văn bản. Phiên bản song sinh của nó, Qwen3.7-Max, chỉ xử lý văn bản. Đây là khả năng hiểu thị giác, không phải tạo ra. Mô hình đọc hình ảnh và video; nó không tạo ra chúng. Công việc tạo hình ảnh và video của Alibaba nằm trong các dòng mô hình riêng biệt. Đội ngũ Alibaba mô tả việc phát hành này là một bước tiến trong công nghệ tác nhân lai đa phương thức. Một tác nhân là một mô hình lập kế hoạch và hành động qua nhiều bước. Dựa trên khả năng hiểu hình ảnh và video, Qwen3.7-Plus bổ sung năm khả năng. Đó là suy luận sâu, tự lập trình, gọi công cụ, xác minh và kiểm thử, và lặp lại tự động. Tự lập trình có nghĩa là mô hình tự viết và sửa đổi mã của chính nó. Gọi công cụ có nghĩa là nó gọi các hàm hoặc API bên ngoài. Xác minh và kiểm thử có nghĩa là nó chạy các đầu ra và kiểm tra kết quả. Lặp lại tự động có nghĩa là nó lặp lại cho đến khi hoàn thành nhiệm vụ. Cùng nhau, chúng mô tả một mô hình được xây dựng để hành động, không chỉ trả lời. Trường hợp thị giác Qwen3.7-Plus là một nửa đa phương thức của dòng 3.7. Bản xem trước của nó đã đăng tải các kết quả thị giác có thể đo lường được. Trong Vision Arena, Qwen3.7-Plus-Preview xếp hạng 16 tổng thể. Điều đó đưa Alibaba trở thành phòng thí nghiệm thứ 5 về thị giác. Xếp hạng mô hình và xếp hạng phòng thí nghiệm là các số liệu riêng biệt. Vision Arena là một bảng xếp hạng trung lập do LM Arena điều hành. Người dùng bình chọn các câu trả lời hiểu hình ảnh trong các trận đấu ẩn danh. Kết quả xếp hạng 16 nằm sau các phòng thí nghiệm hàng đầu của Hoa Kỳ, nhưng vẫn trong phạm vi. Đối với công việc nặng về hình ảnh, đây là tín hiệu quan trọng. Ví dụ như OCR ở quy mô lớn, đọc biểu đồ hoặc phân tích khung video. Phiên bản song sinh Max chỉ xử lý văn bản củng cố khả năng suy luận của thế hệ này. Max đạt 56,6 điểm trên Chỉ số Trí tuệ Phân tích Nhân tạo. Đó là vị trí cao nhất đối với một mô hình Trung Quốc tại thời điểm phát hành. https://qwen.ai/blog?id=qwen3.7-plus Vòng lặp tác nhân Sự thay đổi rõ ràng trong Qwen3.7 là trọng tâm tác nhân của nó. Đội ngũ Alibaba đang định vị các mô hình cho các nhiệm vụ dài hạn. Bailian, nền tảng lưu trữ, bổ sung hai yếu tố liên quan. Đầu tiên là cơ chế RL (học tăng cường) tác nhân. Nền tảng sử dụng phản hồi thực thi trong thế giới thực để tinh chỉnh độ chính xác của mô hình theo thời gian. Thứ hai là một bộ các hàng rào bảo vệ an toàn tích hợp. Những hàng rào này giữ cho các công cụ tự động nằm trong giới hạn hoạt động đã đặt trước. Chi tiết đó quan trọng khi một tác nhân chạy lệnh hoặc chỉnh sửa tệp. Giải thích trực quan của Marktechpost Mô hình AI · Hướng dẫn thực địa 1 / 7 Alibaba Qwen · Ngày 2/6/2026 Qwen3.7-Plus, mô hình tác nhân đa phương thức của Alibaba, hiện có trên Bailian Một mô hình ngôn ngữ lớn đa phương thức với khả năng hiểu hình ảnh và video, suy luận sâu và các tính năng tác nhân. Có sẵn thông qua API trên nền tảng Bailian của Alibaba Cloud, được truy cập quốc tế với tên gọi Model Studio. Sử dụng các mũi tên hoặc vuốt để khám phá → 01 · Nó là gì Một mô hình ngôn ngữ lớn đa phương thức Đa phương thức — nó đọc hình ảnh và video, cùng với đầu vào văn bản. Hiểu thị giác, không phải tạo ra — nó đọc phương tiện, nó không tạo ra chúng. Phiên bản đa phương thức song sinh với Qwen3.7-Max chỉ xử lý văn bản. Alibaba mô tả nó là công nghệ tác nhân lai đa phương thức. 02 · Khả năng Năm khả năng vượt trội so với khả năng nhìn Suy luận sâu sắc — giải quyết vấn đề từng bước một. Tự lập trình — tự viết và sửa đổi mã của chính nó. Gọi công cụ — gọi các hàm hoặc API bên ngoài. Xác minh và kiểm thử — chạy đầu ra và kiểm tra kết quả. Lặp lại tự động — lặp lại cho đến khi hoàn thành nhiệm vụ. 03 · Điểm chuẩn thị giác Vị trí về thị giác Bản xem trước xếp hạng 16 chung cuộc trong Vision Arena (LM Arena). Điều này đưa Alibaba trở thành phòng thí nghiệm đứng thứ 5 về thị giác. Thứ hạng mô hình và thứ hạng phòng thí nghiệm là các số liệu riêng biệt. Liên quan đến OCR, đọc biểu đồ và phân tích khung video. Để tham khảo, phiên bản Max chỉ có văn bản đã đạt 56,6 điểm trên Chỉ số Trí tuệ Phân tích Nhân tạo, là mô hình Trung Quốc cao nhất khi phát hành. 04 · Vòng lặp tác nhân Được xây dựng cho các tác vụ chạy dài Bailian bổ sung cơ chế Học tăng cường (RL) tác nhân. Nó sử dụng phản hồi thực thi trong thế giới thực để tinh chỉnh độ chính xác. Các hàng rào bảo vệ an toàn tích hợp giữ cho các công cụ tự động trong giới hạn. Điều đó quan trọng khi một tác nhân chạy lệnh hoặc chỉnh sửa tệp. 05 · Đã xác nhận so với chưa xác nhận Những gì chúng ta biết hôm nay Đã xác nhận Hiểu hình ảnh và video Bộ tính năng tác nhân Truy cập API Bailian Độc quyền, chỉ API Chưa được công bố Bảng giá công khai Kích thước cửa sổ ngữ cảnh Giới hạn token đầu ra Trọng số mở 06 · Tại sao nó quan trọng Đọc thực tế Một phụ trợ tác nhân có khả năng thị giác thông qua một API. Phù hợp với các khối lượng công việc kết hợp hình ảnh, video và sử dụng công cụ. Thứ hạng trên bảng xếp hạng cho thấy tiềm năng, không phải là sự đảm bảo. Xác thực độ chính xác trên dữ liệu của riêng bạn trước khi cam kết. Marktechpost Nghiên cứu AI, tin tức và tín hiệu nhà phát triển cho các kỹ sư và nhà khoa học dữ liệu. Đọc thêm tại marktechpost.com. Những điểm chính Alibaba đã phát hành Qwen3.7-Plus, một mô hình đa phương thức hiện có sẵn thông qua API trên nền tảng Bailian (Model Studio) của họ. Nó hiểu hình ảnh và video làm đầu vào — hiểu, không tạo — và bổ sung các tính năng tác nhân. Các khả năng bao gồm suy luận sâu sắc, tự lập trình, gọi công cụ, xác minh và kiểm thử, và lặp lại tự động. Bản xem trước của nó xếp hạng 16 trong Vision Arena, đưa Alibaba trở thành phòng thí nghiệm đứng thứ 5 về thị giác. Kiểm tra chi tiết kỹ thuật. Ngoài ra, hãy theo dõi chúng tôi trên Twitter và đừng quên tham gia hơn 150 nghìn thành viên SubReddit ML của chúng tôi và Đăng ký nhận Bản tin của chúng tôi. Chờ đã! bạn có dùng Telegram không? bây giờ bạn cũng có thể tham gia với chúng tôi trên Telegram. Cần hợp tác với chúng tôi

Nguồn tin: MarkTechPost — Tác giả: Michal Sutter. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.