Qwen 3.5 vừa thu hẹp khoảng cách về trọng số mở. Dưới đây là ý…

Alibaba vừa công bố một mô hình mã nguồn mở vượt trội so với các mô hình độc quyền hàng đầu trên các tiêu chuẩn chính. Điều đáng chú ý không phải là yếu tố địa chính trị, mà là những gì nó mang lại cho những người đang nỗ lực hoàn thành công việc trong quý này. Vài tuần trước, nhóm Qwen của Alibaba đã tải một tệp lên Hugging Face. Tệp có dung lượng 807 gigabyte nếu muốn tải toàn bộ trọng số, hoặc 94 gigabyte nếu chọn phiên bản lượng tử hóa. Dù bằng cách nào, bất kỳ ai có kết nối internet tốc độ cao và một dàn GPU giờ đây đều có thể tải xuống một mô hình đạt 90,3 điểm trên MathVista và 85,0 điểm trên MMMU – những chiến thắng về điểm chuẩn so với các mô hình mà,

Alibaba vừa công bố một mô hình mã nguồn mở đánh bại các mô hình đóng tiên tiến trên các tiêu chuẩn chính. Điều thú vị không phải là địa chính trị, mà là những gì nó mở ra cho những người đang cố gắng đưa sản phẩm ra thị trường trong quý này. Nguồn: Hình ảnh được tạo bằng AI. Vài tuần trước, nhóm Qwen của Alibaba đã tải một tệp lên Hugging Face. 807 gigabyte nếu bạn muốn toàn bộ trọng số. 94 gigabyte nếu bạn chọn phiên bản lượng tử hóa. Data Center Dynamics. Dù bằng cách nào, bất kỳ ai có kết nối internet nhanh và một dàn GPU giờ đây đều có thể tải xuống một mô hình đạt 90,3 điểm trên MathVista và 85,0 điểm trên MMMU – những chiến thắng về tiêu chuẩn so với các mô hình mà chỉ năm ngoái, bạn chỉ có thể truy cập thông qua một API trả phí. ActuIA. Đây là khoảnh khắc mà nhiều người trong chúng ta đã chờ đợi mà không thực sự thừa nhận. Phía mã nguồn mở của thế giới AI đã theo đuổi các phòng thí nghiệm đóng trong hai năm. Kể từ bản phát hành này, khoảng cách đủ nhỏ để câu hỏi "tôi nên xây dựng trên mã nguồn mở hay mã nguồn đóng?" thực sự có hai câu trả lời hợp lý lần đầu tiên. Tôi muốn đi sâu vào lý do tại sao điều đó quan trọng, tôi sẽ thực sự làm gì với nó và điều mà tôi nghĩ hầu hết các bài viết đang bỏ lỡ. Nguồn: Hình ảnh của tác giả sử dụng Canva. Thuế ẩn mà hầu hết các nhà phát triển đã trả. Nếu bạn đã phát hành bất kỳ sản phẩm nào dựa trên API mô hình đóng, bạn đã phải trả một khoản thuế. Không chỉ là giá token – mặc dù đó là thực tế. Khoản thuế là tất cả những gì đi kèm với việc không sở hữu mô hình. Bạn không thể tinh chỉnh nó trên dữ liệu của mình mà không gửi dữ liệu đến máy chủ của người khác. Bạn không thể chạy nó ngoại tuyến. Bạn không thể tùy chỉnh nó cho một ngôn ngữ hoặc lĩnh vực chuyên biệt mà không phải cầu xin hỗ trợ. Bạn không thể dự đoán giá sáu tháng tới, vì nhà cung cấp có thể thay đổi nó. Bạn không thể lưu trữ nó bên trong VPC của riêng mình vì lý do tuân thủ. Và mỗi khi nhà cung cấp ngừng hỗ trợ một phiên bản, sản phẩm của bạn phải vội vàng điều chỉnh. Đối với hầu hết các nhóm, điều này không sao cả. Các mô hình đóng đơn giản là tốt hơn. Phép tính đã đúng – trả thuế, phát hành nhanh hơn, giải quyết phần còn lại sau. Phép tính đó đã thay đổi một thời gian. DeepSeek đã thúc đẩy nó. Llama đã thúc đẩy nó. Nhưng mỗi bản phát hành mã nguồn mở trước đây đều đi kèm với một cảnh báo nhỏ: nó gần đúng, nhưng chưa hoàn toàn phù hợp cho những công việc khó khăn. Lý do hơi yếu hơn. Khả năng nhìn nhận được thêm vào. Khả năng tác nhân bị tụt hậu. Qwen 3.5 là bản phát hành đầu tiên mà tôi đọc các con số tiêu chuẩn và cảnh báo đã nhỏ hơn đáng kể. Sự thay đổi: Khả năng tiên tiến giờ đây là một bản tải xuống. Đây là những gì thực sự mới về mô hình này mà hầu hết các bài viết đang bỏ qua. Qwen3.5–397B-A17B sử dụng kiến trúc hỗn hợp chuyên gia thưa thớt. Nó có tổng cộng 397 tỷ tham số, nhưng chỉ kích hoạt 17 tỷ trên mỗi token. Điều đó có nghĩa là: nó là một mô hình lớn trên đĩa, nhưng là một mô hình nhỏ về mặt tính toán khi bạn thực sự chạy nó. Điều đó thay đổi đáng kể câu chuyện tự lưu trữ – bạn không cần một trang trại máy chủ để phục vụ nó tốt. NewsBytes. Thứ hai, nó là đa phương thức tự nhiên. Mô hình được đào tạo từ đầu trên văn bản, hình ảnh và video đồng thời, không được xây dựng như một mô hình văn bản với một bộ mã hóa hình ảnh được thêm vào. Điều đó quan trọng hơn những gì nó nghe có vẻ. Các mô hình thị giác được thêm vào có xu hướng thất bại trong các tác vụ cần lý luận chặt chẽ giữa văn bản và hình ảnh – đọc ảnh chụp màn hình giao diện người dùng, hiểu sơ đồ có chú thích, phân tích biểu đồ với chú thích của nó. Các mô hình đa phương thức tự nhiên thì không. ActuIA. Thứ ba, phạm vi ngôn ngữ được mở rộng từ 119 lên 201 phương ngữ. Nếu bạn đang xây dựng bất kỳ thứ gì cho người dùng bên ngoài các thị trường tiếng Anh lớn, đây là một sự mở khóa thầm lặng nhưng chân thực. DeepLearning.AI. Và đây là phần mà tôi luôn quay lại. Mối quan hệ trung gian. Các mô hình Qwen – phiên bản 35B và 9B – được cho là đạt 80 đến 90% độ chính xác của các mô hình tiên phong với chi phí chỉ từ 1 đến 5%. TechBriefly Hãy đọc kỹ câu này. Các mô hình nhỏ hơn mới là câu chuyện thực sự. Bạn không cần chạy mô hình chủ lực 397B để cảm nhận được tác động. Các mô hình tầm trung chạy trên một GPU khá tốt và đủ dùng cho phần lớn các trường hợp sử dụng sản phẩm thực tế. Mô hình chủ lực là bằng chứng về khái niệm cho thấy dòng sản phẩm này rất nghiêm túc. Các mô hình nhỏ hơn mới là những gì bạn thực sự sẽ triển khai. Năm điều đáng làm ngay bây giờ 1. Chạy lại bảng tính so sánh "tự xây dựng so với mua" mà bạn chưa chạy trong sáu tháng qua. Lần cuối cùng bạn định giá việc tự lưu trữ, các con số có thể không khả thi. Hãy chạy lại với giả định là mô hình Qwen 35B. Nếu sản phẩm của bạn truy cập API một triệu lần mỗi ngày, phép tính có thể đã thay đổi. Giá Qwen 3.5 được lưu trữ trên DeepInfra khoảng 0,54 USD cho đầu vào và 3,40 USD cho đầu ra trên mỗi triệu token đối với mô hình 397B – và thấp hơn nhiều đối với các phiên bản nhỏ hơn. TechBriefly 2. Thử nghiệm nó trên trường hợp sử dụng khó nhất của bạn, không phải trường hợp dễ nhất. Hầu hết các bài đánh giá tiêu chuẩn đều kiểm tra các mô hình này trên các lời nhắc suy luận tiêu chuẩn. Câu hỏi thực sự là liệu chúng có hiệu quả trong vấn đề cụ thể của bạn hay không – một quy trình hỗ trợ khách hàng chuyên sâu về lĩnh vực, một trình phân tích tài liệu tài chính, một tác nhân giọng nói không phải tiếng Anh. Dành một buổi chiều thứ Bảy để thử mười lời nhắc khó nhất của bạn thông qua Qwen Chat hoặc Hugging Face. Bạn sẽ biết trong một giờ liệu nó có khả thi đối với bạn hay không. 3. Ngừng thiết kế kiến trúc xung quanh một mô hình. Đây là sự thay đổi thói quen lớn hơn. Rất nhiều sản phẩm được xây dựng với một API duy nhất làm phụ thuộc cứng. Bây giờ là lúc để thêm một lớp trừu tượng cho phép bạn hoán đổi nhà cung cấp – hoặc hoán đổi một mô hình tự lưu trữ – mà không cần viết lại ứng dụng của bạn. Qwen thậm chí còn cung cấp một điểm cuối tương thích với Anthropic-API thông qua DashScope, có thể tích hợp trực tiếp vào Claude Code, giúp việc di chuyển thực sự rẻ. TechBriefly 4. Xem xét lại sản phẩm ngách mà bạn đã gác lại. Công cụ siêu chuyên biệt không có ý nghĩa với giá API đóng – trình dịch ngôn ngữ khu vực, trợ lý viết được đào tạo theo lĩnh vực, ứng dụng di động ưu tiên ngoại tuyến, công cụ doanh nghiệp nhạy cảm về quyền riêng tư – có thể khả thi bây giờ. Các yếu tố kinh tế đơn vị đã thay đổi một cách lặng lẽ. 5. Theo dõi các bản phát hành mã nguồn mở nhỏ hơn tiếp theo. Khi mô hình chủ lực mạnh mẽ như vậy, các phiên bản nhỏ hơn và các bản tinh chỉnh từ cộng đồng thường xuất hiện trong vòng vài tuần. Giấy phép cho phép và khả năng tự lưu trữ trên các GPU thương mại có nghĩa là sáu tháng tới sẽ tạo ra một làn sóng các biến thể chuyên biệt.

Qwen 3.5 vừa thu hẹp khoảng cách về trọng số mở. Dưới đây là ý nghĩa của điều này đối với các nhà phát triển hiện nay.