Bỏ qua tới nội dung chính
Quay lại tin tức

Google Gemma 4 12B: Kiến trúc, Điểm chuẩn, Cách truy cập và Hướng dẫn thực hành cho nhà phát triển

Analytics Vidhya· Harsh Mishra· 5/6/2026general

Ngày 3/6/2026, Google đã giới thiệu Gemma 4 12B Unified, một mô hình đa phương thức mã nguồn mở được thiết kế để hiểu văn bản, hình ảnh, âm thanh và video trong một kiến trúc duy nhất. Mô hình này kết hợp cửa sổ ngữ cảnh 256K với thiết kế hiệu quả, thân thiện với máy tính xách tay, hướng đến các quy trình làm việc tác nhân (agentic workflows) và triển khai cục bộ. Bản phát hành này cũng đặt ra những câu hỏi thú vị về chiến lược AI rộng lớn hơn của Google, [...] Bài viết Google Gemma 4 12B: Kiến trúc, Điểm chuẩn, Truy cập và Hướng dẫn thực hành cho nhà phát triển xuất hiện đầu tiên trên Analytics Vidhya.

Gemma 4 12B: AI đa phương thức mã nguồn mở của Google Hội nghị AI tương lai nhất của Ấn Độ đã trở lại – Lớn hơn, Sắc nét hơn, Táo bạo hơn d : h : m : s Xem chi tiết Các khóa học miễn phí Các khóa học miễn phí Lộ trình học tập Chương trình tăng tốc Chương trình tăng tốc Mới Chương trình GenAI Pinnacle GenAI Pinnacle Plus Người tiên phong AI tác nhân Mới DeepSeek Hội nghị thượng đỉnh DataHack 2025 DHS 2026 Các khóa học miễn phí Đăng nhập Chuyển chế độ Đăng xuất Chuẩn bị phỏng vấn Sự nghiệp GenAI Kỹ thuật nhắc lệnh ChatGPT LLM Langchain RAG AI Agents Học máy Học sâu Công cụ GenAI LLMOps Python NLP SQL Dự án AIML Danh sách đọc Lộ trình học tập của nhà phân tích dữ liệu Cách trở thành nhà phân tích dữ liệu vào năm 2025: Lộ trình hoàn chỉnh Lộ trình học tập Tableau Lộ trình học tập toàn diện về Tableau vào năm 2025 Lộ trình học tập NLP Lộ trình học tập NLP toàn diện 2025 Lộ trình học tập của nhà khoa học dữ liệu Lộ trình học tập để trở thành nhà khoa học dữ liệu vào năm 2025 Lộ trình học tập của kỹ sư dữ liệu Lộ trình từng bước để trở thành kỹ sư dữ liệu vào năm 2025 Lộ trình học tập MLOps Lộ trình học tập MLOps toàn diện: Phiên bản 2025 Lộ trình học tập của kỹ sư AI Lộ trình để trở thành kỹ sư AI vào năm 2025 Lộ trình học tập thị giác máy tính Lộ trình học tập toàn diện để thành thạo thị giác máy tính vào năm 2025 Lộ trình học tập AI tạo sinh Lộ trình tốt nhất để học AI tạo sinh vào năm 2025 Lộ trình AI tạo sinh cho doanh nghiệp Lộ trình GenAI cho doanh nghiệp Lộ trình LLM Các mô hình ngôn ngữ lớn được giải mã: Lộ trình dành cho người mới bắt đầu Lộ trình kỹ sư nhắc lệnh Lộ trình học tập để trở thành chuyên gia kỹ thuật nhắc lệnh Trang chủ LLM Google Gemma 4 12B: Kiến trúc, điểm chuẩn, quyền truy cập và hướng dẫn thực hành... Google Gemma 4 12B: Kiến trúc, điểm chuẩn, quyền truy cập và hướng dẫn thực hành dành cho nhà phát triển Harsh Mishra Cập nhật lần cuối: 05 tháng 6 năm 2026 6 phút đọc Ngày 3 tháng 6 năm 2026, Google đã giới thiệu Gemma 4 12B Unified, một mô hình đa phương thức mã nguồn mở được thiết kế để hiểu văn bản, hình ảnh, âm thanh và video trong một kiến trúc duy nhất. Mô hình này kết hợp cửa sổ ngữ cảnh 256K với thiết kế hiệu quả, thân thiện với máy tính xách tay, hướng đến các quy trình làm việc tác nhân và triển khai cục bộ. Bản phát hành này cũng đặt ra những câu hỏi thú vị về chiến lược AI rộng lớn hơn của Google, đặc biệt là khoảng cách giữa các mô hình được nhấn mạnh trong các API công khai và những mô hình được cung cấp rộng rãi thông qua các công cụ mã nguồn mở. Trong bài viết này, chúng ta sẽ xem xét kiến trúc, khả năng của Gemma 4 12B Unified và ý nghĩa của bản phát hành này đối với các nhà phát triển. Mục lục Gemma 4 12B là gì? Các tính năng chính Tại sao Google cần một mô hình thống nhất cỡ trung bình? Những thay đổi chính so với các mô hình Gemma 4 trước đó Tổng quan kiến trúc Khả dụng và truy cập Thực hành: Chạy Gemma 4 12B với Ollama Thực hành: Hiểu hình ảnh Điểm chuẩn và so sánh Kết luận Gemma 4 12B là gì? Gemma 4 12B Unified là mô hình mã nguồn mở cỡ trung của Google DeepMind trong dòng sản phẩm Gemma 4. Google mô tả đây là một mô hình đa phương thức dày đặc được xây dựng để mang trí tuệ đa phương thức tác nhân trực tiếp đến máy tính xách tay. Mô hình này thu hẹp khoảng cách giữa mô hình biên Gemma 4 E4B nhỏ hơn và mô hình Chuyên gia hỗn hợp Gemma 4 26B A4B lớn hơn. Thẻ mô hình công khai liệt kê các mô hình Gemma 4 với năm kích thước: E2B, E4B, 12B Unified, 26B A4B và 31B. Gemma 4 12B Unified có 11,95 tỷ tham số, 48 lớp, cơ chế chú ý cửa sổ trượt 1024 token, cửa sổ ngữ cảnh 256K, từ vựng 262K và hỗ trợ đầu vào văn bản, hình ảnh, âm thanh. Các tính năng chính Gemma 4 12B hỗ trợ: Tạo văn bản và trò chuyện Suy luận ngữ cảnh dài lên đến 256K token Mã hóa, hoàn thành mã và sửa lỗi mã Gọi hàm cho các quy trình làm việc tác nhân Hiểu video bằng cách xử lý video dưới dạng khung hình Nhận dạng giọng nói âm thanh và dịch giọng nói sang văn bản đã dịch Sử dụng đa ngôn ngữ, với hỗ trợ sẵn có cho hơn 35 ngôn ngữ và được đào tạo trước trên hơn 140 ngôn ngữ Google cũng nhấn mạnh tính năng nhận dạng giọng nói tự động, phân tách giọng nói, hiểu video, mã hóa và suy luận tác nhân trong hướng dẫn dành cho nhà phát triển Gemma 4 12B. Lý do Google cần một mô hình thống nhất cỡ trung? Dòng sản phẩm Gemma 4 ban đầu được phát hành vào ngày 31/3/2026 với các biến thể E2B, E4B, 31B và 26B A4B. Sau đó, Google phát hành Gemma 4 MTP drafters vào ngày 16/4/2026, tiếp theo là Gemma 4 12B Unified vào ngày 3/6/2026. Điều này cho thấy bản phát hành 12B là một sự mở rộng tiếp theo của dòng sản phẩm chứ không phải là lần ra mắt Gemma 4 ban đầu. Bản phát hành này lấp đầy một khoảng trống triển khai thực tế. E2B và E4B được thiết kế cho các trường hợp sử dụng biên và thiết bị di động, trong khi 26B A4B và 31B nhắm đến các máy trạm và máy chủ cao cấp hơn. Gemma 4 12B được định vị là một mô hình sẵn sàng cho máy tính xách tay, cung cấp khả năng suy luận và đa phương thức mạnh mẽ hơn so với các mô hình biên, đồng thời sử dụng ít bộ nhớ hơn so với mô hình MoE 26B lớn hơn. Những thay đổi chính so với các mô hình Gemma 4 trước đó | Lĩnh vực | Các mô hình Gemma 4 trước đó | Gemma 4 12B Unified | |---|---|---| | Kích thước mô hình | Ban đầu là E2B, E4B, 26B A4B, 31B | Bổ sung tùy chọn 12B dày đặc cỡ trung | | Thiết kế đa phương thức | Các mô hình khác sử dụng bộ mã hóa hình ảnh và âm thanh chuyên dụng tùy theo kích thước | Chiếu hình ảnh và âm thanh vào LLM không cần bộ mã hóa | | Âm thanh | E2B và E4B có âm thanh gốc; 31B và 26B A4B không liệt kê hỗ trợ âm thanh | Mô hình Gemma 4 cỡ trung đầu tiên có âm thanh gốc | | Ngữ cảnh | 128K cho E2B/E4B, 256K cho các mô hình lớn hơn | 256K | | Mục tiêu triển khai | Các mô hình biên cho thiết bị di động, các mô hình lớn hơn cho máy trạm và máy chủ | Các tác nhân đa phương thức cục bộ ưu tiên máy tính xách tay | | Tinh chỉnh | Các bộ mã hóa riêng biệt có thể làm tăng độ phức tạp | Vòng lặp token thống nhất có thể được tinh chỉnh trong một lần | | Điểm chuẩn | E4B nhẹ hơn, 26B A4B mạnh hơn | 12B nằm giữa chúng trong hầu hết các trường hợp |

Nguồn tin: Analytics Vidhya — Tác giả: Harsh Mishra. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.