Google Gemma 4 12B: Kiến trúc, Điểm chuẩn, Cách truy cập và Hướng dẫn thực hành cho nhà phát triển
Ngày 3/6/2026, Google đã giới thiệu Gemma 4 12B Unified, một mô hình đa phương thức mã nguồn mở được thiết kế để hiểu văn bản, hình ảnh, âm thanh và video trong một kiến trúc duy nhất. Mô hình này kết hợp cửa sổ ngữ cảnh 256K với thiết kế hiệu quả, thân thiện với máy tính xách tay, hướng đến các quy trình làm việc tác nhân (agentic workflows) và triển khai cục bộ. Bản phát hành này cũng đặt ra những câu hỏi thú vị về chiến lược AI rộng lớn hơn của Google, [...] Bài viết Google Gemma 4 12B: Kiến trúc, Điểm chuẩn, Truy cập và Hướng dẫn thực hành cho nhà phát triển xuất hiện đầu tiên trên Analytics Vidhya.
Gemma 4 12B: AI đa phương thức mã nguồn mở của Google
Hội nghị AI tương lai nhất của Ấn Độ đã trở lại – Lớn hơn, Sắc nét hơn, Táo bạo hơn
d : h : m : s
Xem chi tiết
Các khóa học miễn phí
Các khóa học miễn phí
Lộ trình học tập
Chương trình tăng tốc
Chương trình tăng tốc
Mới
Chương trình GenAI Pinnacle
GenAI Pinnacle Plus
Người tiên phong AI tác nhân
Mới
DeepSeek
Hội nghị thượng đỉnh DataHack 2025
DHS 2026
Các khóa học miễn phí
Đăng nhập
Chuyển chế độ
Đăng xuất
Chuẩn bị phỏng vấn
Sự nghiệp
GenAI
Kỹ thuật nhắc lệnh
ChatGPT
LLM
Langchain
RAG
AI Agents
Học máy
Học sâu
Công cụ GenAI
LLMOps
Python
NLP
SQL
Dự án AIML
Danh sách đọc
Lộ trình học tập của nhà phân tích dữ liệu
Cách trở thành nhà phân tích dữ liệu vào năm 2025: Lộ trình hoàn chỉnh
Lộ trình học tập Tableau
Lộ trình học tập toàn diện về Tableau vào năm 2025
Lộ trình học tập NLP
Lộ trình học tập NLP toàn diện 2025
Lộ trình học tập của nhà khoa học dữ liệu
Lộ trình học tập để trở thành nhà khoa học dữ liệu vào năm 2025
Lộ trình học tập của kỹ sư dữ liệu
Lộ trình từng bước để trở thành kỹ sư dữ liệu vào năm 2025
Lộ trình học tập MLOps
Lộ trình học tập MLOps toàn diện: Phiên bản 2025
Lộ trình học tập của kỹ sư AI
Lộ trình để trở thành kỹ sư AI vào năm 2025
Lộ trình học tập thị giác máy tính
Lộ trình học tập toàn diện để thành thạo thị giác máy tính vào năm 2025
Lộ trình học tập AI tạo sinh
Lộ trình tốt nhất để học AI tạo sinh vào năm 2025
Lộ trình AI tạo sinh cho doanh nghiệp
Lộ trình GenAI cho doanh nghiệp
Lộ trình LLM
Các mô hình ngôn ngữ lớn được giải mã: Lộ trình dành cho người mới bắt đầu
Lộ trình kỹ sư nhắc lệnh
Lộ trình học tập để trở thành chuyên gia kỹ thuật nhắc lệnh
Trang chủ
LLM
Google Gemma 4 12B: Kiến trúc, điểm chuẩn, quyền truy cập và hướng dẫn thực hành...
Google Gemma 4 12B: Kiến trúc, điểm chuẩn, quyền truy cập và hướng dẫn thực hành dành cho nhà phát triển
Harsh Mishra
Cập nhật lần cuối:
05 tháng 6 năm 2026
6 phút đọc
Ngày 3 tháng 6 năm 2026, Google đã giới thiệu Gemma 4 12B Unified, một mô hình đa phương thức mã nguồn mở được thiết kế để hiểu văn bản, hình ảnh, âm thanh và video trong một kiến trúc duy nhất. Mô hình này kết hợp cửa sổ ngữ cảnh 256K với thiết kế hiệu quả, thân thiện với máy tính xách tay, hướng đến các quy trình làm việc tác nhân và triển khai cục bộ.
Bản phát hành này cũng đặt ra những câu hỏi thú vị về chiến lược AI rộng lớn hơn của Google, đặc biệt là khoảng cách giữa các mô hình được nhấn mạnh trong các API công khai và những mô hình được cung cấp rộng rãi thông qua các công cụ mã nguồn mở. Trong bài viết này, chúng ta sẽ xem xét kiến trúc, khả năng của Gemma 4 12B Unified và ý nghĩa của bản phát hành này đối với các nhà phát triển.
Mục lục
Gemma 4 12B là gì? Các tính năng chính
Tại sao Google cần một mô hình thống nhất cỡ trung bình?
Những thay đổi chính so với các mô hình Gemma 4 trước đó
Tổng quan kiến trúc
Khả dụng và truy cập
Thực hành: Chạy Gemma 4 12B với Ollama
Thực hành: Hiểu hình ảnh
Điểm chuẩn và so sánh
Kết luận
Gemma 4 12B là gì?
Gemma 4 12B Unified là mô hình mã nguồn mở cỡ trung của Google DeepMind trong dòng sản phẩm Gemma 4. Google mô tả đây là một mô hình đa phương thức dày đặc được xây dựng để mang trí tuệ đa phương thức tác nhân trực tiếp đến máy tính xách tay. Mô hình này thu hẹp khoảng cách giữa mô hình biên Gemma 4 E4B nhỏ hơn và mô hình Chuyên gia hỗn hợp Gemma 4 26B A4B lớn hơn.
Thẻ mô hình công khai liệt kê các mô hình Gemma 4 với năm kích thước: E2B, E4B, 12B Unified, 26B A4B và 31B. Gemma 4 12B Unified có 11,95 tỷ tham số, 48 lớp, cơ chế chú ý cửa sổ trượt 1024 token, cửa sổ ngữ cảnh 256K, từ vựng 262K và hỗ trợ đầu vào văn bản, hình ảnh, âm thanh.
Các tính năng chính
Gemma 4 12B hỗ trợ:
Tạo văn bản và trò chuyện
Suy luận ngữ cảnh dài lên đến 256K token
Mã hóa, hoàn thành mã và sửa lỗi mã
Gọi hàm cho các quy trình làm việc tác nhân
Hiểu video bằng cách xử lý video dưới dạng khung hình
Nhận dạng giọng nói âm thanh và dịch giọng nói sang văn bản đã dịch
Sử dụng đa ngôn ngữ, với hỗ trợ sẵn có cho hơn 35 ngôn ngữ và được đào tạo trước trên hơn 140 ngôn ngữ
Google cũng nhấn mạnh tính năng nhận dạng giọng nói tự động, phân tách giọng nói, hiểu video, mã hóa và suy luận tác nhân trong hướng dẫn dành cho nhà phát triển Gemma 4 12B.
Lý do Google cần một mô hình thống nhất cỡ trung?
Dòng sản phẩm Gemma 4 ban đầu được phát hành vào ngày 31/3/2026 với các biến thể E2B, E4B, 31B và 26B A4B. Sau đó, Google phát hành Gemma 4 MTP drafters vào ngày 16/4/2026, tiếp theo là Gemma 4 12B Unified vào ngày 3/6/2026. Điều này cho thấy bản phát hành 12B là một sự mở rộng tiếp theo của dòng sản phẩm chứ không phải là lần ra mắt Gemma 4 ban đầu.
Bản phát hành này lấp đầy một khoảng trống triển khai thực tế. E2B và E4B được thiết kế cho các trường hợp sử dụng biên và thiết bị di động, trong khi 26B A4B và 31B nhắm đến các máy trạm và máy chủ cao cấp hơn. Gemma 4 12B được định vị là một mô hình sẵn sàng cho máy tính xách tay, cung cấp khả năng suy luận và đa phương thức mạnh mẽ hơn so với các mô hình biên, đồng thời sử dụng ít bộ nhớ hơn so với mô hình MoE 26B lớn hơn.
Những thay đổi chính so với các mô hình Gemma 4 trước đó
| Lĩnh vực | Các mô hình Gemma 4 trước đó | Gemma 4 12B Unified |
|---|---|---|
| Kích thước mô hình | Ban đầu là E2B, E4B, 26B A4B, 31B | Bổ sung tùy chọn 12B dày đặc cỡ trung |
| Thiết kế đa phương thức | Các mô hình khác sử dụng bộ mã hóa hình ảnh và âm thanh chuyên dụng tùy theo kích thước | Chiếu hình ảnh và âm thanh vào LLM không cần bộ mã hóa |
| Âm thanh | E2B và E4B có âm thanh gốc; 31B và 26B A4B không liệt kê hỗ trợ âm thanh | Mô hình Gemma 4 cỡ trung đầu tiên có âm thanh gốc |
| Ngữ cảnh | 128K cho E2B/E4B, 256K cho các mô hình lớn hơn | 256K |
| Mục tiêu triển khai | Các mô hình biên cho thiết bị di động, các mô hình lớn hơn cho máy trạm và máy chủ | Các tác nhân đa phương thức cục bộ ưu tiên máy tính xách tay |
| Tinh chỉnh | Các bộ mã hóa riêng biệt có thể làm tăng độ phức tạp | Vòng lặp token thống nhất có thể được tinh chỉnh trong một lần |
| Điểm chuẩn | E4B nhẹ hơn, 26B A4B mạnh hơn | 12B nằm giữa chúng trong hầu hết các trường hợp |



Nguồn tin: Analytics Vidhya — Tác giả: Harsh Mishra. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.