
Gemma 4 12B hỗ trợ quy trình làm việc tác nhân đa phương thức trên thiết bị với kiến trúc không bộ mã hóa
Google cho biết Gemma 4 12B được "thiết kế để mang trí tuệ đa phương thức, tác nhân trực tiếp đến máy tính xách tay của bạn". Google cũng lưu ý rằng mô hình mới có thể được kết hợp với Google AI Edge để "xây dựng và thử nghiệm cục bộ, trên các máy tính thông thường". Sự tích hợp này cho phép thực hiện nhiều khả năng, từ xử lý dữ liệu tự động đến tạo ra thông tin chi tiết trực quan và thậm chí xây dựng trang web hoặc thực thi các công cụ.
Trang chủ InfoQ
Tin tức
Gemma 4 12B cho phép quy trình làm việc tác nhân đa phương thức trên thiết bị với kiến trúc không bộ mã hóa
AI, ML & Kỹ thuật dữ liệu
Gemma 4 12B cho phép quy trình làm việc tác nhân đa phương thức trên thiết bị với kiến trúc không bộ mã hóa
Ngày 08/6/2026
Đọc trong 2 phút
Bởi
Sergio De Simone
Viết cho InfoQ
Thỏa mãn sự tò mò của bạn.
Giúp hơn 550 nghìn nhà phát triển cấp cao toàn cầu mỗi tháng luôn dẫn đầu. Liên hệ
Nghe bài viết này - 0:00
Âm thanh sẵn sàng phát
Trình duyệt của bạn không hỗ trợ phần tử âm thanh.
0:00
0:00
Bình thường 1.25x 1.5x
Thích
Danh sách đọc
Google cho biết Gemma 4 12B được "thiết kế để mang trí tuệ tác nhân, đa phương thức trực tiếp đến máy tính xách tay của bạn", đồng thời lưu ý rằng mô hình mới có thể được kết hợp với Google AI Edge để "xây dựng và thử nghiệm cục bộ, trên các máy tính thông thường". Sự tích hợp này cho phép nhiều khả năng, từ xử lý dữ liệu tự động đến tạo ra thông tin chi tiết trực quan và thậm chí xây dựng trang web hoặc thực thi các công cụ.
Về mặt kiến trúc, Gemma 4 12B sử dụng kiến trúc không bộ mã hóa (encoder-free) đa phương thức, thống nhất và mới lạ, bỏ qua nhu cầu về các bộ mã hóa hình ảnh và âm thanh riêng biệt, nhiều giai đoạn bằng cách đưa dữ liệu đa phương thức trực tiếp vào LLM (mô hình ngôn ngữ lớn). Thiết kế này giải quyết một sự kém hiệu quả lặp đi lặp lại trong các mô hình đa phương thức truyền thống dựa vào các bộ mã hóa video và âm thanh riêng biệt làm bước xử lý sơ bộ, dẫn đến tăng độ trễ và phân mảnh bộ nhớ.
Gemma 4 12B giải quyết các vấn đề này bằng cách sử dụng một bộ biến đổi chỉ bộ giải mã (decoder-only transformer) duy nhất chứa cấu trúc bộ giải mã tiên tiến tương tự như mô hình Gemma 4 31B Dense.
Bộ nhúng thị giác 35M tham số thay thế bộ biến đổi thị giác 27 lớp được sử dụng trong các mô hình Gemma 4 cỡ trung bình khác bằng cách chiếu trực tiếp các mảng điểm ảnh thô 48x48 vào không gian ẩn của LLM (mô hình ngôn ngữ lớn) bằng một phép nhân ma trận duy nhất, trong khi một phép tra cứu tọa độ X-Y được phân tích nhân tử sẽ đưa thông tin vị trí không gian vào trong giai đoạn đầu vào.
Phép chiếu sóng âm thanh loại bỏ nhu cầu về một bộ mã hóa âm thanh riêng biệt. Thay vào đó, nó trực tiếp cắt âm thanh 16 kHz thành các khung 40 ms (640 mẫu) và chiếu tuyến tính chúng vào không gian đầu vào của LLM.
Hơn nữa, việc sử dụng cùng một trọng số cho các đầu vào đa phương thức giúp đơn giản hóa việc tinh chỉnh bằng cách cho phép các bộ điều hợp (như LoRA) hoặc tinh chỉnh hoàn toàn cập nhật toàn bộ vòng lặp đa phương thức trong một lần duy nhất.
Gemma 4 12B có thể được truy cập thông qua ứng dụng trưng bày Google AI Edge Gallery, ứng dụng đọc chính tả bằng giọng nói trên thiết bị Google AI Edge Eloquent và LiteRT-LM.
Với ứng dụng Google AI Edge Gallery, các nhà phát triển có thể "tạo và thực thi các tập lệnh ngay lập tức" và biến các hướng dẫn ngôn ngữ tự nhiên thành mã hoạt động. Ví dụ, Google đã trình diễn khả năng của mô hình trong việc tạo ra một chương trình Python để hiển thị biểu đồ PNG so sánh 10 tên bé gái hàng đầu sinh năm 2024 so với năm 2025.
Cuối cùng, Genmma 4 12B có thể được sử dụng với các công cụ hiện có như OpenCode bằng cách sử dụng LiteRT-LM, có thể khởi động một máy chủ tương thích OpenAI với litert-lm serve, hoặc llama.cpp. Mô hình này có sẵn thông qua Hugging Face, Ollama, LM Studio, Google Cloud và các nền tảng khác.
Trên Reddit, LoveMind_AI đã viết: "Đây có thể thực sự là một trong những mô hình thú vị nhất mà tôi từng nghe nói đến trong một thời gian dài. Mô hình không có bộ mã hóa... cực kỳ tuyệt vời. Âm thanh gốc trên mô hình 12B rất thú vị". Tương tự, Wrong_Mushroom giải thích rằng lợi ích của việc không có bộ mã hóa là "nó cho phép bạn chia sẻ hình ảnh và âm thanh mà không cần một tệp bổ sung. Nó cũng có nghĩa là tập dữ liệu của mô hình được đào tạo với những điều đó trong tâm trí. Vì vậy, về lý thuyết, nó sẽ chính xác hơn".
Về khả năng viết mã của mô hình, trong khi một số người bình luận bày tỏ nghi ngờ về hiệu quả của nó, một số ít viết rằng họ đã sử dụng nó "để xây dựng một ứng dụng Python với máy chủ và phía máy khách. Tôi rất ngạc nhiên về cách nó hoạt động tốt. Ngữ cảnh rất tuyệt vời (theo một cách tốt). Nó thực hiện rất nhiều thứ trong một lần mà không mắc lỗi". Ngoài ra, triynizzles tuyên bố rằng "nó sẽ khá tốt với các tác vụ đơn giản nhưng không thể thay thế qwen 3.6", giải thích rằng anh ấy đã sử dụng nó thành công để giải thích một đường dẫn mã nhất định hoặc sửa lỗi logic nhưng có khả năng "đối với bất cứ điều gì mơ hồ hơn, nó sẽ bắt đầu sụp đổ".
Để tìm hiểu sâu về mô hình và kiến trúc của nó, đừng bỏ lỡ phân tích của Maarten Grootendorst.
Netflix lập bản đồ hàng nghìn dịch vụ siêu nhỏ (microservices) trong thời gian thực như thế nào
OpenTelemetry ra mắt sáng kiến "Blueprints" nhằm đơn giản hóa việc áp dụng khả năng quan sát trong doanh nghiệp
Tại sao chỉ tìm kiếm vector là chưa đủ: Truy xuất kết hợp (Hybrid Retrieval) cho RAG
OpenAI đã xây dựng một Sandbox Windows an toàn cho các tác nhân Codex như thế nào
Next.js 16.2: Khởi động phát triển nhanh hơn 400%, kết xuất nhanh hơn và công cụ chuyên sâu hơn cho các tác nhân AI
Từ MCP và Vibe Coding đến Harness Engineering: H
/filters:no_upscale()/news/2026/06/google-gemma4-12b-local-coding/en/resources/5image-1780916849371.jpg)
Nguồn tin: InfoQ AI — Tác giả: Sergio De Simone. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.