Gemma 4 12B của Google Deepmind tích hợp AI đa phương thức vào…

Gemma 4 12B của Google Deepmind là một mô hình mã nguồn mở có khả năng xử lý văn bản, hình ảnh và âm thanh một cách tự nhiên, đồng thời có thể chạy trên máy tính xách tay chỉ với 16 GB RAM. Mô hình này đạt hiệu suất gần bằng mô hình 26B có kích thước gấp đôi trong các thử nghiệm đánh giá và được phát hành theo giấy phép Apache 2.0 cho mục đích thương mại. Bài viết Google Deepmind's Gemma 4 12B squeezes multimodal AI onto a laptop with just 16 GB of RAM xuất hiện lần đầu trên The Decoder.

Google Deepmind đã phát hành Gemma 4 12B, một mô hình AI mở mang khả năng đa phương thức đến các máy tính xách tay thông thường. Theo Google, mô hình này xử lý văn bản, hình ảnh và âm thanh một cách tự nhiên mà không cần bộ mã hóa riêng biệt, giúp giảm thời gian xử lý, mức sử dụng bộ nhớ và độ trễ. Google cho biết, mô hình chạy cục bộ chỉ với 16 GB RAM và gần như đạt hiệu suất tương đương với mô hình 26B – gấp đôi kích thước – trên các điểm chuẩn. Đây cũng là mô hình Gemma cỡ trung đầu tiên có khả năng xử lý âm thanh gốc. Gemma 4 12B xử lý nhận dạng giọng nói, tạo mã và phân tích video. Theo Hướng dẫn dành cho nhà phát triển, mô hình có thể phân tích các đoạn video dài nhiều phút bằng cách phân tích đồng thời các khung hình và âm thanh. Trong một bản demo, mô hình đã xử lý một đoạn video bài phát biểu khai mạc Google I/O dài 5 phút: 313 khung hình với tốc độ một khung hình mỗi giây, cùng với âm thanh. Trên các điểm chuẩn như GPQA Diamond, MMLU Pro và DocVQA, Gemma 4 12B gần như đạt hiệu suất tương đương với mô hình 26B có kích thước gấp đôi và vượt trội rõ rệt so với Gemma 3 27B cũ hơn. | Hình ảnh: Google Deepmind Mô hình này có sẵn trên Hugging Face, Ollama, LM Studio và các nền tảng khác, được cấp phép theo Apache 2.0 để sử dụng thương mại.

Gemma 4 12B của Google Deepmind tích hợp AI đa phương thức vào máy tính xách tay chỉ với 16 GB RAM.