
Gemma 4 Multi-Token Prediction Mang Lại Tốc Độ Tạo Token Nhanh Hơn Gấp ~3 Lần
Gemma 4 có thể được ghép nối với các trình soạn thảo dự đoán đa mã thông báo (MTP) sử dụng giải mã suy đoán để tạo ra nhiều mã thông báo song song. Điều này cho phép mô hình xác minh chúng trong một lần duy nhất và đạt được tốc độ suy luận nhanh hơn tới ~3 lần mà không làm giảm chất lượng.
Trang chủ InfoQ
Tin tức
Gemma 4 Multi-Token Prediction mang lại tốc độ tạo token nhanh hơn gấp 3 lần
AI, ML & Kỹ thuật dữ liệu
Gemma 4 Multi-Token Prediction mang lại tốc độ tạo token nhanh hơn gấp 3 lần
Ngày 25/5/2026
2 phút đọc
bởi
Sergio De Simone
Viết bài cho InfoQ
Thỏa mãn sự tò mò của bạn.
Giúp hơn 550.000 nhà phát triển cấp cao trên toàn cầu
luôn dẫn đầu mỗi tháng. Liên hệ
Nghe bài viết này - 0:00
Âm thanh sẵn sàng phát
Trình duyệt của bạn không hỗ trợ phần tử âm thanh.
0:00
0:00
Bình thường1.25x1.5x
Thích
Danh sách đọc
Gemma 4 có thể được ghép nối với các bộ dự đoán đa mã thông báo (MTP) sử dụng giải mã suy đoán để tạo ra nhiều mã thông báo song song. Điều này cho phép mô hình xác minh chúng trong một lần duy nhất và đạt được tốc độ suy luận nhanh hơn tới 3 lần mà không làm giảm chất lượng.
Các bộ dự đoán đa mã thông báo là các mô hình phụ trợ nhẹ hoạt động cùng với Gemma 4 để giải quyết nút thắt cổ chai băng thông bộ nhớ của LLM (mô hình ngôn ngữ lớn). Theo giải thích của các kỹ sư Google, trong quá trình suy luận, bộ xử lý dành phần lớn thời gian để liên tục di chuyển hàng tỷ tham số từ VRAM (bộ nhớ truy cập ngẫu nhiên video) đến các đơn vị tính toán cho mỗi mã thông báo. Việc di chuyển dữ liệu liên tục này làm tăng độ trễ và khiến tài nguyên tính toán không được sử dụng hết, đặc biệt trên phần cứng tiêu dùng.
Sự kém hiệu quả này càng trầm trọng hơn bởi thực tế là LLM dành cùng một lượng tính toán để dự đoán "các phép tính hiển nhiên" cũng như để giải quyết một "câu đố logic phức tạp". Đây là lúc các bộ dự đoán đa mã thông báo có thể hỗ trợ.
Bằng cách ghép nối một mô hình mục tiêu nặng (ví dụ: Gemma 4 31B) với một bộ dự đoán nhẹ (mô hình MTP), chúng ta có thể sử dụng tính toán nhàn rỗi để "dự đoán" một số mã thông báo trong tương lai cùng một lúc với bộ dự đoán trong thời gian ít hơn so với thời gian mô hình mục tiêu xử lý chỉ một mã thông báo. Sau đó, mô hình mục tiêu sẽ xác minh tất cả các mã thông báo được đề xuất này song song.
Google cho biết, việc sử dụng các bộ dự đoán đa mã thông báo có thể cải thiện khả năng phản hồi và cho phép suy luận nhanh hơn trên các thiết bị. Các máy tính cá nhân và GPU (đơn vị xử lý đồ họa) tiêu dùng chạy các mô hình Gemma 26B MoE và 31B dày đặc, cùng với các thiết bị di động sử dụng các biến thể E2B và E4B, đều không làm giảm chất lượng phản hồi.
Vì mô hình Gemma 4 chính vẫn giữ quyền xác minh cuối cùng, người dùng sẽ có được khả năng suy luận và độ chính xác đẳng cấp hàng đầu, chỉ với tốc độ nhanh hơn đáng kể.
Google đã triển khai một loạt các cải tiến kiến trúc và tối ưu hóa dành riêng cho phần cứng để đảm bảo rằng các bộ dự đoán MTP mang lại hiệu quả tối đa. Hãng cũng cung cấp một giải thích trực quan chuyên sâu về cách các bộ dự đoán hoạt động trong một chuỗi trên x.com.
Người dùng Reddit FarrisAT mô tả Gemma 4 MTP là "khá ấn tượng", nhưng cảnh báo rằng các mô hình cục bộ vẫn mắc quá nhiều lỗi. Người này cho rằng những lợi ích thực sự sẽ xuất hiện khi "các mô hình đó tiến gần hơn đến công nghệ tiên tiến".
Một người dùng khác, Gohab2001, lưu ý rằng MTP tự nó là một kỹ thuật nổi tiếng với một nhược điểm lớn đối với việc triển khai cục bộ: phải tải hai mô hình vào bộ nhớ. Họ cũng chỉ ra rằng sự tiến bộ thực sự trong việc triển khai các bộ dự đoán Gemma 4 MTP là việc chúng chia sẻ bộ nhớ đệm kV chung của mô hình mục tiêu, điều này thực sự giúp giảm chi phí của kỹ thuật.
Trên Hacker News, zozbot234 cho rằng "MTP chủ yếu hữu ích khi bạn có một hoặc một vài người dùng, nghĩa là tài nguyên tính toán dồi dào", như trong các kịch bản di động hoặc biên, trong khi mang lại lợi ích hạn chế cho các nhà cung cấp API quy mô lớn.
Các biến thể hỗ trợ MTP của Gemma 4 có sẵn trên một số nền tảng, bao gồm Hugging Face, Kaggle, Ollama và các nền tảng khác.
Các tác nhân
Android
Điện toán biên
Gemma
Các mô hình ngôn ngữ lớn
iOS
Bài viết liên quan
Nhà tài trợ liên quan
Phổ biến trên InfoQ
Thiết kế hệ thống đa tác nhân để hỗ trợ kỹ thuật ở quy mô lớn: Nghiên cứu điển hình từ Grab
Code with Claude của Anthropic công bố các tác nhân được quản lý, quy trình làm việc chủ động, đường cong năng lực
OpenTofu 1.12: Tính năng Terraform chưa từng được phát hành
Máy chủ AWS MCP đạt GA với phạm vi phủ sóng API đầy đủ và quản trị dựa trên IAM
Vite phiên bản 8: Trình đóng gói dựa trên Rust hợp nhất và tốc độ xây dựng nhanh hơn tới 30 lần
Theo đuổi phát triển Java hiệu quả: Từ 1BRC đến phát triển Hardwood AI nguyên bản
Nội dung liên quan
Bản tin InfoQ
Tổng hợp nội dung tuần trước trên InfoQ được gửi vào thứ Ba hàng tuần. Tham gia cộng đồng hơn 250.000 nhà phát triển cấp cao.
Xem ví dụ
Nhập địa chỉ e-mail của bạn
Chọn quốc gia của bạn
Chọn một quốc gia
Tôi đồng ý với việc InfoQ.com xử lý dữ liệu của tôi như đã giải thích trong Thông báo quyền riêng tư này.
Chúng tôi bảo vệ quyền riêng tư của bạn.
Nguồn tin: InfoQ AI — Tác giả: Sergio De Simone. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.