Zyphra, phòng thí nghiệm AI có trụ sở tại San Francisco đứng sau dòng mô hình ZAYA1, đã phát hành ZAYA1-8B-Diffusion-Preview - bản xem trước về công việc ban đầu của nó trong các mô hình ngôn ngữ khuếch tán. Bản phát hành chứng minh rằng mô hình ngôn ngữ tự hồi quy hiện có có thể được chuyển đổi thành mô hình khuếch tán rời rạc mà không làm giảm hiệu suất đánh giá một cách có hệ thống, đồng thời mang lại tốc độ suy luận đáng kể trên phần cứng AMD.
https://www.zyphra.com/post/zaya1-8b-diffusion-preview
Vấn đề với giải mã tự hồi quy
Để hiểu tại sao điều này lại quan trọng, trước tiên cần hiểu cách hầu hết các mô hình ngôn ngữ tạo ra văn bản.
Zyphra, phòng thí nghiệm AI có trụ sở tại San Francisco đứng sau dòng mô hình ZAYA1, đã phát hành ZAYA1-8B-Diffusion-Preview - bản xem trước về công việc ban đầu của nó trong các mô hình ngôn ngữ khuếch tán. Bản phát hành chứng minh rằng mô hình ngôn ngữ tự hồi quy hiện có có thể được chuyển đổi thành mô hình khuếch tán rời rạc mà không làm giảm hiệu suất đánh giá một cách có hệ thống, đồng thời mang lại tốc độ suy luận đáng kể trên phần cứng AMD.
https://www.zyphra.com/post/zaya1-8b-diffusion-preview
Vấn đề với giải mã tự hồi quy
Để hiểu tại sao điều này lại quan trọng, trước tiên cần hiểu cách hầu hết các mô hình ngôn ngữ tạo ra văn bản ngày nay. Các mô hình ngôn ngữ lớn tiêu chuẩn có tính tự hồi quy: chúng giải mã từng mã thông báo một theo trình tự. Đối với mỗi mã thông báo mới, cơ chế chú ý phải xem lại tất cả các mã thông báo được tạo trước đó và tải các biểu diễn được lưu trữ của chúng — được gọi là bộ đệm KV — từ bộ nhớ GPU. Điều quan trọng là vì mỗi người dùng trong một nhóm có lịch sử mã thông báo khác nhau nên bộ đệm KV của mỗi người dùng phải được tải riêng và không thể chia sẻ giữa các yêu cầu.
Điều này tạo ra một nút cổ chai. Khi GPU dành nhiều thời gian di chuyển dữ liệu từ bộ nhớ hơn là thực hiện tính toán thực tế, hệ thống sẽ bị giới hạn băng thông bộ nhớ thay vì giới hạn tính toán. Điều này hạn chế mức độ hiệu quả của phần cứng GPU hiện đại — vốn đã tăng quy mô tính toán FLOP nhanh hơn băng thông bộ nhớ — có thể được sử dụng trong quá trình suy luận.
Khuếch tán cung cấp một giải pháp thay thế. Thay vì tạo một mã thông báo mỗi lần, mô hình phổ biến tạo đồng thời nhiều bản nháp của N mã thông báo và lặp lại quá trình soạn thảo này nhiều lần. Vì tất cả N mã thông báo trong khối đều chia sẻ cùng một bộ đệm KV nên hoạt động sẽ chuyển từ giới hạn băng thông bộ nhớ sang giới hạn tính toán, điều đó có nghĩa là GPU có thể được sử dụng hiệu quả hơn. Cụ thể trong ZAYA1-8B-Diffusion-Preview, mô hình thực hiện chuyển đổi một bước từ mặt nạ sang mã thông báo cho mỗi mã thông báo trong khối - nghĩa là nó dự đoán trực tiếp mã thông báo bị lộ trong một bước thay vì khử nhiễu lặp đi lặp lại.
Chuyển đổi tự hồi quy sang khuếch tán mà không cần đào tạo từ đầu
Việc đào tạo một mô hình ngôn ngữ khuếch tán từ đầu rất khó về mặt kỹ thuật và có rất ít công thức được thiết lập để thực hiện việc đó. Nhóm Zyphra đưa ra hai lý do khiến họ thích chuyển đổi hơn là đào tạo từ đầu: thứ nhất, nó đơn giản là khó, với ít công thức nấu ăn được biết đến; thứ hai, không có lợi ích gì khi đào tạo ở chế độ khuếch tán vì quá trình đào tạo đã bị ràng buộc về tính toán - nút thắt băng thông bộ nhớ mà khuếch tán giải quyết chỉ xuất hiện tại thời điểm suy luận. Điều này có nghĩa là tất cả lợi ích của việc phổ biến là lợi ích về thời gian suy luận và ngăn xếp tiền huấn luyện hiện có có thể được sử dụng lại nguyên trạng.
Dựa trên công thức TiDAR, Zyphra đã sử dụng điểm kiểm tra cơ sở ZAYA1-8B và thực hiện thêm 600 tỷ mã thông báo trong quá trình đào tạo giữa chuyển đổi khuếch tán ở độ dài ngữ cảnh 32k, tiếp theo là 500 tỷ mã thông báo mở rộng ngữ cảnh gốc lên 128k và sau đó là giai đoạn tinh chỉnh có giám sát khuếch tán (SFT).
ZAYA1-8B-Diffusion-Preview là mô hình khuếch tán MoE đầu tiên được chuyển đổi từ LLM tự hồi quy và là mô hình ngôn ngữ khuếch tán đầu tiên được đào tạo trên GPU AMD. Zyphra báo cáo mức độ suy giảm đánh giá ở mức tối thiểu so với điểm kiểm tra tự hồi quy cơ sở, với mức tăng trên một số điểm chuẩn như LCB-v6. Họ cho rằng điều này một phần là do các tập dữ liệu được đào tạo giữa kỳ được cải thiện và một phần là do tính biểu cảm cao hơn của suy luận phi nhân quả trong khối theo kiểu khuếch tán so với tự hồi quy nhân quả.
Bộ lấy mẫu khuếch tán hoạt động như thế nào
Trong quá trình suy luận, ZAYA1-8B-Diffusion-Preview tạo ra bản nháp gồm 16 mã thông báo đồng thời. Một phần trong số các mã thông báo này được chấp nhận dựa trên tiêu chí lấy mẫu mượn từ giải mã đầu cơ. Ưu điểm chính ở đây là cùng một mô hình đóng vai trò vừa là người đầu cơ vừa là người xác minh trong một lần chuyển tiếp duy nhất, giúp loại bỏ chi phí liên quan đến việc chạy hai mô hình riêng biệt như trong các phương pháp truyền thống như EAGLE hoặc dFlash. Trong các chế độ bị giới hạn băng thông bộ nhớ nhiều, hầu hết tất cả các mã thông báo được chấp nhận đều thể hiện khả năng tăng tốc miễn phí thông qua giải mã tự hồi phục — GPU đã được tải và các mã thông báo bổ sung tốn rất ít chi phí tính toán bổ sung.
Nhóm Zyphra báo cáo hai bộ lấy mẫu có sự cân bằng về chất lượng và tốc độ khác nhau:
Bộ lấy mẫu khuếch tán không tổn hao: Sử dụng tiêu chí chấp nhận giải mã suy đoán tiêu chuẩn min(1, p(x)/q(x)), trong đó p là phân bố logit của mô hình tự hồi quy và q là phân bố của mô hình khuếch tán. Khi bị từ chối, mã thông báo tiếp theo được lấy mẫu từ phân phối dư của p(x)-q(x). Bộ lấy mẫu này đạt được tốc độ tăng gấp 4,6 lần mà không làm suy giảm đánh giá hệ thống.
Bộ lấy mẫu trộn logit: Đầu tiên trộn các logit từ bộ suy đoán khuếch tán và mô hình tự hồi quy, sau đó sử dụng phân phối trung bình để xác minh. Điều này cải thiện tỷ lệ chấp nhận vì nhật ký xác minh gần với nhật ký phổ biến hơn nhưng có một số tác động đến chất lượng. Bộ lấy mẫu này đạt được tốc độ tăng tốc 7,7 lần. Sự cân bằng giữa tốc độ và chất lượng có thể được lựa chọn trong thời gian chạy.
Một cảnh báo quan trọng về những con số này: vì ZAYA1-8B-Diffusion-Preview là điểm kiểm tra cơ bản giữa chuyến tàu chưa trải qua đào tạo RL, Zyphra sử dụng các đánh giá pass@ thay vì điểm chuẩn về độ chính xác tiêu chuẩn để thể hiện tốt hơn tiềm năng cuối cùng của mô hình sau đào tạo RL. Người đọc so sánh những số liệu này với điểm chuẩn được báo cáo của các mô hình khác nên ghi nhớ điều này.
Nhóm Zyphra cũng lưu ý rằng tốc độ tăng tốc được quan sát từ quá trình khuếch tán cao hơn so với tốc độ từ các phương pháp thay thế như dự đoán nhiều mã thông báo (MTP) và các chiến lược giải mã đầu cơ khác nhau như EAGLE3. Do các mô hình khuếch tán kiểu TiDAR chỉ sử dụng một lần chuyển tiếp duy nhất nên tỷ lệ chấp nhận tương đương với dFlash vẫn mang lại tốc độ tăng đáng kể.
https://www.zyphra.com/post/zaya1-8b-diffusion-preview
Chi tiết kiến trúc
ZAYA1-8B-Diffusion-Preview là mô hình khuếch tán suy đoán một bước sử dụng thế hệ ràng buộc theo thứ tự, có nghĩa là mô hình khuếch tán chỉ có khả năng tạo mã thông báo liền kề
Nguồn tin: MarkTechPost — Tác giả: Asif Razzaq. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.