Bỏ qua tới nội dung chính
Quay lại tin tức

Nghiên cứu của ByteDance cho thấy việc đặt câu hỏi cho các mô hình ngôn ngữ đa phương thức (LMM) hiệu quả hơn việc yêu cầu chúng chép lại văn bản để huấn luyện tài liệu dài.

The Decoder· Jonathan Kemper· 24/5/2026general

ByteDance Seed cho thấy một mô hình 7B có thể trả lời các câu hỏi trên các tài liệu dài, nhiều hình ảnh một cách đáng tin cậy hơn so với các mô hình lớn hơn nhiều, ngay cả khi tài liệu dài gấp bốn lần so với bất kỳ tài liệu nào nó đã thấy trong quá trình huấn luyện. Thay vì sao chép các trang, mô hình học bằng cách trả lời các câu hỏi và tự tìm các đoạn văn phù hợp. Bài viết "Nghiên cứu của ByteDance cho thấy việc đặt câu hỏi cho LMMs tốt hơn việc bắt chúng sao chép văn bản để huấn luyện tài liệu dài" xuất hiện lần đầu trên The Decoder.

Nghiên cứu của ByteDance chỉ ra rằng việc đặt câu hỏi cho các mô hình ngôn ngữ đa phương thức (LMM) hiệu quả hơn việc yêu cầu chúng sao chép văn bản để huấn luyện tài liệu dài. Các mô hình AI đa phương thức được kỳ vọng sẽ xử lý các tài liệu ngày càng dài, nhưng cách chúng được huấn luyện để làm điều đó thường vẫn là một bí mật thương mại. Một nghiên cứu mới cho thấy nhận dạng ký tự như một nhiệm vụ huấn luyện thực sự làm giảm hiệu suất và các cặp câu hỏi-trả lời hoạt động hiệu quả hơn nhiều. Các nhà nghiên cứu từ ByteDance Seed và Đại học Khoa học và Công nghệ Hồng Kông (HKUST) đã nghiên cứu cách các mô hình hình ảnh-ngôn ngữ có thể được huấn luyện hiệu quả trên các tài liệu dài. Kết quả là một mô hình có tên MMProLong, được xây dựng trên Qwen2.5-VL mã nguồn mở của Alibaba, vượt trội hơn các đối thủ lớn hơn nhiều. Các mô hình AI đa phương thức hiện đại cần xử lý các đầu vào ngày càng dài: toàn bộ bộ sưu tập PDF của các trang được hiển thị, hàng giờ video hoặc các tác nhân ghi nhớ nhiệm vụ của chúng qua nhiều bước. Các phòng thí nghiệm AI như OpenAI, Google và Alibaba quảng cáo các cửa sổ ngữ cảnh lên đến 1 triệu token, có khả năng chứa không chỉ văn bản mà còn hàng nghìn hình ảnh trang hoặc khung video. Nhưng theo các tác giả, các báo cáo kỹ thuật hầu như không tiết lộ dữ liệu mà một mô hình nên xem và theo tỷ lệ nào. Đặt câu hỏi dạy nhiều hơn sao chép văn bản. Thoạt nhìn, phát hiện trung tâm của nghiên cứu có vẻ hiển nhiên. Để một mô hình đa phương thức học cách tìm đúng vị trí trong một tài liệu dài 100 trang, việc yêu cầu nó sao chép văn bản của mỗi trang hầu như không giúp ích gì. Hiệu quả hơn là đặt những câu hỏi mà câu trả lời được ẩn đâu đó trong các trang đó. Quy trình tổng hợp kết hợp phân tích OCR, tạo câu hỏi tự động và nhúng lại để trích xuất các ví dụ huấn luyện ngữ cảnh dài từ các tài liệu thực. | Hình ảnh: ByteDance Các nhà nghiên cứu đã thử nghiệm cả hai phương pháp đối đầu. Trong một thiết lập, mô hình phải thực hiện nhận dạng văn bản trên tất cả các trang của tài liệu hoặc cho một vài trang được chọn, trong khi các trang còn lại vẫn ở trong ngữ cảnh như các yếu tố gây nhiễu. Trong thiết lập khác, các nhà nghiên cứu đã sử dụng một mô hình riêng biệt (Seed 2.0 từ ByteDance) để tạo các cặp câu hỏi-trả lời cho các phần riêng lẻ của tài liệu. Câu hỏi sau đó được đưa vào huấn luyện cùng với toàn bộ tài liệu, buộc mô hình phải định vị đoạn văn liên quan trong một ngữ cảnh dài. Huấn luyện câu hỏi-trả lời (các hàng trên cùng) cải thiện đáng kể hiệu suất tài liệu dài của mô hình, trong khi huấn luyện nhận dạng ký tự thuần túy (các hàng dưới cùng) thực sự làm cho nó tệ hơn. Ngay cả với việc tinh chỉnh bổ sung, các biến thể OCR cũng không bắt kịp. | Hình ảnh: ByteDance Nhận dạng văn bản thuần túy như một nhiệm vụ huấn luyện thực sự làm giảm hiệu suất so với điểm khởi đầu. Mặt khác, huấn luyện câu hỏi-trả lời mang lại những lợi ích rõ ràng. Mô hình chỉ học cách điều hướng các văn bản dài khi nó phải lọc và phân loại thông tin với một mục tiêu cụ thể. Đa dạng đánh bại chuyên môn hóa. Ba phát hiện nữa đã xuất hiện trong các thí nghiệm. Việc cung cấp cho mô hình chủ yếu các tài liệu rất dài ở giới hạn trên của cửa sổ ngữ cảnh không đáng giá. Một sự kết hợp rộng hơn giữa các ví dụ ngắn hơn và dài hơn hoạt động đáng tin cậy hơn. Khả năng ngữ cảnh dài không phải là một kỹ năng gắn liền với một độ dài cụ thể mà đòi hỏi khả năng tìm kiếm linh hoạt trên các khoảng cách khác nhau. Điểm nghẽn thực sự cũng là việc tìm ra đoạn văn liên quan, chứ không phải suy luận về nó. Sự kết hợp giữa các tác vụ trích xuất và một phần nhỏ hơn các tác vụ tính toán đã mang lại kết quả tốt nhất. Phát hiện thứ ba gây ngạc nhiên vì nó mâu thuẫn với thực tiễn phổ biến của các mô hình ngôn ngữ chỉ dựa trên văn bản. Việc thêm các ví dụ huấn luyện ngắn dường như không hoàn toàn cần thiết. Mô hình phần lớn vẫn giữ được khả năng thực hiện các tác vụ ngắn ngay cả khi chỉ được huấn luyện trên dữ liệu hỏi-đáp dài. Định dạng của dữ liệu có lẽ đã giúp ích: ngay cả khi ngữ cảnh rất dài, tác vụ vẫn được định dạng là một tương tác hỏi-đáp theo định dạng tuân thủ hướng dẫn quen thuộc. Nhỏ nhưng ổn định lên đến 512.000 token Với công thức này và một ngân sách huấn luyện khá khiêm tốn, MMProLong đã vượt qua một số mô hình mở lớn hơn nhiều như InternVL3-38B và Gemma3-27B. Mô hình chỉ được huấn luyện trên 128.000 token nhưng vẫn ổn định ở độ dài đầu vào 256.000 và thậm chí 512.000 token, trong khi mô hình gốc giảm hiệu suất mạnh ở các phạm vi đó. Trên điểm chuẩn Needle-in-a-Haystack cho các ngữ cảnh đa phương thức dài, MMProLong đạt trung bình 29,4 điểm so với nền tảng Qwen2.5-VL-7B. | Hình ảnh: ByteDance Khả năng này cũng chuyển sang các tác vụ mà mô hình chưa bao giờ được huấn luyện cụ thể, như hiểu các video dài. Trong một thử nghiệm chuyển giao bổ sung, công thức này đã chứng minh hiệu quả trên Qwen3-VL-8B mạnh hơn, mặc dù mô hình đó đã được xây dựng cho các ngữ cảnh dài. Mặc dù chỉ được huấn luyện trên tài liệu, những cải tiến này vẫn được áp dụng cho các điểm chuẩn video dài. | Hình ảnh: ByteDance Nghiên cứu này cũng thú vị vì nó đến từ một nhóm hoàn toàn khác so với công trình được thảo luận rộng rãi của Deepseek về cùng một vấn đề. Deepseek cố gắng mở rộng bộ nhớ dài của các mô hình AI bằng cách xử lý văn bản dưới dạng hình ảnh và nén chúng rất nhiều, gần đây nhất là với một bộ mã hóa sắp xếp lại thông tin hình ảnh theo nội dung. ByteDance Seed đi theo hướng ngược lại: tối ưu hóa dữ liệu huấn luyện thay vì kiến trúc. Tin tức AI không cường điệu – Được tuyển chọn bởi con người Đăng ký THE DECODER để đọc không quảng cáo, nhận bản tin AI hàng tuần, báo cáo tiên phong độc quyền "AI Radar" sáu lần một năm, truy cập kho lưu trữ đầy đủ và truy cập phần bình luận của chúng tôi. Đăng ký ngay Đọc tiếp để có cái nhìn đầy đủ. Đăng ký để nhận tin tức không cường điệu. Truy cập tất cả các bài viết của THE DECODER. Đọc không bị phân tâm – không có quảng cáo của Google. Truy cập bình luận và thảo luận cộng đồng. Bản tin AI hàng tuần. 6 lần một năm: “AI Radar” – phân tích chuyên sâu về các chủ đề AI chính. Giảm giá tới 25% cho KI Pro o

Nguồn tin: The Decoder — Tác giả: Jonathan Kemper. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.