ColPali vượt trội hơn các quy trình OCR trong RAG tài liệu…

ColPali loại bỏ quá trình nhận dạng ký tự quang học (OCR) và phân đoạn tài liệu đối với các hệ thống RAG (Retrieval Augmented Generation) nặng về tài liệu bằng cách mã hóa mỗi mảng hình ảnh 16x16 pixel thành một vector 128 chiều. Hệ thống này vượt trội so với các phương pháp tiên tiến trước đây trên bộ dữ liệu ViDoRe nhưng tốn gấp 8 lần dung lượng lưu trữ cho mỗi trang. ColPali, một kiến trúc truy xuất tương tác muộn, loại bỏ OCR và phân đoạn tài liệu đối với các hệ thống RAG nặng về tài liệu bằng cách mã hóa mỗi mảng hình ảnh 16x16 pixel của một trang PDF thành một vector 128 chiều. Trên bộ dữ liệu ViDoRe, hệ thống này vượt trội so với các hệ thống tiên tiến trước đây trên hầu hết các lĩnh vực tài liệu, nhưng với chi phí lưu trữ gấp 8 lần cho mỗi trang. Các thông tin chính ColPali mã hóa mỗi mảng hình ảnh 16x16 pixel thành một vector 128 chiều. Một trang A4 đầy đủ tạo ra

ColPali loại bỏ quá trình nhận dạng ký tự quang học (OCR) và phân đoạn (chunking) cho hệ thống truy xuất tạo sinh (RAG) tài liệu nặng bằng cách mã hóa mỗi mảng hình ảnh 16×16 pixel thành một vectơ 128 chiều. Hệ thống này vượt trội so với các phương pháp tiên tiến (SOTA) trước đây trên bộ dữ liệu ViDoRe nhưng tốn dung lượng lưu trữ gấp 8 lần cho mỗi trang. ColPali, một kiến trúc truy xuất tương tác muộn, loại bỏ OCR và phân đoạn cho RAG tài liệu nặng bằng cách mã hóa mỗi mảng hình ảnh 16×16 pixel của một trang PDF thành một vectơ 128 chiều. Trên bộ dữ liệu ViDoRe, hệ thống này vượt trội so với các hệ thống SOTA trước đây trên hầu hết các lĩnh vực tài liệu, nhưng với chi phí lưu trữ gấp 8 lần cho mỗi trang. Các thông tin chính: ColPali mã hóa mỗi mảng hình ảnh 16×16 pixel thành một vectơ 128 chiều. Một trang A4 đầy đủ tạo ra khoảng 1.000 vectơ mảng. Bộ dữ liệu ViDoRe: ColPali vượt trội so với SOTA trước đây trên hầu hết các lĩnh vực tài liệu. Chi phí lưu trữ lớn hơn khoảng 8 lần so với các thiết lập bộ mã hóa kép (bi-encoder). Không yêu cầu bước OCR, phân đoạn hoặc tạo chú thích. Những điểm chính: ColPali loại bỏ OCR và phân đoạn cho RAG tài liệu nặng bằng cách mã hóa mỗi mảng hình ảnh 16×16 pixel thành một vectơ 128 chiều. Hệ thống này vượt trội so với SOTA trước đây trên bộ dữ liệu ViDoRe nhưng tốn dung lượng lưu trữ gấp 8 lần cho mỗi trang. Ba mô hình RAG đa phương thức: RAG chỉ văn bản không hiệu quả với dữ liệu doanh nghiệp: bảng biểu trở thành văn bản lộn xộn, biểu đồ biến mất và hóa đơn được quét mất dấu tem và chữ viết tay. [Theo bài viết Multimodal RAG] có ba mô hình kiến trúc, mỗi mô hình có những đánh đổi riêng biệt. Mô hình 1: Trích xuất sau đó nhúng (kết hợp muộn) Đây là mô hình được triển khai rộng rãi nhất hiện nay. Xử lý từng phương thức thông qua một bộ trích xuất chuyên biệt — GPT-4V cho chú thích hình ảnh, Whisper cho âm thanh — sau đó nhúng bằng các bộ nhúng văn bản tiêu chuẩn như OpenAI ada-002 hoặc BGE-M3. Vận hành đơn giản, tái sử dụng cơ sở hạ tầng RAG văn bản hiện có. Tuy nhiên, nó làm mất thông tin ở mỗi bước trích xuất: một biểu đồ cột được chú thích là "biểu đồ cột thể hiện xu hướng doanh thu" không giống như chính biểu đồ đó. Việc tạo chú thích qua GPT-4V trong quá trình nhập liệu tốn kém và chậm ở quy mô lớn. Mô hình 2: Nhúng đa phương thức gốc (kết hợp sớm) Nhúng trực tiếp từng phương thức vào một không gian vectơ chung bằng cách sử dụng bộ mã hóa đa phương thức như CLIP (512 chiều) hoặc ImageBind của Meta (6 phương thức). Không có bước tạo chú thích đồng nghĩa với việc nhập liệu nhanh hơn. Tuy nhiên, nhúng 512 chiều của CLIP có dung lượng thấp cho lý luận hình ảnh phức tạp — nó suy giảm trên các sơ đồ kỹ thuật và biểu đồ khoa học trừ khi được tinh chỉnh. Phù hợp với các kho dữ liệu nặng về hình ảnh như danh mục sản phẩm hoặc quét y tế. Mô hình 3: ColPali / Tương tác muộn — Tốt nhất hiện tại cho tài liệu ColPali mã hóa mỗi mảng hình ảnh 16×16 pixel của một trang tài liệu thành vectơ riêng, tạo ra một biểu diễn đa vectơ cho mỗi trang. Một trang A4 đầy đủ tạo ra khoảng 1.000 vectơ mảng. Tại thời điểm truy vấn, nó tính toán độ tương đồng tối đa trên tất cả các cặp mã thông báo truy vấn-mảng bằng cách sử dụng cơ chế tương tác muộn MaxSim (vay mượn từ ColBERT). Sự khác biệt quan trọng so với CLIP: thay vì một vectơ cho mỗi trang, bạn nhận được một vectơ cho mỗi mảng hình ảnh 16×16 pixel. Quy trình nhập liệu: chụp ảnh màn hình trang PDF (qua pdf2image), chuyển qua PaliGemma-3B VLM để lấy nhúng lưới mảng [n_mảng × 128 chiều], lưu trữ trong một chỉ mục đa vectơ (PLAID hoặc Qdrant với hỗ trợ đa vectơ). Không OCR, không phân đoạn, không tạo chú thích. VLM nhìn thấy trang được hiển thị thực tế — đường viền bảng, kích thước phông chữ, bố cục cột, hình ảnh nhúng. Những điểm mạnh: Vượt trội đáng kể so với các quy trình dựa trên OCR (Nhận dạng ký tự quang học) đối với các tài liệu có bố cục phức tạp – hợp đồng pháp lý, biểu mẫu y tế, báo cáo tài chính có biểu đồ nhúng. Thử nghiệm ViDoRe cho thấy ColPali vượt trội hơn các hệ thống truy xuất SOTA (State-of-the-art – công nghệ tiên tiến nhất) trước đây trên hầu hết các lĩnh vực tài liệu. Quy trình nhập liệu đơn giản hơn đáng kể – "phần dài nhất" trong các quy trình dựa trên OCR được loại bỏ hoàn toàn. Những điểm hạn chế: Lưu trữ đa vector tốn kém. Mỗi trang tạo ra khoảng 1.000 vector 128 chiều so với một vector 1.536 chiều duy nhất trong các thiết lập bộ mã hóa kép – tốn kém hơn khoảng 8 lần về dung lượng lưu trữ. Với hàng triệu tài liệu, cần có các chỉ mục nén kiểu PLAID hoặc lượng tử hóa. Độ trễ truy vấn cao hơn cho mỗi truy vấn, mặc dù đối với các tập dữ liệu có kích thước dưới vài trăm nghìn trang, chi phí bổ sung chỉ ở mức mili giây. Thời điểm sử dụng: Các trường hợp sử dụng trong doanh nghiệp có nhiều tài liệu – pháp lý, tài chính, y tế. Bất kỳ tập dữ liệu nào mà bố cục, bảng biểu, biểu đồ và kiểu chữ mang ý nghĩa ngữ nghĩa. Không phù hợp để truy xuất trên hình ảnh tự nhiên (CLIP tốt hơn ở đó) hoặc các tập dữ liệu văn bản thuần túy (RAG văn bản tiêu chuẩn tốt hơn). Âm thanh – Phương thức mà không ai làm đúng Có hai phương pháp tiếp cận: ưu tiên chuyển đổi giọng nói thành văn bản (Whisper large-v3 → RAG văn bản) hoặc nhúng âm thanh gốc (ImageBind, CLAP). Chuyển đổi giọng nói thành văn bản bị mất thông tin – thông tin phi ngôn ngữ bị mất. Nhúng âm thanh gốc giữ được âm điệu và trọng âm nhưng yêu cầu tinh chỉnh trên âm thanh chuyên biệt theo từng lĩnh vực. Điểm độc đáo ColPali thể hiện một sự thay đổi cấu trúc: nó xử lý các trang tài liệu dưới dạng hình ảnh, không phải văn bản. Điều này đảo ngược giả định RAG truyền thống rằng việc trích xuất văn bản phải có trước khi truy xuất. Đối với các tác vụ doanh nghiệp mà bố cục mang ý nghĩa (hợp đồng pháp lý, báo cáo tài chính), phương pháp tiếp cận cấp độ bản vá của ColPali vượt trội đáng kể mặc dù chi phí lưu trữ cao gấp 8 lần. Sự đánh đổi rõ ràng: trả chi phí lưu trữ cao gấp 8 lần để loại bỏ hoàn toàn quy trình OCR/phân đoạn dễ hỏng. Những điều cần theo dõi Theo dõi việc áp dụng ColPali trong các hệ thống truy xuất tài liệu pháp lý và tài chính của doanh nghiệp trong 6 tháng tới. Chỉ số chính: liệu chi phí lưu trữ đa vector có giảm thông qua các chỉ mục nén kiểu PLAID hay không, và liệu Qdrant hoặc Pinecone có thêm hỗ trợ đa vector gốc hay không.

ColPali vượt trội hơn các quy trình OCR trong RAG tài liệu: Giảm 8 lần chi phí lưu trữ, 0% lỗi phân đoạn.