
Từ Regex đến các mô hình thị giác: Kỹ thuật RAG nào phù hợp với vấn đề nào
Trí tuệ Tài liệu Doanh nghiệp [Tập 1 #4] - Chẩn đoán trên các tệp PDF và câu hỏi, cùng bản đồ các kỹ thuật sẽ được đề cập trong phần còn lại của loạt bài Bài viết From Regex to Vision Models: Which RAG Technique Fits Which Problem xuất hiện đầu tiên trên Towards Data Science.
Mô hình ngôn ngữ lớn
Từ Regex đến Mô hình thị giác: Kỹ thuật RAG nào phù hợp với vấn đề nào
Thông tin tài liệu doanh nghiệp [Tập 1 Số 4] — Một chẩn đoán trên các tệp PDF và câu hỏi, cùng bản đồ các kỹ thuật sẽ được đề cập trong phần còn lại của loạt bài
Angela Shi
Ngày 2/6/2026
23 phút đọc
Chia sẻ
Ảnh của Collab Media, qua Unsplash.
Hầu hết các vấn đề RAG không cần đến cách tiếp cận cổ điển. Bài viết số 3 đã nói rằng không có MỘT kỹ thuật RAG duy nhất. Bạn vẫn phải chọn một. Bài viết này là công cụ chẩn đoán cho bạn biết nên chọn kỹ thuật nào.
Hầu hết các nhóm xây dựng hệ thống RAG đều áp dụng cùng một cách tiếp cận: phân tích tài liệu thành các đoạn, nhúng từng đoạn, đưa chúng vào kho vector, nhúng câu hỏi, truy xuất top-k theo độ tương đồng cosine, sau đó chuyển kết quả cho LLM. Đây được gọi là cách tiếp cận RAG cổ điển. Mọi hướng dẫn đều dạy nó. Mọi bản demo đều chạy trên nó.
Các vấn đề thực tế đa dạng hơn nhiều so với cách tiếp cận này gợi ý. Dưới đây là một vài trường hợp thực tế.
Ba trường hợp ở ba thái cực khác nhau.
Tài liệu mẫu, số lượng lớn. Giấy chứng nhận bảo hiểm, biểu mẫu KYC, hồ sơ pháp lý, sao kê môi giới hàng tháng. Cùng một phần mềm viết cùng một bố cục trên mọi tài liệu. Hàng trăm dòng regex trích xuất các trường trong vài micro giây. Cách tiếp cận cổ điển cũng hoạt động ở đây nhưng nó trả tiền cho một LLM để làm những gì bố cục đã cung cấp miễn phí.
Hình dạng tương tự trên các ngành: phiếu lương, sao kê ngân hàng, báo cáo xét nghiệm, hồ sơ thuế, chứng nhận tuân thủ, hóa đơn nhà cung cấp từ một ERP. Bất cứ nơi nào một phần mềm viết mọi tài liệu, bố cục là một hợp đồng.
Sự mỉa mai trong bản ghi dịch vụ khách hàng. “Tìm mọi nhận xét mỉa mai trong các bản ghi cuộc gọi của tháng này.” Việc chấm điểm cảm xúc tiêu chuẩn (giận dữ, thất vọng, vui vẻ) phần lớn được giải quyết bằng một từ điển cảm xúc: không thể chấp nhận, lố bịch, thất vọng đều được đánh dấu rõ ràng. Sự mỉa mai là ngoại lệ điển hình. “Ồ, dịch vụ tuyệt vời, chỉ phải đợi 45 phút” được chấm điểm tích cực trên mọi từ điển, và việc nhúng nhóm nó với phiên bản chân thành vì các từ bề mặt gần như giống nhau. Phương pháp trung thực duy nhất là một LLM đọc toàn bộ mỗi cuộc gọi và đánh giá khoảng cách giữa những gì được nói và những gì được ngụ ý.
Hình dạng tương tự trên các chức năng: phỏng vấn thôi việc của HR tìm kiếm sự thất vọng tiềm ẩn, kho lưu trữ trò chuyện nội bộ tìm kiếm các dấu hiệu đỏ về văn hóa trước khi M&A kết thúc, bản ghi cuộc gọi thu nhập tìm kiếm những nơi CFO đã phòng ngừa rủi ro, bản ghi cuộc gọi bán hàng tìm kiếm những lời hứa mà hợp đồng không cho phép. Giọng điệu và ý định, không có điểm neo trong văn bản.
Sơ đồ kỹ thuật (một trục hoàn toàn khác). Bản vẽ, slide nơi dữ liệu nằm trong biểu đồ, thông số kỹ thuật với hình ảnh nhúng. RAG chỉ văn bản trả về chú thích và bỏ qua sơ đồ. Các mô hình thị giác phù hợp ở đây, và chỉ ở đây.
Hình dạng tương tự: bản thiết kế kiến trúc, hồ sơ viết tay được quét, slide trình chiếu nơi dữ liệu nằm trong biểu đồ, trang sổ ghi chép phòng thí nghiệm, báo cáo hình ảnh y tế. Bất cứ nơi nào ý nghĩa nằm trong các pixel.
Cách tiếp cận cổ điển là quá mức cần thiết đối với các tài liệu mẫu (regex sẽ làm được), sai về mặt kích thước đối với các bản ghi cuộc gọi (không có điểm neo nào tồn tại), và mù về mặt phương thức đối với các sơ đồ (cần có thị giác). Nó phù hợp với một dải vấn đề trung bình và được phân phối như thể nó bao trùm mọi thứ. Dải trung bình đó là có thật và Mục 3.3 phân loại nó; chi phí của sự không phù hợp trên phần còn lại là lý do bài viết này tồn tại để ngăn chặn.
Bài viết này là công cụ chẩn đoán. Ba bước, theo thứ tự.
Xác định hai trục: Các vấn đề của RAG không phải là một vấn đề duy nhất. Chúng nằm trên một bức tranh với hai trục: mức độ cấu trúc của tài liệu và mức độ kiểm soát của câu hỏi. Mỗi sự kết hợp đòi hỏi một bộ công cụ khác nhau.
Xác định các kỹ thuật theo từng vùng: Mỗi vùng của bức tranh có bộ công cụ riêng: biểu thức chính quy (regex), truy xuất phần (section retrieval), truy xuất lai (hybrid retrieval - tìm kiếm từ vựng + tương đồng nhúng), thị giác máy tính (vision), tổng hợp SQL. Một trục thứ ba (chiều tác nhân, mục 2.4) nằm trên các trục này và quyết định mức độ kiểm soát thời gian chạy mà mô hình ngôn ngữ lớn (LLM) có được. Danh mục ở cuối bài viết sẽ ánh xạ từng vùng đến khu vực kỹ thuật tương ứng.
Xác định trường hợp của bạn: Tài liệu của bạn nằm ở đâu trên trục độ phức tạp? Câu hỏi của bạn nằm ở đâu trên trục kiểm soát? Giao điểm sẽ chỉ ra một vùng và các kỹ thuật phù hợp với vùng đó.
Bạn không ở đây để xây dựng mọi thứ. Bạn ở đây để tìm vị trí của mình, sau đó đọc các phần của loạt bài phù hợp. Hầu hết độc giả sẽ bỏ qua một nửa.
Một lưu ý trước khi bài viết đi vào kỹ thuật. Hầu hết các hệ thống RAG cấp doanh nghiệp có hai dạng: trích xuất các trường từ tài liệu mẫu (trường hợp regex trong phần mở đầu), hoặc trả lời các câu hỏi tự do trên các tài liệu không đồng nhất như hợp đồng và báo cáo (nơi phần còn lại của loạt bài dành phần lớn thời gian). Các bản ghi hội thoại là một dạng thứ ba thực tế, phổ biến trong dịch vụ khách hàng, nhân sự và tuân thủ; sự châm biếm là câu hỏi khó nhất mà chúng đặt ra. Nội dung thị giác thuần túy (sơ đồ, bản trình bày) và các câu hỏi quy mô lớn (Phần IV) ít khi xuất hiện. Bạn có thể gặp một hoặc hai trong số này. Lưới dưới đây cho phép bạn xác định trường hợp của mình ngay lập tức.
Chẩn đoán này là một phần của một khung lớn hơn: Enterprise Document Intelligence Tập 1 xây dựng RAG cấp doanh nghiệp từng bước, và các vùng của lưới mà bài viết này ánh xạ chỉ ra các bài viết trong loạt bài nơi mỗi kỹ thuật được xây dựng.
1. Hai trục: độ phức tạp của tài liệu và kiểm soát câu hỏi
Mọi vấn đề chúng ta sẽ gặp trong loạt bài này đều nằm ở đâu đó trên hai trục:
Độ phức tạp của tài liệu: Mức độ dư thừa của cấu trúc trên các tài liệu của bạn là bao nhiêu? Một bộ phân tích có thể xử lý các trường theo vị trí, theo tiêu đề, hay bạn cần một mô hình có thể nhìn thấy trang?
Kiểm soát câu hỏi: Ai đặt câu hỏi? Một kỹ sư viết một lời nhắc cố định, hay một người dùng gõ tự do vào hộp trò chuyện, có thể không biết phải hỏi gì?
Hai trục này gần như độc lập. Điểm kết nối duy nhất: một tài liệu mẫu cố định (Cấp 1, dưới đây) thường buộc các câu hỏi được kỹ sư tạo mẫu (Cấp A), vì người dùng không bao giờ gõ câu hỏi. Ngoài góc đó, bất kỳ cấp tài liệu nào cũng có thể kết hợp với bất kỳ cấp câu hỏi nào.
1.1 Trục tài liệu: từ mẫu cố định đến mô hình thị giác
Tập 1 vẫn nằm trong phạm vi PDF. Đa-f




Nguồn tin: Towards Data Science — Tác giả: angela shi. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.