Proxy-Pointer RAG: Loại bỏ việc trích xuất thực thể và quan hệ…

Tối ưu hóa NER (nhận dạng thực thể có tên) dựa trên cấu trúc cho các hệ thống GraphRAG (Retrieval Augmented Generation trên đồ thị) của doanh nghiệp Bài viết Proxy-Pointer RAG: Loại bỏ trích xuất thực thể và quan hệ lãng phí trong đồ thị tri thức xuất hiện lần đầu trên Towards Data Science.

Ứng dụng LLM Proxy-Pointer RAG: Loại bỏ việc trích xuất thực thể và quan hệ lãng phí trong đồ thị tri thức Tối ưu hóa NER (Nhận dạng thực thể có tên) theo cấu trúc cho các hệ thống GraphRAG doanh nghiệp Partha Sarkar Ngày 31/5/2026 18 phút đọc Chia sẻ Được tạo bằng Gemini Trong bài viết trước về Giải quyết sự phân tán thực thể và quan hệ trong đồ thị tri thức, tôi đã thảo luận về cách kiến trúc Proxy-Pointer có thể tối ưu hóa việc tìm kiếm các thực thể và quan hệ phù hợp. Tuy nhiên, đó chỉ là phần thứ hai của một vấn đề lớn hơn trong việc nhập dữ liệu đồ thị. Bước lớn hơn – và tốn kém hơn nhiều – là xác định các thực thể (NER) và quan hệ đó ngay từ đầu. Đồ thị tri thức được xây dựng để trả lời các truy vấn tổng hợp phức tạp và đa bước trên các thực thể và quan hệ trong các tài liệu tương tự – hợp đồng nhà cung cấp, sổ tay tuân thủ, thỏa thuận tín dụng, điều khoản và điều kiện toàn cầu, v.v. Các tài liệu này thường dài hơn 100 trang với văn bản dày đặc vượt quá 500 nghìn ký tự. Các doanh nghiệp thường xuyên nhập hàng nghìn hợp đồng tương tự từ cùng một nhà cung cấp và khách hàng. Để thực hiện điều đó, mỗi tài liệu này được đưa qua một LLM (mô hình ngôn ngữ lớn) mạnh mẽ để trích xuất NER và quan hệ, tiêu tốn hàng triệu token ngay cả trước khi việc nhập dữ liệu đồ thị thực tế có thể diễn ra. Quá trình này đôi khi phải được lặp lại, vì việc trích xuất ngữ cảnh dài thường bị giảm tính nhất quán về độ thu hồi và tăng sự biến động trong trích xuất. Tuy nhiên, thực tế quan trọng là các tài liệu pháp lý như hợp đồng, có cấu trúc rất giống nhau giữa các tổ chức, thậm chí giữa các ngành. Và chúng chứa đầy văn bản mẫu dày đặc, lịch trình, phụ lục, v.v., hầu hết trong số đó có ít giá trị đối với NER, nhưng vẫn phải được LLM xem xét. Nhưng điều gì sẽ xảy ra nếu chúng ta có thể khai thác tính dự đoán về cấu trúc này? Điều gì sẽ xảy ra nếu chúng ta có thể dự đoán giá trị của một phần trước khi gửi nó đến LLM, cắt giảm đáng kể chi phí nhập dữ liệu bằng cách bỏ qua một cách chiến lược những phần nhiễu? Trong bài viết này, chúng ta sẽ khám phá một phương pháp mới để giảm thiểu nội dung mà LLM phải xem. Bằng cách tận dụng các khái niệm cấu trúc của Proxy-Pointer RAG và giới thiệu một chỉ số dự đoán được gọi là Graphability Indexing, chúng ta có thể chọn lọc bỏ qua các phần có năng suất thấp của các tài liệu dày đặc. Tôi minh họa điều này bằng cách sử dụng ba Thỏa thuận tín dụng doanh nghiệp lớn, thực tế – Emerson, AT&T và Texas Roadhouse – để chứng minh cách phương pháp này có thể cắt giảm chi phí trích xuất, so với các quy trình trích xuất toàn bộ tài liệu, mà không làm mất đi tính toàn vẹn của Đồ thị tri thức thu được. Tóm tắt nhanh: Proxy-Pointer là gì? Proxy-Pointer là một kỹ thuật RAG (Tạo phản hồi tăng cường) nhận biết cấu trúc, mang lại độ chính xác cao đối với các tài liệu phức tạp như báo cáo thường niên, thỏa thuận tín dụng, v.v., với chi phí của Vector RAG tiêu chuẩn. Vector RAG tiêu chuẩn chia tài liệu thành các đoạn mù, nhúng chúng và truy xuất top-K theo độ tương đồng cosine. Ngay cả với sự chồng chéo và phân đoạn ngữ nghĩa, đây không phải là một phương pháp đáng tin cậy để trích xuất quan hệ trong KG (đồ thị tri thức) doanh nghiệp vì các đoạn làm phân mảnh ngữ cảnh của tài liệu, khiến việc trích xuất dễ bị ảo giác. Thay vào đó, Proxy-Pointer coi một tài liệu là một cây gồm các khối ngữ nghĩa tự chứa (các phần). Ngữ cảnh được gói gọn trong mỗi phần và do đó đây là những ứng cử viên tốt để trích xuất quan hệ. Ngoài ra, LLM có nhiều khả năng xác định chính xác các thực thể và quan hệ từ một phần trong một lần duy nhất, thay vì từ một tài liệu dài 100 trang, giúp loại bỏ các lần quét lặp lại không cần thiết. Về mặt kỹ thuật, Proxy-Pointer tận dụng năm kỹ thuật kỹ thuật không tốn chi phí cho RAG – cấu trúc cây xương sống của tài liệu, chèn đường dẫn (breadcrumb injection), phân đoạn theo cấu trúc (structure-guided chunking), lọc nhiễu và ngữ cảnh dựa trên con trỏ (pointer-based context). Chúng tôi sẽ tận dụng một số khái niệm này cùng với một vài khái niệm mới tại đây. Độc giả có thể tham khảo bài viết tại đây để biết thêm về Proxy-Pointer. Các phương pháp hiện có để tối ưu hóa NER Trước khi xem xét phương pháp Proxy-Pointer, chúng ta hãy xem xét một số phương pháp tối ưu hóa hiện có được các tổ chức áp dụng. Các mô hình NLP truyền thống / được đào tạo trước (ví dụ: spaCy): Một cách tiếp cận phổ biến đầu tiên là sử dụng các đường ống NLP truyền thống, nhẹ như spaCy cùng với một mô hình ngôn ngữ lớn (LLM) theo phương pháp Funnel. Các mô hình này cực kỳ nhanh và rẻ, được đào tạo trước để nhận dạng các thực thể tiêu chuẩn (Người, Tổ chức, Địa điểm, Ngày) và được sử dụng để quét tài liệu tìm các vùng điểm nóng thực thể. Các điểm nóng sau đó được quét bằng LLM một cách tập trung. Tuy nhiên, mật độ thực thể không nhất thiết tương quan với mật độ quan hệ. Ví dụ, các phần hành chính tiêu chuẩn như "Thông báo" hoặc "Phụ lục" có thể chứa nhiều thực thể tiêu chuẩn (tên, địa chỉ, ngày) mà không chứa bất kỳ mối quan hệ pháp lý cấu trúc nào. Chúng cũng gặp khó khăn với các thực thể doanh nghiệp riêng biệt (như Adjusted Term SOFR hoặc Swing Line Loans) và không phù hợp để trích xuất các mối quan hệ phức tạp, lồng ghép cần thiết cho một biểu đồ tri thức pháp lý có ràng buộc cao. Ngoài ra, việc tinh chỉnh liên tục các mô hình này để đạt được độ chính xác cần thiết đòi hỏi nhiều nỗ lực chú thích thủ công và chi phí tính toán. Quét trước bằng LLM (Mô hình định tuyến nhỏ hơn): Một cách tiếp cận khác là sử dụng một LLM nhỏ hơn, rẻ hơn để nhanh chóng quét trước các đoạn và quyết định xem chúng có chứa các mối quan hệ có giá trị hay không, trước khi chỉ gửi các đoạn có giá trị cao đến một mô hình lý luận lớn để trích xuất sâu. Mặc dù rẻ hơn trên mỗi token, chúng ta vẫn buộc một mô hình phải đọc từng từ của một tài liệu 500 nghìn ký tự. Và do đó, đây cũng là một lần quét kép lãng phí của các phần lớn của tài liệu. Phương pháp Proxy-Pointer Như đã đề cập trước đó, Proxy-Pointer tận dụng các thuộc tính sau của biểu đồ tri thức: Các biểu đồ được xây dựng cho một lĩnh vực/khu vực chức năng, và do đó lưu trữ nội dung tài liệu tương tự. Một biểu đồ mua sắm sẽ nhập nhiều hợp đồng nhà cung cấp (và cũng nhiều hợp đồng của cùng một nhà cung cấp), một biểu đồ tài chính sẽ có nhiều tài liệu cho vay và tín dụng, tài liệu tuân thủ, v.v. Các tài liệu chia sẻ một cấu trúc cơ bản tương tự —