Bỏ qua tới nội dung chính
Quay lại tin tức

RAG không phải là Học máy và Bộ công cụ Học máy giải quyết sai vấn đề

Towards Data Science· angela shi· 1/6/2026general

Trí tuệ Tài liệu Doanh nghiệp [Tập 1 Số 3] - Tại sao bộ công cụ học máy (quét siêu tham số, phân chia tập huấn luyện/kiểm tra, khung giải thích) giải quyết sai vấn đề, và nên sử dụng gì thay thế Bài viết RAG không phải là Học máy, và Bộ công cụ ML giải quyết sai vấn đề xuất hiện đầu tiên trên Towards Data Science.

Mô hình ngôn ngữ lớn RAG không phải là Học máy, và bộ công cụ ML giải quyết sai vấn đề Trí tuệ tài liệu doanh nghiệp [Tập 1 #3] – Tại sao bộ công cụ ML (quét siêu tham số, phân chia tập huấn luyện/kiểm tra, khung giải thích) giải quyết sai vấn đề, và nên sử dụng gì thay thế angela shi Ngày 1/6/2026 30 phút đọc Chia sẻ Ảnh của Teslariu Mihai qua Unsplash Một nhóm phát triển đã dành sáu tháng để tinh chỉnh quy trình RAG của họ. Họ đã chạy năm lần quét Optuna. Họ đã thêm một bộ sắp xếp lại tùy chỉnh. Họ đã tinh chỉnh một mô hình nhúng trên dữ liệu của riêng họ. Độ chính xác sản xuất không thay đổi. Các dự án thí điểm vẫn tiếp tục phàn nàn về những câu trả lời sai tương tự. Sáu tháng sau, lỗi nằm ở bộ phân tích. Nhóm đã lạc lối, không phải bế tắc. RAG không phải là học máy, và bộ công cụ ML giải quyết sai vấn đề. Đây là quan niệm sai lầm tốn kém nhất trong RAG doanh nghiệp hiện nay. Nó tiêu tốn hàng tháng làm việc cẩn thận, những người không phù hợp với những nhiệm vụ không phù hợp, và sự xói mòn âm thầm niềm tin vào hệ thống. RAG trông đủ giống học máy để bộ công cụ ML có vẻ là bước tiếp theo tự nhiên. Các bản năng (tối ưu hóa siêu tham số, tập dữ liệu đánh giá, khung giải thích) không sai khi đứng riêng lẻ. Chúng được nhập từ một lĩnh vực sai. Các phương pháp hiệu quả để huấn luyện mô hình không hiệu quả để xây dựng hệ thống tìm kiếm. Vấn đề không phải là ML tệ. Mô hình nhúng cung cấp năng lượng cho tìm kiếm vector bản thân nó là một mô hình học sâu, nhưng bạn không huấn luyện nó, bạn sử dụng nó. Vấn đề là hệ thống bạn đang xây dựng xung quanh nó không phải là một mô hình, và việc coi nó như vậy sẽ lãng phí thời gian, chọn sai số liệu, thuê sai người và che giấu các chế độ lỗi thực sự. Quan điểm "RAG không phải là ML" là một phần của Trí tuệ tài liệu doanh nghiệp Tập 1, xây dựng RAG doanh nghiệp từng bước một. Bốn khối (phân tích cú pháp, phân tích câu hỏi, truy xuất, tạo) là bộ công cụ kỹ thuật mà bài viết này đề cập. 1. Hai vấn đề khác nhau Học máy giải quyết các vấn đề mà câu trả lời đúng không được biết và phải được dự đoán. Khách hàng này có bỏ đi không? Xác suất giao dịch này là gian lận là bao nhiêu? Hình ảnh này có phải là mèo không? Bạn không biết câu trả lời trước. Đó là lý do tại sao bạn huấn luyện một mô hình. Mô hình học từ các ví dụ được gắn nhãn, khái quát hóa cho các đầu vào mới và tạo ra một dự đoán. Hiệu suất được đo lường tổng hợp, trên hàng ngàn trường hợp thử nghiệm, bởi vì các dự đoán riêng lẻ có thể sai trong khi mô hình vẫn hữu ích tổng thể. RAG giải quyết một vấn đề khác. Câu trả lời cho "ngày hiệu lực của hợp đồng này là khi nào?" tồn tại, được viết trên trang đầu tiên của tài liệu, hoặc nó không tồn tại ở bất cứ đâu. Không có gì để dự đoán. Hệ thống hoặc tìm thấy câu trả lời trong tài liệu và báo cáo một cách trung thực, hoặc nó thất bại và nên nói như vậy. Hiệu suất là nhị phân ở cấp độ câu hỏi (tìm thấy hoặc không tìm thấy) ngay cả khi bạn đo lường tỷ lệ tổng hợp trên nhiều câu hỏi. Những khác biệt này là cụ thể: Trong ML, "mô hình sai trong 8% trường hợp" là một tính năng của hệ thống. Bạn xây dựng sự dư thừa, kiểm tra hạ nguồn, xem xét của con người cho các trường hợp biên. Trong RAG, "hệ thống đưa ra câu trả lời sai 8% thời gian" là một lỗi. Mỗi 8% đó có một nguyên nhân cụ thể: đoạn văn sai được truy xuất, đoạn văn đúng được truy xuất nhưng mô hình diễn giải sai, câu trả lời không có trong kho ngữ liệu và hệ thống đã tự tạo ra. Chúng không phải là nhiễu thống kê để tối ưu hóa trung bình. Chúng là những lỗi có thể sửa được riêng lẻ. Trong học máy (ML), nhìn chung không thể giải thích tại sao mô hình lại mắc lỗi trong một trường hợp cụ thể. Đó là lý do tại sao khả năng giải thích là một lĩnh vực nghiên cứu. Trong RAG (Retrieval Augmented Generation), điều này luôn có thể giải thích được. Nhật ký truy xuất ghi lại các đoạn văn đã được trả về. Trình tạo đã xem chính xác các đoạn văn đó. Nếu câu trả lời sai, người dùng sẽ đi ngược chuỗi để tìm liên kết bị hỏng. Không có gì bị che giấu. Trong ML, mô hình được cải thiện bằng cách huấn luyện trên nhiều dữ liệu hơn. Trong RAG, hệ thống được cải thiện bằng cách lập chỉ mục tốt hơn, phân tích cú pháp cẩn thận hơn, truy xuất chính xác hơn, nhắc nhở rõ ràng hơn. Không có hoạt động nào trong số đó là huấn luyện. Đó là kỹ thuật. Sự khác biệt đó thay đổi các công cụ được sử dụng khi có sự cố. Các trường hợp được liệt kê trong Điều 2 thuộc chính xác vào đây: phủ định, định danh chính xác, từ viết tắt nội bộ, làm loãng tín hiệu trong ngữ cảnh dài, sự gần gũi về chủ đề vượt trội so với câu trả lời thực tế. Không có trường hợp nào trong số đó thay đổi khi người dùng hoán đổi các mô hình nhúng hoặc thay đổi kích thước khối. Chúng không phải là lỗi mà mô hình có thể tự học cách khắc phục, bởi vì không có tín hiệu được gắn nhãn nào nói rằng "đây là dòng đúng" để mô hình huấn luyện. Cách khắc phục mang tính cấu trúc (phân tích cú pháp câu hỏi, từ khóa chuyên gia, truy xuất biết cấu trúc tài liệu), và các phần tiếp theo sẽ trình bày ba phản xạ ML chọn sai công cụ. 2. Ba lập luận không áp dụng Ba phương pháp ML được mặc định đưa vào các dự án RAG: tối ưu hóa siêu tham số, tập dữ liệu đánh giá với phân chia huấn luyện/kiểm tra và khả năng giải thích dựa trên thuộc tính tính năng. Mỗi phương pháp đều hợp lý trong ML. Mỗi phương pháp đều không hiệu quả ở đây. 2.1 Lập luận về siêu tham số Cách diễn đạt phổ biến nhất là: kích thước khối, chồng chéo, top-k, ngưỡng tương đồng. Đây là các siêu tham số, và người dùng nên tối ưu hóa chúng theo cách tối ưu hóa các mô hình ML, sử dụng các công cụ như Optuna hoặc Ray Tune. Chạy một lần quét, vẽ biểu đồ đường cong, chọn cấu hình tốt nhất. Trong các thiết lập này, top_k là số đoạn văn mà trình truy xuất giữ lại, và similarity_threshold là điểm cosine tối thiểu mà một đoạn văn phải đạt được để đủ điều kiện. Đoạn mã dưới đây khai báo cả bốn là các số để tối ưu hóa: # Những gì các nhóm thường viết (và tại sao đó là hoạt động sai) import optuna def objective(trial): chunk_size = trial.suggest_int("chunk_size", 100, 2000) chunk_overlap = trial.suggest_int("chunk_overlap", 0, 200) top_k = trial.suggest_int("top_k", 1, 20) threshold = trial.suggest_float("threshold", 0.5, 0.95) accuracy = run_rag_pipeline_and_score( chunk_size, chunk_overlap, top_k, threshold ) return accuracy study = optuna.create_study(direction="maximize") study.optimize(objective, n_trials=200) # t

Nguồn tin: Towards Data Science — Tác giả: angela shi. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.