Tôi đã dành tháng 5 để đánh giá các công cụ khác nhau cho OCR…

Thử nghiệm 14 công cụ trên 93 tài liệu của con người Bài đăng Tôi đã dành tháng 5 để đánh giá các công cụ khác nhau cho OCR xuất hiện lần đầu trên Towards Data Science.

Học máy Tôi đã dành tháng 5 để đánh giá các công cụ khác nhau cho OCR Thử nghiệm mười bốn công cụ trên chín mươi ba tài liệu do con người tạo ra Ida Silfverskiöld Ngày 3/6/2026 17 phút đọc Chia sẻ Chỉ để giải trí – có một biểu đồ phân tán thực tế ở phía dưới | Hình ảnh của tác giả Không phải tất cả tài liệu đều được thiết kế để máy đọc. Hóa đơn khách sạn cũ, sao kê ngân hàng, phiếu lương, đơn xin vay tiền, hóa đơn y tế, tờ khai hải quan, hồ sơ tòa án, lệnh làm việc. Hầu hết các công ty sử dụng các công cụ miễn phí cùng với các API trả phí để cố gắng chuyển đổi các tài liệu này, và nếu bạn muốn đầu ra có cấu trúc, các API như Textract Structured có thể tốn khoảng 65 USD cho 1.000 trang. Tuy nhiên, trong vài năm qua, nhiều lựa chọn mới đã xuất hiện: các mô hình thị giác mã nguồn mở nhỏ hơn chuyên biệt cho OCR, các mô hình thị giác-ngôn ngữ tổng quát và các công cụ phân tích tài liệu như LlamaParse – thay đổi những gì có thể thực hiện được và chi phí liên quan. Dòng thời gian sơ bộ – chúng ta thấy nhiều giải pháp OCR hơn sau năm 2024 | Hình ảnh của tác giả Vì vậy, đây là thời điểm thích hợp để tự mình thực hiện một thử nghiệm để kiểm tra một số giải pháp này với các tài liệu có độ khó khác nhau. Tôi đã tìm kiếm 93 tài liệu có thể đóng vai trò đại diện cho những gì các công ty sử dụng OCR – ghi chú viết tay, bảng biểu, tài liệu tài chính cũ, hóa đơn đã quét, biên lai, biểu đồ, báo cũ, tờ khai thuế – sau đó chạy tất cả qua 14 công cụ khác nhau. Ý tưởng là để xem chúng xử lý hai điều như thế nào: khôi phục văn bản và khả năng bảo toàn cấu trúc bảng hữu ích. Câu hỏi chính mà tôi muốn trả lời: bạn có thực sự cần trả 65 USD cho 1.000 trang có cấu trúc, hay bạn có thể giảm chi phí đó xuống một phần nhỏ? Và liệu các mô hình chuyên biệt có thắng thế so với các mô hình tổng quát không? Khi thực hiện các thử nghiệm như thế này, bạn luôn tìm thấy khá nhiều điều kỳ lạ, mà tôi cũng sẽ đề cập. Nhưng để trả lời câu hỏi chính đó, tôi sẽ đưa bạn qua OCR là gì (bỏ qua nếu không phải là người mới), kinh tế học, thử nghiệm, một số kết quả và những gì khác mà điều này đã cho tôi thấy. Lưu ý: Tôi không kiểm tra việc trích xuất trường đầy đủ, vì điều đó khó so sánh một cách rõ ràng giữa mười bốn công cụ. Tóm tắt Không có công cụ OCR nào là tốt nhất. OCR là một vấn đề định tuyến. Đối với các tài liệu sạch, khối lượng lớn, Tesseract vẫn khó bị đánh bại vì nó miễn phí và nhanh chóng. Đối với các tài liệu sản xuất hỗn hợp, Gemini Flash là công cụ toàn diện tốt nhất trong thử nghiệm này. Đối với bảng biểu, Mistral OCR có vẻ là lựa chọn có cấu trúc rẻ hơn. Các mô hình chuyên biệt nhỏ hơn trông tốt trong phạm vi thoải mái của chúng, nhưng lại thất bại nặng nề hơn với các tài liệu mà chúng chưa từng thấy. Vì vậy, đối với các tài liệu quan trọng hoặc lộn xộn, việc nâng cấp lên một mô hình lớn hơn là hợp lý. Điểm mấu chốt là về kinh tế: đừng trả tiền cho OCR có cấu trúc đắt tiền khi tài liệu không cần đến nó. Phân loại tài liệu của bạn, thử nghiệm các công cụ trên dữ liệu của riêng bạn và định tuyến dựa trên chi phí, độ chính xác, cấu trúc và khả năng chịu lỗi. Các điểm chuẩn hữu ích cho việc khám phá, nhưng chúng sẽ không cho bạn biết điều gì hiệu quả trên tài liệu của bạn. Giải thích về không gian OCR cho tôi OCR (Nhận dạng ký tự quang học) là cách một máy biến một hình ảnh thành văn bản có thể đọc được bằng máy. Về nguyên tắc thì đơn giản, và đối với các tài liệu dễ hơn thì hầu hết đã được giải quyết, nhưng khó hơn khi mọi thứ trở nên phức tạp hơn. Để cung cấp cho bạn một cái nhìn tổng quan nhanh, OCR cũ hơn tìm văn bản trên một trang, cắt nó thành các ký tự và khớp từng ký tự với một thư viện các hình dạng đã biết. Tesseract đã làm điều này từ những năm 1980. Tuy nhiên, công nghệ OCR hiện đại (bao gồm các phiên bản Tesseract mới hơn) thường sử dụng mạng nơ-ron để xử lý toàn bộ trang cùng lúc và xuất tài liệu dưới dạng văn bản. Do đó, nếu tài liệu là tệp PDF sạch hoặc bản quét chất lượng cao với phông chữ tiêu chuẩn, OCR phần lớn là một vấn đề đã được giải quyết. Vấn đề này trở nên phức tạp hơn khi tài liệu không còn ở dạng chuẩn: hóa đơn chụp ảnh, ghi chú viết tay, biểu đồ và đồ thị phức tạp, bảng tài chính dày đặc, hoặc các mẫu thuế và đơn xin vay tiền được quét. Các công ty cần thực hiện công việc này một cách hiệu quả vì đây là yếu tố mà mọi hệ thống hạ nguồn đều dựa vào. OCR càng được cải thiện, giấy tờ càng trở thành đối tượng mà hệ thống có thể xử lý thay vì con người phải đọc thủ công. Ngoài ra, nếu chúng ta cung cấp cho các hệ thống AI những tài liệu được phân tích kém, mọi thứ sau đó sẽ khó có thể tin cậy. Với sự quan tâm đến kinh tế, lĩnh vực này đã thu hút sự chú ý của tôi khi nhận thấy lượng tiền đầu tư vào đây. Thị trường Xử lý Tài liệu Thông minh (IDP) được dự báo sẽ tăng trưởng lên khoảng 20 tỷ đến 90 tỷ USD vào đầu những năm 2030, tùy thuộc vào nhà phân tích. Điều này có thể được thúc đẩy bởi các công ty phải trả 15–25 USD cho mỗi hóa đơn trong chi phí xử lý thủ công. Và vì tôi luôn theo sát thế giới công nghệ, tôi đã chứng kiến một làn sóng các mô hình OCR nhỏ chuyên biệt được ra mắt trong năm qua (chủ yếu từ Trung Quốc), hiện đang được các nhà phát triển sử dụng rộng rãi. Một số mô hình OCR chuyên biệt được phát hành năm ngoái | Ảnh của tác giả Điều này đặt ra câu hỏi mà tôi muốn kiểm tra: liệu các mô hình mã nguồn mở nhỏ có thực sự có thể thực hiện công việc mà các API đắt tiền tính phí, hay chúng ta nên tìm đến các mô hình thị giác tổng quát để xử lý OCR? Bỏ qua phần tiếp theo nếu bạn muốn hiểu kết quả của thí nghiệm này. Tôi phải trình bày thiết lập thử nghiệm trước. Các tài liệu, công cụ và số liệu Thí nghiệm này xoay quanh ba câu hỏi: chúng tôi đã sử dụng những công cụ nào, chúng tôi đã thử nghiệm với những tài liệu nào và làm thế nào chúng tôi quyết định ai thắng. Đối với các công cụ, tôi muốn có một danh sách bao gồm tất cả các lựa chọn đã đề cập, nghĩa là: cũ và mới, mở và đóng, cục bộ và đám mây, chuyên biệt và tổng quát. Tesseract trở thành lựa chọn cổ điển. Nó chạy cục bộ và rất nhanh. Sau đó, tôi đã thêm hai quy trình phân tích tài liệu: Docling và Marker. Docling chậm hơn nhưng chạy trên CPU, Marker là mã nguồn mở nhưng cần GPU để chạy nhanh, điều này sẽ thể hiện rõ hơn về chi phí. Sau đó là làn sóng các mô hình OCR mã nguồn mở chuyên biệt mới: GLM-OCR, PaddleOCR-VL, DeepSeek-OCR và MinerU 2.5 (một trường hợp cận biên, thực chất là một quy trình với một VLM bên trong). Tôi đã chọn chúng từ bảng xếp hạng OmniDocBench của OpenDataLab, nơi chúng xếp thứ nhất, thứ hai, thứ tư và thứ năm. Tôi đã lưu trữ chúng trên Modal và phục vụ các mô hình phù hợp bằng vLLM, sử dụng tính năng xử lý theo lô để tăng tốc. Tôi tính toán

Tôi đã dành tháng 5 để đánh giá các công cụ khác nhau cho OCR.