Bên lề những lời quảng cáo: Thực tế về OCR, AI Agent và xử lý tài liệu từ cộng đồng kỹ sư

Thay vì dựa vào các thông cáo báo chí của nhà cung cấp, một phân tích mới khai thác các thảo luận từ diễn đàn kỹ thuật chưa được kiểm chứng. Bài viết làm rõ sự phân mảnh của công nghệ OCR, sự trỗi dậy của kiến trúc pipeline lai và những thách thức thực tế khi đưa AI vào vận hành sản xuất.

Trong thế giới của công nghệ xử lý tài liệu thông minh (IDP), chúng ta thường nghe những con số ấn tượng từ các nhà cung cấp: thời gian xử lý giảm từ 20 phút xuống dưới 2 phút, độ chính xác đạt 99%. Nhưng thực tế tại các phòng kỹ thuật lại là một câu chuyện hoàn toàn khác.

Christopher Helm, chuyên gia theo dõi thị trường IDP, đã dành một tháng để đọc các diễn đàn kỹ thuật và bảng thảo luận của các nhà thực hành thay vì các thông cáo báo chí.

Christopher Helm

Những gì ông tìm thấy là một bức tranh hỗn loạn nhưng đầy tính minh bạch về những gì thực sự hoạt động và những gì không hoạt động.

Bản demo hoạt động hoàn hảo, sản xuất thì không

Một điểm chung xuất hiện liên tục là sự chênh lệch giữa bản demo và môi trường thực (production). Một điều phối viên vận hành đã thử nghiệm 8 công cụ OCR trên hơn 200 hóa đơn vận chuyển đa ngôn ngữ. Kết quả là sự thất vọng: đa số các công cụ đã phá hủy định dạng bảng, biến các hóa đơn tổ chức tốt thành một "món súp" chữ cái không thể đọc được. Ngay cả các tên tuổi lớn như Adobe hay Google cũng không giữ được cấu trúc. ABBYY cho kết quả tốt hơn nhưng lại mang cảm giác lỗi thời.

Thậm chí, những người xử lý tài liệu kỹ thuật của NASA từ thập niên 1950 cũng phải xây dựng lại toàn bộ pipeline của mình bằng cách sử dụng các mô hình ngôn ngữ-vision (vision-language models) vì các công cụ phân tích cú pháp có sẵn (off-the-shelf parsers) bị lỗi ngay từ lô đầu tiên.

Sự phân mảnh của OCR

Sáu tháng trước, các kỹ sư có thể tự tin chỉ ra một engine OCR ưa thích. Nay, sự tự tin đó đã biến mất.

Một benchmark thử nghiệm bảy giải pháp trên tài liệu học thuật với nhiều chú thích, bảng và phương trình cho thấy thứ hạng thay đổi liên tục. Trong khi Mistral API đứng đầu, thì Tesseract thậm chí không lọt vào bảng xếp hạng trong thử nghiệm này.

Tuy nhiên, thảo luận cho thấy mỗi kỹ sư lại ưa chuộng một stack khác nhau: PaddleOCR, MinerU, Qwen2.5-VL, hay Docling. Công cụ này hoạt động tốt với tài liệu của người này nhưng lại thất bại với người kia.

Một xu hướng đáng chú ý là sự dịch chuyển sang các mô hình vision-language (VLM) cho các tài liệu viết tay phức tạp, nơi OCR truyền thống đạt độ chính xác gần như bằng không. Tuy nhiên, những người xử lý khối lượng lớn hóa đơn in vẫn tin tưởng vào Tesseract kết hợp với mô hình ngôn ngữ để sửa lỗi sau, đạt độ chính xác 93-95% với chi phí gần như bằng không.

Kiến trúc lai (Hybrid Pipeline) chiến thắng

Sự đồng thuận kỹ thuật (nếu tin vào các bài đăng diễn đàn) đang hướng tới kiến trúc hai giai đoạn: sử dụng một mô hình OCR hoặc layout chuyên dụng để chuyển tài liệu thành Markdown có cấu trúc, sau đó mới để mô hình ngôn ngữ xử lý trích xuất và lập luận.

Cách tiếp cận lai này được đánh giá là vượt trội hơn về độ chính xác và chi phí so với việc gửi ảnh thô trực tiếp cho vision model.

Một trường hợp điển hình là pipeline xử lý hồ sơ vay thế chấp. Bằng cách kết hợp PaddleOCR cho bản quét sạch, DocTR cho bố cục phức tạp, Tesseract tinh chỉnh và LayoutLM, người dùng đã nâng độ chính xác lên mức 96% và giảm thời gian xử lý từ hai ngày xuống còn 30 phút.

Tập trung vào phần cứng tự triển khai

Chi phí đám mây đang thúc đẩy sự sáng tạo. Một người dùng đã chia sẻ câu chuyện thay thế chi phí API đám mây khoảng 100 USD/tháng bằng việc mua một chiếc Mac Studio M1 Ultra cũ trên eBay với giá dưới 2.000 Euro (khoảng 53 triệu đồng).

Họ chạy ba AI agent điều phối qua Telegram, với Qwen 3.5 chạy ở tốc độ 60 token/giây. Mọi thứ từ xử lý văn bản, giọng nói đến trích xuất tài liệu đều diễn ra nội bộ (local), hoàn toàn không phụ thuộc vào đám mây. Nếu con số chính xác, phần cứng sẽ tự hoàn vốn trong vòng dưới hai năm.

Thách thức với Bảng và AI Agent

Bảng biểu (Tables) vẫn là "cơn ác mộng" của việc xử lý tài liệu. Người dùng ước tính 40-60% thông tin quan trọng của doanh nghiệp nằm trong các bảng. Các ô hợp nhất, tiêu đề cột đa cấp và bảng trải dài nhiều trang khiến hầu hết các trình phân tích có sẵn đều thất bại.

Đồng thời, khái niệm AI Agent (tác nhân AI) cũng đang gặp phải sự hoài nghi. Trong bản demo, agent hoạt động xuất sắc. Trong tuần đầu vận hành sản xuất, chúng cũng hoạt động tốt. Nhưng đến ngày thứ 11, các trường hợp ngoại lệ bắt đầu tích tụ. Một định dạng tài liệu thay đổi, một giới hạn tỷ lệ API dịch chuyển, và hệ thống âm thầm tạo ra các kết quả sai mà công cụ giám sát không phát hiện ra.

Nhiều người đã từ bỏ kiến trúc agent phức tạp để quay lại các pipeline xác định (deterministic pipelines) đơn giản hơn, rẻ hơn và nhanh hơn.

Kiểm duyệt con người vẫn là chìa khóa

Một bài toán chưa được giải quyết là xác thực đầu ra. Dù điểm tin cậy (confidence scores) hữu ích, nhưng các bài đăng đều cho thấy 15-30% tài liệu vẫn cần được chuyển cho người xem xét (human reviewers).

Các nhóm thiết kế quy trình xem xét của con người ngay từ đầu, xây dựng công cụ xếp hàng và phân mức độ ưu tiên, báo cáo thông lượng cao hơn nhiều so với các nhóm cố gắng loại bỏ con người hoàn toàn.

Lời khuyên cho người mua

Công nghệ OCR cho văn bản in đã trở thành hàng hóa; đừng trả giá cao cho nó. Độ chính xác khi trích xuất bảng mới là yếu tố phân biệt thực sự. Hãy kiểm tra trên chính tài liệu của bạn, không phải trên bộ demo của nhà cung cấp.

Hãy hỏi kỹ về con số độ chính xác trên từng loại tài liệu cụ thể, và tìm hiểu xem hệ thống sẽ xử lý thế nào khi mức độ tin cậy thấp. Kiến trúc lai thường mang lại hiệu quả tốt hơn trong các hệ thống quy mô lớn hiện nay.

Cuối cùng, hãy nhớ rằng những vấn đề hiện tại không phải là vấn đề của mô hình, mà là vấn đề về kiến trúc, tích hợp và sự tin cậy.