Reducto ra mắt Deep Extract: Giải pháp trích xuất dữ liệu AI đạt độ chính xác tuyệt đối

06 tháng 4, 2026·4 phút đọc

Reducto giới thiệu Deep Extract, công nghệ trích xuất dữ liệu mới sử dụng cơ chế agent-in-the-loop để tự kiểm tra và sửa lỗi. Công cụ này đạt độ chính xác 99-100% trên các tài liệu dài hàng nghìn trang, vượt trội so với phương pháp truyền thống.

Reducto ra mắt Deep Extract: Giải pháp trích xuất dữ liệu AI đạt độ chính xác tuyệt đối

Reducto ra mắt Deep Extract: Giải pháp trích xuất dữ liệu AI đạt độ chính xác tuyệt đối

Reducto vừa công bố bản cập nhật quan trọng nhất cho đến nay của nền tảng trích xuất dữ liệu có cấu trúc: Deep Extract. Đây là giải pháp sử dụng phương pháp tiếp cận "agent harness" (harness tác nhân AI) mới, cho phép hệ thống tự xác minh và sửa chữa đầu ra cho đến khi đạt được độ chính xác tối đa. Công nghệ này đặc biệt hữu ích khi xử lý các tài liệu dài và phức tạp, giúp doanh nghiệp giảm thiểu sự phụ thuộc vào việc kiểm tra thủ công bởi con người.

Deep Extract CoverDeep Extract Cover

Thách thức với các giải pháp trích xuất hiện tại

Trong suốt năm qua, Reducto nhận được nhiều phản hồi từ khách hàng về việc các quy trình trích xuất hiện tại thường bị lỗi khi xử lý các tài liệu dài và phức tạp như hóa đơn hàng chục trang hay báo cáo tài chính kéo dài hàng trăm trang. Vấn đề chính không nằm ở khả năng đọc tài liệu của mô hình AI, mà ở cơ chế "trích xuất một lần" (single-pass extraction).

Các mô hình AI có xu hướng lười biếng hoặc tìm cách tắt đường khi phải thực hiện các nhiệm vụ dài, lặp đi lặp lại. Khi phải trích xuất hàng nghìn dòng mục, chúng thường dừng lại sớm, gộp chung hoặc bỏ sót các mục thay vì làm việc kỹ lưỡng từng dòng một. Điều này dẫn đến việc tổng số tiền không khớp và các mục bị mất, buộc các đội ngũ phải thuê người thực hiện quy trình "con người trong vòng lặp" (HITL) để kiểm tra thủ công, tốn kém thời gian và chi phí.

Deep Extract TypesDeep Extract Types

Cách tiếp cận Agent Harness của Reducto

Deep Extract giải quyết vấn đề này bằng cách áp dụng kỷ luật của kiến trúc tác nhân dài hạn (long-horizon agents) vào quy trình trích xuất tự động. Thay vì chỉ thực hiện một lần qua, Deep Extract chạy một vòng lặp tác nhân (agentic loop):

  • Trích xuất: Thu thập dữ liệu từ tài liệu.
  • Xác minh: So sánh kết quả với tài liệu gốc để tìm các mục bị thiếu hoặc không nhất quán.
  • Tái trích xuất: Lặp lại quy trình cho đến khi đầu ra đạt ngưỡng chất lượng đã định.

Thay vì xử lý tài liệu phức tạp như một khối nhiệm vụ khổng lồ, Deep Extract triển khai các tác nhân con để chia nhỏ và chinh phục từng phần. Điều này cho phép hệ thống duy trì độ chính xác cao ngay cả trên các tài liệu có hàng nghìn dòng trải dài hàng trăm trang.

Deep Extract HarnessDeep Extract Harness

Tính năng xác minh và trích dẫn chi tiết

Điểm mạnh của Deep Extract là khả năng định nghĩa tiêu chuẩn "đúng" trực tiếp trong system prompt. Ví dụ, đối với một hóa đơn, tiêu chuẩn có thể là: "đảm bảo tổng số tiền của tất cả các dòng mục bằng với tổng số được ghi". Đối với báo cáo tài chính: "xác minh tài sản bằng tổng nợ phải trả và vốn chủ sở hữu".

Ngoài ra, khi bật tính năng trích dẫn (citations), đầu ra sẽ chứa các hộp giới hạn (bounding boxes) chi tiết cho tất cả các trường dữ liệu đã trích xuất. Đây là tính năng cực kỳ mạnh mẽ cho việc kiểm toán, quy trình xem xét của con người và bất kỳ ứng dụng nào cần truy xuất giá trị đã trích xuất về vị trí chính xác của nó trong tài liệu gốc.

Hiệu suất trong môi trường thực tế

Trong giai đoạn thử nghiệm beta, Deep Extract đã trích xuất thành công hơn 28 triệu trường dữ liệu trên các tài liệu dài tới 2.500 trang. Nhiều nhóm kỹ thuật đã chuyển từ độ chính xác trường dữ liệu 10-20% khi sử dụng các mô hình tiên phong (frontier models) lên mức 99-100% chỉ bằng cách chuyển sang sử dụng Deep Extract của Reducto.

Các trường hợp sử dụng thực tế bao gồm:

  • Báo cáo thanh toán của chính quyền hạt với số chi tiết, số séc, giá cả, ngày thanh toán.
  • Báo cáo vị thế giao dịch trao đổi với mã chứng khoán, giá gốc và lãi/chưa thực hiện.
  • Hóa đơn nông nghiệp với chi tiết thanh toán, số hóa đơn, số CHQ/ngày tháng, số tiền khấu trừ, v.v.

Mặc dù Deep Extract tốn nhiều thời gian xử lý hơn một cuộc gọi trích xuất tiêu chuẩn do khối lượng công việc lớn hơn, nhưng khi so sánh với phương án thay thế thực tế là con người xem xét thủ công từng trường trong một báo cáo quỹ 500 trang, nó nhanh hơn, rẻ hơn và nhất quán hơn ở quy mô lớn.

Deep Extract hiện đã có sẵn dưới dạng cấu hình cho điểm cuối Extract (Extract endpoint). Người dùng có thể bật tính năng này bằng cách đặt deep_extract: true trong cài đặt trích xuất và tùy chọn thêm tiêu chí xác minh vào system prompt của mình.

Tài liệu đầy đủ dành cho nhà phát triển có thể tìm thấy tại docs.reducto.ai.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗