Local-First AI Inference: Mô hình kiến trúc đám mây giúp tối ưu hóa chi phí xử lý tài liệu

Bài viết giới thiệu mô hình "Local-First AI Inference", một kiến trúc đám mây giúp giảm thiểu chi phí xử lý tài liệu bằng cách ưu tiên trích xuất dữ liệu cục bộ cho phần lớn các trường hợp đơn giản. Áp dụng trên 4.700 bản vẽ kỹ thuật, phương pháp này đã cắt giảm 75% chi phí API và 55% thời gian xử lý nhờ hệ thống ba tầng kết hợp giữa quy tắc xác định, AI đám mây và kiểm duyệt bởi con người.

Kiến trúc mặc định cho việc xử lý tài liệu trên đám mây hiện nay thường là gửi mọi tài liệu đến một điểm cuối AI được quản lý và nhận về dữ liệu có cấu trúc. Mặc dù cách tiếp cận này hoạt động tốt, nhưng nó lại gây lãng phí tài nguyên đáng kể. Đối với các kho tài liệu có bố cục cấu trúc như bản vẽ kỹ thuật, hóa đơn hoặc hồ sơ pháp lý, 60-70% dữ liệu đầu vào có thể được xử lý bằng các phương pháp cục bộ xác định trong vài mili-giây với chi phí API bằng không.

Bài viết này trình bày một mô hình có thể tái sử dụng được gọi là Local-First AI Inference (Suy luận AI Ưu tiên Cục bộ): một kiến trúc ba tầng trong đó xử lý cục bộ xác định chịu trách nhiệm cho phần lớn dữ liệu đầu vào, dịch vụ AI đám mây được dành riêng cho các trường hợp ngoại lệ, và một tầng kiểm duyệt bởi con người giúp giới hạn tỷ lệ lỗi.

Kiến trúc ba tầng

Số lượng tầng được xác định bởi số lượng chế độ thất bại. Một hệ thống hai tầng (cục bộ cộng với đám mây) sẽ chấp nhận kết quả ảo giác của đám mây một cách âm thầm hoặc từ chối chúng và mất khả năng bao phủ. Ba tầng là mức tối thiểu cần thiết để bao phủ tất cả ba lớp lỗi: tài liệu mà các quy tắc có thể xử lý, tài liệu cần sự diễn giải thị giác, và tài liệu mà không phương pháp nào đủ đáng tin cậy để hành động mà không có con người.

Kiến trúc Local-First AI Inference - Đường ống kết hợp ba tầng

Tầng 1: Trích xuất cục bộ xác định

Mọi tài liệu đều đi vào đường ống thông qua giai đoạn trích xuất cục bộ sử dụng PyMuPDF. Tầng này xử lý 70-80% tài liệu với chi phí API bằng không và tốc độ khoảng 3 giây mỗi tài liệu. Nó được thiết kế để có độ chính xác cao và độ phủ thấp: khi không chắc chắn, nó sẽ không trả về gì thay vì đoán mò.

Tầng 2: Suy luận AI trên đám mây

Các tài liệu không vượt qua Tầng 1 sẽ được hiển thị dưới dạng hình ảnh và gửi đến điểm cuối GPT-4 Vision của Azure OpenAI. Tầng này xử lý 20-30% tài liệu còn lại với chi phí khoảng một xu mỗi lần gọi và khoảng 10 giây mỗi tài liệu. Chế độ thất bại của nó ngược lại với Tầng 1: nó có thể trả về câu trả lời sai nhưng tự tin.

Tầng 3: Hàng đợi kiểm duyệt bởi con người

Các tài liệu mà Tầng 1 và Tầng 2 tạo ra kết quả xung đột, hoặc Tầng 2 trả về kết quả có độ tin cậy thấp, sẽ được gắn cờ để kiểm tra thủ công (khoảng 5% tài liệu).

Chấm điểm độ tin cậy: Trái tim của kiến trúc

Quyết định nâng cấp từ Tầng 1 lên Tầng 2 được điều khiển bởi một hàm chấm điểm độ tin cậy. Các ứng viên trước tiên được lọc qua một danh sách chặn (blocklist), sau đó được chấm điểm dựa trên bốn tiêu chí có trọng số.

Lọc sơ bộ: Danh sách chặn

Trước khi chấm điểm, một danh sách chặn rõ ràng sẽ loại bỏ các mẫu dương tính giả đã biết: các đánh dấu phần ("SECTION C-C"), chữ cái tham chiếu lưới, chỉ báo trang ("OF"), và tiêu đề cột lịch sử sửa đổi.

Vị trí không gian (Spatial Position)

Trình trích xuất giới hạn tìm kiếm trong khu vực tài liệu mà trường mục tiêu được mong đợi xuất hiện (ví dụ: dưới 30%, phải 40% của trang cho khối tiêu đề bản vẽ kỹ thuật).

Mỏ neo gần (Anchor Proximity)

Các ứng viên gần các nhãn đã biết ("REV:", "DWG NO", "SHEET") sẽ có điểm cao hơn. Sự liền kề chính xác (ví dụ: "REV: E") được điểm cao nhất.

Tuân thủ định dạng (Format Conformance)

Các ứng viên được kiểm tra dựa trên các định dạng hợp lệ: số có dấu gạch nối (1-0, 2-0), chữ cái đơn (A-Z), chữ cái kép (AA, AB) hoặc các giá trị đặc biệt.

Tín ngữ cảnh (Contextual Signals)

Các chỉ báo thứ cấp xác nhận tính hợp lệ của ứng viên: sự gần gũi với các nhãn xác nhận khác (SHEET, SCALE, DWG NO xuất hiện gần đó), tính nhất quán với siêu dữ liệu khác đã trích xuất.

Bản vẽ kỹ thuật có chú thích

Hình 2 minh họa một bản vẽ điển hình cho thấy khối tiêu đề (góc dưới bên phải) với giá trị REV là "E". Bằng cách sử dụng các tiêu chí trên, hệ thống có thể phân biệt chữ "E" trong khối tiêu đề (điểm cao) với chữ "E" trong bảng lịch sử sửa đổi (điểm thấp do ngữ cảnh sai) hoặc chữ "E" là tham chiếu lưới (điểm thấp do vị trí sai).

Phân tích đánh đổi và Hiệu quả

Mô hình kết hợp (Local-First AI) đã được triển khai trên Azure để trích xuất siêu dữ liệu từ hơn 4.700 tệp PDF bản vẽ kỹ thuật. Một cách tiếp cận chỉ dùng đám mây sẽ tốn 47 USD cho các cuộc gọi API Azure OpenAI, mất 100 phút và mang đến rủi ro ảo giác âm thầm trên mọi tài liệu.

Cách tiếp cận kết hợp đã giảm chi phí API xuống còn 10-15 USD, thời gian xử lý xuống còn 45 phút và giới hạn tỷ lệ lỗi thông qua tầng kiểm duyệt của con người.

Cách tiếp cận	Chi phí API (n=4.700)	Thời gian xử lý	Độ chính xác (trước kiểm duyệt)	Chế độ thất bại
Chỉ dùng đám mây	~$47	~100 phút	98%	Ảo giác âm thầm (2% lỗi không phát hiện)
Chỉ dùng cục bộ	$0	~25 phút	85-90%	Bỏ sót tài liệu quét
Kết hợp (Local-First)	~$10-15	~45 phút	96% (+ 5% kiểm duyệt)	Giới hạn bởi tầng kiểm duyệt

Triển khai và Vận hành trên Đám mây

Suy luận trên đám mây nên được coi là đường dẫn ngoại lệ, không phải đường dẫn mặc định. Mọi quyết định kiến trúc đều tuân theo nguyên tắc này.

Quản trị Azure OpenAI

Tác giả sử dụng Azure OpenAI Service (không phải API OpenAI trực tiếp) để giữ nội dung tài liệu trong tenant Azure của tổ chức. Giới hạn tốc độ được quản lý chủ động. Tải trọng hình ảnh được hiển thị ở 150 DPI sau khi thử nghiệm cho thấy 72 DPI làm giảm độ chính xác trên tài liệu quét trong khi 300 DPI làm tăng gấp đôi kích thước tải trọng mà không cải thiện kết quả.

Nâng cấp mô hình như là Di chuyển cơ sở hạ tầng

Sau khi ổn định trên GPT-4.1, tác giả đã so sánh GPT-5+ trên cùng bộ xác thực 400 tệp. Độ chính xác tổng thể là tương đương (98% cho cả hai). GPT-5+ không phục hồi các tài liệu mà GPT-4.1 đã bỏ sót và không giới thiệu chế độ thất bại mới. Do đó, việc di chuyển mô hình là không cần thiết.

Kiến trúc triển khai đa điểm

Hệ thống đã mở rộng từ một công cụ CLI đơn điểm thành một ứng dụng web nội bộ được triển khai tại bốn địa điểm kỹ thuật. Người dùng xác thực qua các nhóm bảo mật Azure AD. Các tài liệu được tải lên vẫn nằm trên bộ nhớ cục bộ của địa điểm; chỉ siêu dữ liệu có cấu trúc (đầu ra CSV) mới được truyền đến vị trí mạng chia sẻ.

Khi nào mô hình này không hiệu quả

Mô hình Local-First AI Inference hoạt động khi ba điều kiện được thỏa mãn: trường mục tiêu có vị trí không gian có thể dự đoán được, kho tài liệu chứa tỷ lệ đáng kể các tệp dựa trên văn bản, và nhiệm vụ liên quan đến một giá trị duy nhất được xác định rõ.

Không có quy ước không gian: Đối với tài liệu dạng tự do (ghi chú cuộc họp), Tầng 1 không có gì để neo và mọi tài liệu sẽ rơi xuống Tầng 2.
Kho tài liệu chiếm ưu thế là bản quét: Nếu 80% hoặc nhiều hơn tài liệu là hình ảnh quét, trích xuất cục bộ xử lý gần như không có gì.
Phụ thuộc đa trường: Trích xuất các trường phụ thuộc lẫn nhau (các mục dòng hóa đơn) làm cho việc hiệu chỉnh ngưỡng độ tin cậy trở nên khó khăn hơn.

Local-First AI Inference: Mô hình kiến trúc đám mây giúp tối ưu hóa chi phí xử lý tài liệu

Kiến trúc ba tầng

Tầng 1: Trích xuất cục bộ xác định

Tầng 2: Suy luận AI trên đám mây

Tầng 3: Hàng đợi kiểm duyệt bởi con người

Chấm điểm độ tin cậy: Trái tim của kiến trúc

Lọc sơ bộ: Danh sách chặn

Vị trí không gian (Spatial Position)

Mỏ neo gần (Anchor Proximity)

Tuân thủ định dạng (Format Conformance)

Tín ngữ cảnh (Contextual Signals)

Phân tích đánh đổi và Hiệu quả

Triển khai và Vận hành trên Đám mây

Quản trị Azure OpenAI

Nâng cấp mô hình như là Di chuyển cơ sở hạ tầng

Khi nào mô hình này không hiệu quả

Bài viết liên quan