SNEWPAPERS: Kho lưu trữ báo chí lịch sử đầu tiên được hỗ trợ bởi AI và khả năng tìm kiếm ngữ nghĩa

Một nhà phát triển đã dành gần 3.000 giờ để xây dựng SNEWPAPERS, kho lưu trữ báo chí lịch sử đầu tiên có khả năng trích xuất văn bản đầy đủ và tìm kiếm ngữ nghĩa. Hệ thống sử dụng quy trình đa mô hình bao gồm OCR, LLM và VLLM để xử lý hơn 600.000 trang báo từ thế kỷ 18 đến 20, biến những hình ảnh thô thành dữ liệu có thể tìm kiếm được. Đây là giải pháp thay thế cho các dịch vụ lưu trữ cũ chỉ cho phép tìm kiếm từ khóa và hiển thị ảnh gốc.

Vấn đề của các kho lưu trữ báo chí truyền thống

Tác giả dự án chia sẻ rằng ông gặp khó khăn lớn khi muốn tìm kiếm thông tin trong các kho lưu trữ báo chí cũ. Các dịch vụ hiện tại thường chỉ cho phép người dùng tìm kiếm theo từ khóa và ngày tháng, sau đó trả về các hình ảnh gốc của trang báo mà không có ngữ cảnh cụ thể. Điều này tạo ra một "biển dữ liệu hỗn loạn" khiến việc nghiên cứu trở nên tốn thời gian và kém hiệu quả.

Giải pháp công nghệ: Quy trình xử lý đa mô hình

Để giải quyết vấn đề này, SNEWPAPERS đã "dạy máy móc cách đọc báo chí". Dự án đã trích xuất nội dung từ hơn 600.000 trang báo (khoảng 5TB dữ liệu) từ bộ sưu tập Chronicling America.

Các thách thức kỹ thuật mà dự án phải vượt qua bao gồm sự đa dạng vô tận về bố cục (layout), kích thước phông chữ, chất lượng quét ảnh, độ phân giải và tỷ lệ khung hình.

Hệ thống sử dụng một quy trình (pipeline) đa mô hình phức tạp kết hợp các công nghệ về bố cục, OCR, LLM và VLLM cùng với các thuật toán heuristic. Quy trình này hoạt động theo các bước:

Phân tích bố cục trang
Phân đoạn nội dung (segmentation)
Phân loại dữ liệu

Mục tiêu là đạt được độ chính xác OCR gần như hoàn hảo để người đọc không cảm thấy khó chịu khi xem các bài viết trích xuất.

Tìm kiếm ngữ nghĩa và Trợ lý AI "The Sleuth"

Dữ liệu được lưu trữ trên OpenSearch và Postgres, được tối ưu hóa cho khả năng tìm kiếm ngữ nghĩa (semantic search). Điểm nổi bật nhất của nền tảng này là công cụ tìm kiếm dựa trên tác nhân AI (agentic search tool).

Tính năng này được gọi là The Sleuth — một trợ lý nghiên cứu AI. Người dùng có thể đặt câu hỏi về bất kỳ sự kiện nào từ năm 1736 đến 1963, và The Sleuth sẽ tự động viết các truy vấn API để tìm kiếm thông tin, cung cấp câu trả lời kèm theo trích dẫn nguồn.

Kiến trúc đám mây và Quy mô

Tác giả cũng sẵn sàng thảo luận về kiến trúc AWS và khả năng mở rộng (scaling) của hệ thống — một phần được mô tả là "đầy thách thức". Với 6 triệu câu chuyện và hơn 3.000 tựa báo, SNEWPAPERS đại diện cho một nỗ lực kỹ thuật lớn trong việc số hóa và bảo tồn lịch sử bằng công nghệ hiện đại.

Nếu bạn quan tâm, dự án cung cấp các hướng dẫn video về các khả năng của nền tảng trong thanh điều hướng "Guide".

"Tôi đã khâu nối một quy trình đa mô hình (công nghệ bố cục, công nghệ OCR, llm, vllm) với các heuristic để đi từ bố cục -> phân đoạn -> phân loại." — Tác giả dự án SNEWPAPERS.

SNEWPAPERS: Kho lưu trữ báo chí lịch sử đầu tiên được hỗ trợ bởi AI và khả năng tìm kiếm ngữ nghĩa

Vấn đề của các kho lưu trữ báo chí truyền thống

Giải pháp công nghệ: Quy trình xử lý đa mô hình

Tìm kiếm ngữ nghĩa và Trợ lý AI "The Sleuth"

Kiến trúc đám mây và Quy mô

Bài viết liên quan