PixelRAG: Hệ thống RAG mới dùng hình ảnh thay thế văn bản, tăng độ chính xác và giảm 10 lần chi phí AI

PixelRAG, một hệ thống mới từ các nhà nghiên cứu tại UC Berkeley và Databricks, bỏ qua bước phân tích văn bản truyền thống để sử dụng trực tiếp ảnh chụp màn hình. Phương pháp này giúp cải thiện độ chính xác lên tới 18,1% và giảm 10 lần chi phí token cho các tác nhân AI.

Hầu hết các luồng xử lý RAG (Retrieval-Augmented Generation) trong doanh nghiệp đều bắt đầu theo một cách giống nhau: một trình phân tích văn bản (text parser) chuyển đổi các trang web và tài liệu thành văn bản thuần túy để chúng có thể được chia nhỏ và lập chỉ mục cho việc truy xuất. Tuy nhiên, theo một nghiên cứu mới, bước chuyển đổi này lại chính là nguyên nhân gây ra phần lớn các câu trả lời sai lệch.

Một nhóm nghiên cứu từ UC Berkeley, Princeton University, EPFL và Databricks đã công bố một bài giới thiệu về PixelRAG — một hệ thống bỏ qua hoàn toàn bước chuyển đổi văn bản này. Thay vì phân tích trang web thành văn bản, PixelRAG hiển thị chúng dưới dạng ảnh chụp màn hình (screenshots), lập chỉ mục những hình ảnh này và cung cấp trực tiếp các phần ảnh đã truy xuất cho một mô hình ngôn ngữ thị giác (vision-language model).

Được kiểm tra trên 30 triệu ô ảnh chụp màn hình bao phủ toàn bộ Wikipedia, PixelRAG đã vượt trội hơn RAG dựa trên văn bản trên sáu tiêu chuẩn đánh giá, cải thiện độ chính xác lên tới 18,1% so với các hệ thống cơ bản sử dụng văn bản.

Trình phân tích HTML phá hủy các tín hiệu truy xuất mà RAG doanh nghiệp phụ thuộc vào

Mục tiêu của các nhà nghiên cứu là phát triển một kiến trúc đầu cuối sạch sẽ và hiệu quả hơn.

"Các luồng xử lý RAG web hiện đại thường bao gồm hiển thị, phân tích, làm sạch, chia nhỏ và nhiều giai đoạn thủ công khác," Yichuan Wang, tác giả chính và nghiên cứu sinh tiến sĩ tại UC Berkeley, chia sẻ. "Mỗi giai đoạn đều tiềm ẩn các lỗi lan truyền và sự trừu tượng hóa khiến chúng ta ngày càng xa rời khỏi trang web gốc. Chúng tôi quan tâm đến việc liệu có thể loại bỏ phần lớn sự phức tạp đó và hoạt động trực tiếp trên trang web đã hiển thị hay không."

Wang cũng lưu ý rằng việc phân tích cú pháp chắc chắn sẽ làm mất thông tin. Hình ảnh, hệ thống phân cấp thị giác, typography, sự nhấn mạnh (ví dụ: văn bản in đậm), bảng và bố cục thường bị loại bỏ hoặc chuyển đổi thành các xấp xỉ văn bản không hoàn hảo.

"Bất kể trình phân tích tốt đến đâu, một số thông tin chắc chắn sẽ bị mất trong quá trình chuyển đổi," ông nói.

Nghiên cứu chỉ ra ba cách mà RAG dựa trên văn bản làm mất câu trả lời trước khi nó đến được người đọc:

Mất mát do phân tích (Parser loss - 36,6% thất bại): Chuyển đổi HTML sang văn bản phá hủy nội dung có cấu trúc hoàn toàn đến mức không có đoạn văn bản nào trong kho dữ liệu chứa câu trả lời.
Mất mát do xếp hạng (Rank loss - 55,2% thất bại): Câu trả lời có trong kho dữ liệu nhưng bị xếp hạng thấp hơn bởi các hộp thông tin (infoboxes) dày đặc từ khóa, đẩy các đoạn chứa câu trả lời xuống hạng 20 hoặc thấp hơn.
Mất mát do người đọc (Reader loss - 8,2% thất bại): Nội dung đúng đến được người đọc nhưng cấu trúc bị làm phẳng gây ra sự quy kết sai nguồn.

Cách PixelRAG hoạt động

Khác với mô hình ngôn ngữ lớn (LLM) tiêu chuẩn chỉ đọc văn bản, mô hình ngôn ngữ thị giác (VLM) nhận hình ảnh làm đầu vào cùng với văn bản, nghĩa là nó có thể đọc một trang web đã hiển thị giống như cách con người nhìn thấy, với bố cục và cấu trúc nguyên vẹn.

PixelRAG được xây dựng dựa trên nguyên tắc này, thay thế quy trình phân tích văn bản bằng một hệ thống bốn giai đoạn hoạt động hoàn toàn trên các ảnh chụp màn hình đã hiển thị.

Hiển thị (Rendering): Các trang được hiển thị bằng Playwright, một thư viện tự động hóa trình duyệt, tại khung nhìn cố định 875 pixel và được cắt thành các ô (tiles) cao 1024 pixel. Khoảng 7 triệu bài viết trên Wikipedia tạo ra khoảng 30 triệu ô. Tài nguyên được lưu trong bộ nhớ đệm cục bộ và hiển thị hoàn toàn ngoại tuyến.
Lập chỉ mục (Indexing): Mỗi ô được mã hóa dưới dạng một vectơ 2048 chiều bằng Qwen3-VL-Embedding-2B và lưu trữ trong chỉ mục láng giềng gần nhất xấp xỉ FAISS. Chỉ mục đầy đủ chạy khoảng 120 GB ở định dạng fp16 và hỗ trợ cập nhật tăng trưởng mà không cần lập chỉ mục lại toàn bộ.
Huấn luyện (Training): Mô hình truy xuất được tinh chỉnh trên dữ liệu tương phản tổng hợp được tạo từ kho dữ liệu, sử dụng khai thác âm tính khó động để lọc bỏ các âm tính giả. Phương pháp tinh chỉnh nhẹ LoRA được áp dụng cho cả xương sống mô hình ngôn ngữ và bộ mã hóa thị giác.
Lưu trữ (Storage): Các ô ảnh chụp màn hình thô cho Wikipedia yêu cầu 5,6 TB, nhưng cách tiếp cận hiển thị theo yêu cầu loại bỏ nhu cầu lưu trữ liên tục: mã hóa tất cả các ô, xóa ảnh chụp màn hình và hiển thị lại trang theo yêu cầu tại thời điểm truy vấn. Chỉ mục vectơ yêu cầu khoảng 120 GB.

Sáu tiêu chuẩn đánh giá, tiết kiệm 10 lần chi phí token và một vấn đề chưa giải quyết

Các nhà nghiên cứu đã kiểm tra PixelRAG trên sáu tiêu chuẩn đánh giá bao gồm câu hỏi thực tế Wikipedia, truy vấn dựa trên bảng, câu hỏi trả lời đa phương thức và truy xuất tin tức trực tiếp. Họ nhận thấy hệ thống này vượt trội hơn RAG dựa trên văn bản trên cả sáu tiêu chuẩn, bao gồm cả các nhiệm vụ mà câu hỏi có thể trả lời chỉ từ văn bản.

Lợi thế về chi phí cho tác nhân AI là trường hợp sử dụng mạnh mẽ nhất trong ngắn hạn của PixelRAG. Trong kiểm tra tiêu chuẩn, một tác nhân AI sử dụng PixelRAG làm backend tìm kiếm chỉ chạy trên 3,6 triệu token so với 37,5 triệu token của truy xuất văn bản, với chi phí thấp hơn 2 đến 4 lần so với các giải pháp thay thế bao gồm cả Google, đồng thời đạt độ chính xác cao hơn.

Chunking thị giác là vấn đề chính chưa được giải quyết. Các hệ thống RAG dựa trên văn bản đã dành nhiều năm để tinh chỉnh cách chia tài liệu thành các đơn vị truy xuất có ý nghĩa. PixelRAG hiện chưa có phương pháp tương đương: nó cắt trang theo chiều cao pixel cố định, nghĩa là một bảng hoặc đoạn văn có thể bị cắt làm đôi ở giữa ô mà không nhận biết được ranh giới nội dung.

"Cộng đồng truy xuất văn bản đã dành nhiều năm để nghiên cứu các chiến lược chunking, trong khi truy xuất thị giác nhận được ít sự chú ý hơn nhiều," Wang nói. "Chúng tôi nghĩ đây là một lĩnh vực quan trọng cho nghiên cứu trong tương lai."

Ý nghĩa đối với các doanh nghiệp

Vấn đề chất lượng truy xuất mà PixelRAG giải quyết phản ánh sự chuyển đổi thị trường rộng lớn hơn đang diễn ra. Dữ liệu từ VB Pulse Q1 2026 cho thấy ý định áp dụng truy xuất lai (hybrid retrieval) đã tăng gấp ba lần từ 10,3% vào tháng 1 lên 33,3% vào tháng 3. Các tác giả của PixelRAG cũng chỉ ra việc triển khai lai là con đường thực tế nhất trong ngắn hạn — xếp lớp truy xuất thị giác lên trên các hệ thống văn bản hiện có thay vì thay thế chúng.

"Một con đường thực tế là sử dụng PixelRAG làm lớp nâng cao bên cạnh các hệ thống truy xuất văn bản hiện có," Wang nói. "Truy xuất lai kết hợp cả tìm kiếm văn bản và thị giác là đơn giản và có lẽ là cách mà nhiều triển khai sản xuất sẽ phát triển."