Grep có phải là tất cả những gì bạn cần? Nghiên cứu mới về hiệu quả tìm kiếm trong các tác nhân AI

Một nghiên cứu mới trên arXiv đã so sánh hiệu quả giữa việc tìm kiếm bằng lệnh Grep truyền thống và Vector Retrieval trong các hệ thống tác nhân AI (LLM Agents). Kết quả cho thấy Grep thường mang lại độ chính xác cao hơn, đồng thời chỉ ra rằng kiến trúc của "harness" tác nhân ảnh hưởng lớn đến hiệu suất tổng thể.

Trong bối cảnh các Mô hình Ngôn ngữ Lớn (LLM) ngày càng trở nên tinh vi, khả năng tự chủ truy xuất thông tin và sử dụng công cụ là yếu tố then chốt. Một nghiên cứu mới đăng trên arXiv với tiêu đề "Is Grep All You Need? How Agent Harnesses Reshape Agentic Search" đã đặt ra câu hỏi thú vị: Liệu các phương pháp tìm kiếm truyền thống như Grep có còn hiệu quả, hoặc thậm chí vượt trội hơn so với các kỹ thuật truy xuất vector hiện đại trong các hệ thống tác nhân AI?

Bối cảnh: RAG và Agentic Search

Các hệ thống tác nhân AI hiện đại thường dựa vào kiến trúc Retrieval-Augmented Generation (RAG) để hoàn thành nhiệm vụ. Thay vì chỉ dựa vào kiến thức có sẵn trong mô hình, chúng chủ động tìm kiếm thông tin từ các kho dữ liệu bên ngoài. Tuy nhiên, phần lớn tài liệu hiện nay chưa so sánh một cách hệ thống việc lựa chọn chiến lược truy xuất (tìm kiếm từ khóa so với tìm kiếm ngữ nghĩa) sẽ tương tác như thế nào với kiến trúc của tác nhân và mô hình gọi công cụ (tool-calling).

Nghiên cứu này, do Sahil Sen và các cộng sự thực hiện, đã đi sâu vào phân tích các khía cạnh thực tế quan trọng, bao gồm cách hiển thị kết quả công cụ cho mô hình và cách hiệu suất thay đổi khi tìm kiếm phải đối mặt với các văn bản không liên quan xung quanh (noise).

Thí nghiệm 1: Grep vs. Vector Retrieval

Nghiên cứu thực hiện hai thí nghiệm chính sử dụng bộ dữ liệu LongMemEval với 116 câu hỏi. Đội ngũ nghiên cứu đã so sánh hiệu suất giữa Grep (tìm kiếm văn bản thô dựa trên mẫu) và Vector Retrieval (tìm kiếm dựa trên độ tương đồng ngữ nghĩa) trên hai loại nền tảng:

Chronos: Một khung điều khiển (agent harness) tùy chỉnh.
Provider-native CLI Harnesses: Các công cụ dòng lệnh gốc từ các nhà cung cấp như Claude Code, Codex và Gemini CLI.

Kết quả từ Thí nghiệm 1 cho thấy một điều khá ngạc nhiên. Trên cả Chronos và các CLI của nhà cung cấp, Grep thường mang lại độ chính xác cao hơn so với Vector Retrieval. Điều này thách thức quan điểm phổ biến rằng tìm kiếm ngữ nghĩa (vector) luôn ưu việt hơn tìm kiếm từ khóa trong mọi tình huống.

Thí nghiệm 2: Tác động của nhiễu (Noise)

Trong Thí nghiệm 2, các tác giả tiếp tục so sánh Grep và Vector Retrieval nhưng trong bối cảnh khó khăn hơn. Họ dần dần thêm vào các lịch sử hội thoại không liên quan, buộc mỗi truy vấn phải được nhúng trong nhiều vật liệu gây xao nhãng bên cạnh các đoạn văn bản thực sự cần thiết.

Mục tiêu là để kiểm tra khả năng lọc thông tin của các chiến lược truy xuất khi môi trường trở nên "ồn ào" hơn. Kết quả cho thấy sự ổn định của các phương pháp này khi đối mặt với dữ liệu nhiễu, một yếu tố cực kỳ quan trọng trong các ứng dụng thực tế nơi dữ liệu đầu vào thường không sạch sẽ.

Vai trò của Agent Harness

Một phát hiện quan trọng khác của bài báo là sự phụ thuộc mạnh mẽ vào loại harness (khung điều khiển) và phong cách gọi công cụ được sử dụng. Ngay cả khi dữ liệu hội thoại cơ bản là giống nhau, điểm số tổng thể vẫn thay đổi đáng kể tùy thuộc vào việc kết quả công cụ được trình bày trực tiếp (inline) hay thông qua các tệp riêng biệt mà mô hình đọc sau đó.

Điều này ám chỉ rằng việc tối ưu hóa cách tác nhân AI tương tác với các công cụ tìm kiếm quan trọng không kém việc lựa chọn thuật toán tìm kiếm itself.

Kết luận

Nghiên cứu này cung cấp bằng chứng thực nghiệm cho thấy đôi khi các giải pháp đơn giản và cổ điển như Grep vẫn có thể cạnh tranh hoặc vượt trội so với các phương pháp AI phức tạp trong các tác vụ cụ thể. Đối với các nhà phát triển đang xây dựng các hệ thống RAG hoặc tác nhân AI, bài học lớn là không nên bỏ qua các phương pháp tìm kiếm truyền thống và cần chú trọng đặc biệt đến thiết kế kiến trúc "harness" để tối đa hóa hiệu suất của mô hình.

Grep có phải là tất cả những gì bạn cần? Nghiên cứu mới về hiệu quả tìm kiếm trong các tác nhân AI

Bối cảnh: RAG và Agentic Search

Thí nghiệm 1: Grep vs. Vector Retrieval

Thí nghiệm 2: Tác động của nhiễu (Noise)

Vai trò của Agent Harness

Kết luận

Bài viết liên quan