Bài học kinh nghiệm khi xây dựng Deep Research Agents trong môi trường sản xuất

Deep Research Agents là các hệ thống AI được thiết kế để thực hiện nghiên cứu đa bước cho các nhiệm vụ phức tạp. Tại hội nghị Arc of AI 2026, Sarang Kulkarni từ Thoughtworks đã chia sẻ về cách triển khai các hệ thống này và những bài học đắt giá từ các dự án thực tế trong lĩnh vực y tế và dược phẩm.

Deep Research Agentic Systems (Hệ thống Tác nhân Nghiên cứu Sâu), chẳng hạn như Deep Research Agent của OpenAI và Gemini, là các AI Agent được thiết kế để thực hiện nghiên cứu đa bước trên internet cho các nhiệm vụ phức tạp. Chúng sử dụng lập luận động (dynamic reasoning), truy xuất thông tin đa bước (multi-hop information retrieval) và tạo ra các báo cáo phân tích có cấu trúc, toàn diện ở trình độ của một nhà phân tích nghiên cứu.

Tại hội nghị Arc of AI 2026, Sarang Kulkarni đến từ đội ngũ Thoughtworks đã có bài chia sẻ về cách thiết kế và triển khai các hệ thống nghiên cứu đa tác nhân cho mục đích lập luận sâu và tổng hợp, cũng như những bài học được rút ra từ các dự án thực tế trong lĩnh vực chăm sóc sức khỏe và R&D dược phẩm khi phát triển Deep Research Agents. Ông cũng thảo luận về cách đội ngũ của ông tận dụng các kỹ thuật như vòng lặp tác nhân (agentic loops) và kỹ thuật điều khiển (harness engineering) để tối ưu hóa giải pháp.

Nhu cầu vượt qua các mô hình AI truyền thống

Trong các ngành công nghiệp quan trọng như chăm sóc sức khỏe và thử nghiệm lâm sàng, các nhà nghiên cứu cần nhiều hơn là các mô hình AI truyền thống chỉ thực hiện các nhiệm vụ hỏi-đáp đơn giản. Họ cần những hệ thống có khả năng khám phá, kết nối và lập luận trên cả dữ liệu nội bộ và dữ liệu internet, đồng thời phải đảm bảo độ tin cậy, tính minh bạch và sự tuân thủ quy định.

Kulkarni đã bắt đầu bài thuyết trình bằng cách nhấn mạnh rằng chi phí trung bình để đưa một loại thuốc mới ra thị trường là khoảng 2,6 tỷ USD. Ngoài ra, khoảng một nửa các nghiên cứu được thực hiện mà không có bằng chứng trước đó, bởi vì kiến thức đã tồn tại nhưng việc tiếp cận kiến thức và thông tin này bị đứt gãy. Trong quy trình tổng thể về khám phá và phát triển thuốc, việc có được đúng dữ liệu vào đúng thời điểm là một thách thức lớn. Với mục tiêu phát minh một loại thuốc mới sử dụng công nghệ AI, đội ngũ của ông đã xây dựng một chatbot dựa trên Truy xuất tăng cường tạo sinh (RAG) cách đây hai năm để tìm kiếm qua dữ liệu phi cấu trúc.

Sự tiến hóa từ RAG sang Agentic RAG++

Đối với các truy vấn đơn giản trong nghiên cứu, giải pháp RAG hoạt động tốt. Tuy nhiên, đối với các câu hỏi phức tạp, họ phải nâng cấp nó thành một ứng dụng Agentic RAG. Và đối với các trường hợp sử dụng nghiên cứu sâu, đội ngũ đã phát triển một giải pháp mà họ gọi là Agentic RAG++.

Kulkarni đã chia sẻ chi tiết về hệ thống nghiên cứu sâu, bao gồm vòng lặp làm rõ (clarification loop), vòng lặp nghiên cứu (research loop) để thực hiện các nhiệm vụ suy nghĩ và lập kế hoạch, thực thi, phản ánh và điều chỉnh kế hoạch, cũng như vòng lặp viết (writing loop) tập trung vào các nhiệm vụ viết và phản ánh.

Phiên bản ban đầu của tác nhân nghiên cứu dựa trên hai công cụ: công cụ RAG và công cụ text2sql. Thiết kế của công cụ RAG dựa trên tìm kiếm lai có trọng số, 20 đoạn ngữ cảnh (context chunks), một bộ xếp hạng lại (re-ranker) và bảy đoạn ngữ cảnh được tinh chỉnh. Công cụ text2sql chịu trách nhiệm phản hồi các lỗi truy vấn SQL trở lại LLM để cải thiện mô hình nhằm tăng độ chính xác của việc thực thi truy vấn.

Thách thức và các chế độ thất bại

Ông đề cập đến các yếu tố như chi phí token cao hơn, hiệu suất kém và độ trễ cao có thể dẫn đến việc truy xuất kém từ các tác nhân AI. "Lo âu về ngữ cảnh" (context anxiety) là một vấn đề khác mà các đội ngũ cần cảnh giác. Ngoài ra, dữ liệu không đầy đủ có thể dẫn đến việc tự đánh giá kém, nhưng các kỹ thuật như vòng lặp phản ánh (reflection loop) có thể giúp cải thiện tính đầy đủ của dữ liệu.

Diễn giả cũng đã thảo luận về các chế độ thất bại khác nhau mà họ phải giải quyết khi phát triển giải pháp tác nhân nghiên cứu sâu tùy chỉnh. Các nhiệm vụ dài hạn (long-horizon tasks) yêu cầu một vòng lặp suy nghĩ-hành động (think-act loop) rõ ràng. Điều này có thể được giải quyết bằng cách kết hợp nhiều bước như suy nghĩ, lập kế hoạch (hoạt động trước khi nghiên cứu), kiểm tra (hoạt động sau khi nghiên cứu hoàn thành và xác thực đầu ra), và cuối cùng là bước cập nhật, thực sự tạo ra báo cáo cuối cùng. Công cụ "think" của Anthropic và các giải pháp tương tự khác có thể giúp chính thức hóa sự tạm dừng lập luận.

Hơn nữa, các nhiệm vụ dài hạn có xu hướng làm đứt gãy các quyết định giữa các bước trong toàn bộ quy trình. Bước phản ánh trong giải pháp của họ không chỉ bao gồm phản ánh dữ liệu mà còn là phản ánh quy trình để đánh giá xem quy trình đã hoàn thành hay chưa. Giai đoạn này bao gồm một bước phản ánh thứ ba được gọi là Vòng lặp Viết Bản nháp (Draft Writing Loop), giúp lấp đầy các khoảng trống tổng hợp, ví dụ: bất kỳ thông tin nào có trong nghiên cứu nhưng nhiệm vụ viết không ghi lại, thì bước viết lại sẽ xử lý việc đó.

Harness Engineering: Tương lai của các tác nhân tự chủ

Kulkarni kết thúc bài nói chuyện với cuộc thảo luận về các kỹ thuật kỹ thuật điều khiển (harness engineering) mới nổi, trong đó việc thiết kế các công cụ, hệ thống bộ nhớ, kiểm tra xác thực, ràng buộc và vòng lặp phản hồi làm cho các tác nhân AI tự chủ trở nên đáng tin cậy và có thể giải trình hơn. Mục tiêu của harness engineering là giúp các giải pháp AI chuyển dịch từ chỉ là kỹ thuật prompt (prompt engineering) sang tập trung vào thực thi tự động các nhiệm vụ bởi các tác nhân AI. Vì AI Agent về cơ bản là sự kết hợp giữa mô hình và bộ điều khiển (harness), nên mô hình càng tốt, bộ điều khiển càng cần mỏng hơn.