Xây dựng hạ tầng GenAI cho tương lai: Chiến lược và bài học từ Intuit

Merrin Kurian, Distinguished Engineer tại Intuit, chia sẻ bản thiết kế kiến trúc và quy trình tổ chức đằng sau sự chuyển đổi AI của công ty. Bài viết đi sâu vào nền tảng GenOS giúp mở rộng quy mô cho 8.000 nhà phát triển, chiến lược đánh giá "LLM-as-a-judge" và cách chuẩn bị cho kỷ nguyên của các tác nhân AI (AI agents).

Tại hội nghị QCon San Francisco, Merrin Kurian, Distinguished Engineer tại Intuit, đã có bài trình bày sâu sắc về việc xây dựng hạ tầng Generative AI (GenAI). Bài nói chuyện không chỉ tập trung vào công nghệ mà còn bao gồm cả khía cạnh con người và quy trình đã giúp Intuit chuyển đổi thành công sang một nền tảng chuyên gia dựa trên AI.

Intuit, với sứ mệnh thúc đẩy sự thịnh vượng trên toàn cầu, đang phục vụ 100 triệu khách hàng tiêu dùng và doanh nghiệp nhỏ. Chiến lược của họ là trở thành một nền tảng chuyên gia dựa trên AI, giúp khách hàng kiếm thêm tiền, tiết kiệm thời gian và đưa ra các quyết định tài chính tự tin. Với quy mô xử lý 60 tỷ dự đoán máy học mỗi ngày và 2 nghìn tỷ đô la hóa đơn, Intuit đã đặt cược lớn vào các trải nghiệm "done-for-you" (làm hộ bạn), nơi AI và các tác nhân (agents) đóng vai trò trung tâm.

Sự tiến hóa từ Chatbot đến AI Agents

Kurian phân biệt rõ ràng giữa Workflows (quy trình làm việc) và Agents (tác nhân AI). Workflows là các đường dẫn mã được xác định trước, mang tính dự đoán và nhất quán, phù hợp cho các nhiệm vụ phức tạp nhưng đã được định nghĩa rõ ràng. Ngược lại, Agents là nơi các quyết định tự động hóa được đưa ra dựa trên mô hình, hoạt động linh hoạt dựa trên ngữ cảnh và các công cụ có sẵn. Chúng cực kỳ hữu ích cho các vấn đề mở (open-ended problems).

Tại Intuit, thế hệ đầu tiên của agents là các trợ lý trò chuyện (conversational assistants), chỉ có thể trả lời câu hỏi và lấy dữ liệu. Tuy nhiên, thế hệ hiện tại được gọi là các trải nghiệm "done-for-you", nơi các tác nhân có thể thực hiện hành động thay mặt người dùng. Sự thay đổi này được thúc đẩy bởi sự tiến bộ của các Mô hình Ngôn ngữ Lớn (LLM), đặc biệt là khả năng gọi hàm (function calling), đầu ra có cấu trúc và tính đa phương thức (multimodal).

Thách thức trong phát triển Agents

Mặc dù LLM ngày càng mạnh mẽ, việc phát triển agents vẫn đầy thách thức. Khác với các ứng dụng truyền thống có kết quả xác định, ứng dụng dựa trên LLM mang tính chủ quan và khó xác định tiêu chí thành công rõ ràng. Kurian chỉ ra nhiều chế độ thất bại (failure modes) của agents, bao gồm việc không tuân thủ nhiệm vụ, quên vai trò, lặp lại các bước không cần thiết, hoặc trôi dạt khỏi mục tiêu ban đầu.

Một ví dụ điển hình là khi một tác nhân đặt sai chuyến đi (đến San Diego thay vì San Francisco). Nếu chỉ kiểm tra đầu ra cuối cùng, nhà phát triển sẽ không biết nguyên nhân là do gọi sai công cụ, sai đối số, hay sử dụng RAG không đúng cách.

Để giải quyết vấn đề này, Kurian nhấn mạnh tầm quan trọng của việc đánh giá có hệ thống. Một kỹ thuật phổ biến là sử dụng "LLM-as-a-judge" (sử dụng một LLM khác để đóng vai trò giám khảo đánh giá kết quả). Tuy nhiên, việc đánh giá chỉ phản hồi cuối cùng là chưa đủ. Các nhà phát triển cần nắm bắt toàn bộ các vết (traces) của quyết định mà LLM đã đưa ra và đánh giá từng điểm quyết định đó dựa trên dữ liệu thực tế (ground truth).

GenOS: Nền tảng Hệ điều hành Generative AI

Để giải quyết các thách thức về tuân thủ, xử lý dữ liệu và bảo mật, Intuit đã xây dựng một nền tảng nội bộ gọi là GenOS (Generative AI Operating System). Mục tiêu là giúp các nhóm phát triển di chuyển nhanh chóng mà không bị sa lầy vào các vấn đề cơ sở hạ tầng.

GenOS bao gồm các thành phần chính:

AI Workbench: Môi trường phát triển với các công cụ quản lý prompt, tối ưu hóa và đánh giá.
GenRuntime: Nơi chạy các agents, quản lý trạng thái, bộ nhớ và kết nối giữa các mô hình với công cụ.
GenUX: Cung cấp các thành phần giao diện người dùng và quản lý tương tác cho AI agents.
Agent Starter Kit: Một bộ công cụ CI/CD được đóng gói sẵn với các cấu hình mặc định và mã mẫu, giúp các nhà phát triển bắt đầu nhanh chóng. Trong một cuộc thi hackathon nội bộ, bộ công cụ này đã được tải xuống hơn 900 lần và tạo ra hơn 100 bản demo chỉ trong một tuần.

Nền tảng này cũng cung cấp các khả năng out-of-the-box như quản lý vòng đời của Prompt, các pipeline cho RAG (Retrieval-Augmented Generation) và các khung đánh giá (evaluation frameworks) để đo lường hiệu suất liên tục.

Con người và Quy trình: Khung "Fixed, Flexible, Free"

Thành công của GenOS không chỉ đến từ công nghệ mà còn từ chiến lược tổ chức. Kurian chia sẻ về khung "Fixed, Flexible, Free" mà Intuit áp dụng cho mọi lựa chọn công nghệ:

Fixed (Cố định): Các mối quan tâm về nền tảng đã được chuẩn hóa mà mọi kỹ sư không cần phải lặp lại.
Flexible (Linh hoạt): Các tùy chọn có sẵn tương thích với các công nghệ cố định, cho phép sự lựa chọn trong một khuôn khổ có định hướng.
Free (Tự do): Khuyến khích thử nghiệm các giải pháp mới để học hỏi.

Sự hỗ trợ từ lãnh đạo cấp cao là rất quan trọng. CTO của Intuit đã quyết định chỉ có một GenOS duy nhất cho toàn công ty, thúc đẩy sự thống nhất và tốc độ. Các quy trình đánh giá cũng được điều chỉnh linh hoạt: các thử nghiệm sớm không cần trải qua quy trình xét duyệt nghiêm ngặt, trong khi các sản phẩm mở rộng quy mô sẽ được kiểm tra kỹ lưỡng.

Chuẩn bị cho tương lai của Agents

Kết thúc bài trình bày, Kurian đưa ra ba lời khuyên cho các kỹ sư và tổ chức muốn chuẩn bị cho tương lai của AI agents:

Thử nghiệm liên tục: Đặc điểm của một công ty AI thực sự là tốc độ thử nghiệm. Cần đầu tư vào các pipeline dữ liệu tốt để liên tục chuyển dữ liệu từ sản phẩm sang đánh giá và tái训练.
Đánh giá nghiêm ngặt: Các kỹ sư cần làm việc chặt chẽ với quản lý sản phẩm để xác định các tiêu chí chấp nhận rõ ràng và các chỉ số đánh giá, thay vì chỉ dựa vào cảm tính "nó hoạt động với câu hỏi của tôi".
Đầu tư vào nền tảng cơ bản: Ngay cả khi chưa triển khai agents, các doanh nghiệp cần chuẩn bị hạ tầng. Cụ thể:
- API: Xây dựng các API "sẵn sàng cho công cụ" (tool-ready) thay vì các JSON phức tạp dành cho con người.
- Dữ liệu: Đầu tư vào siêu dữ liệu (metadata) để agents có thể hiểu và sử dụng dữ liệu hiệu quả.
- Trải nghiệm người dùng: Hướng tới các trải nghiệm đa phương thức (multimodal) nơi người dùng có thể nói, tải lên hình ảnh thay vì chỉ điền form.
- Hạ tầng: Chuẩn bị cho các yêu cầu về độ trễ (latency) khác biệt của các mô hình lý luận (reasoning models) so với các mô hình nhỏ và nhanh.

Hành trình chuyển đổi sang AI của Intuit là một ví dụ điển hình cho thấy sự kết hợp giữa nền tảng kỹ thuật vững chắc, quy trình linh hoạt và văn hóa thử nghiệm không ngừng là chìa khóa để thành công trong kỷ nguyên GenAI.