Tiger Teams, Evals và Agents: Sách hướng dẫn mới cho Kỹ thuật AI

Sam Bhagwat, đồng sáng lập và CEO của Mastra, chia sẻ về sự chuyển mình của cộng đồng mã nguồn mở, kỷ luật mới trong kỹ thuật AI (AI engineering), và vai trò then chốt của các nhóm Tiger Teams đa chức năng để đưa các ứng dụng AI vào thực tế.

Trong podcast mới đây của InfoQ, Shane Hastie đã có cuộc trò chuyện với Sam Bhagwat — đồng sáng lập và CEO của Mastra, một framework mã nguồn mở dành cho việc xây dựng các tác nhân AI (AI agents). Cuộc thảo luận xoay quanh việc xây dựng cộng đồng mã nguồn mở bền vững, sự trỗi dậy của kỷ luật kỹ thuật AI, và cách các nhóm đa chức năng (Tiger Teams) đang thay đổi cách chúng ta triển khai các ứng dụng AI.

Sự tiến hóa của văn hóa mã nguồn mở

Sam Bhagwat chia sẻ kinh nghiệm từ thời gian làm việc với Gatsby và hiện tại là Mastra, nhấn mạnh rằng cộng đồng mã nguồn mở trải qua nhiều giai đoạn phát triển. Ban đầu, cộng đồng thường bao gồm những người đam mê thích "vọc vạch" (tinkerers). Tuy nhiên, khi dự án trưởng thành và được đưa vào môi trường sản xuất (production), người dùng sẽ đòi hỏi sự linh hoạt hơn.

"Bạn bắt đầu với một cách tiếp cận theo quan điểm cá nhân (opinionated), nhưng theo thời gian, bạn phải linh hoạt hơn với những gì người dùng muốn làm với sản phẩm của mình," Sam Bhagwat nhận định.

Một thách thức lớn là cân bằng giữa tinh thần hào phóng của mã nguồn mở và thực tế thương mại. Các công ty thành công cần những người hiểu rõ cả hai khía cạnh này: không quá cực đoan theo đuổi sự tinh khiết của open source, cũng không chỉ tập trung vào lợi nhuận mà bỏ qua cộng đồng.

Kỹ thuật AI: Tốc độ phát triển chưa từng có

So với các làn sóng công nghệ trước đây như DevOps hay kỹ thuật dữ liệu (Data Engineering), kỹ thuật AI đang phát triển với tốc độ nhanh hơn gấp 3 đến 4 lần. Sam nhận thấy rằng sự tăng trưởng của dự án AI trước đây cần 3-4 tháng thì nay chỉ mất 1 tháng.

Điều này tạo ra cơ hội lớn cho các kỹ sư muốn chuyển đổi sang lĩnh vực AI. Nhu cầu thị trường rất lớn nhưng nguồn cung nhân lực có kinh nghiệm lại ít, tạo điều kiện cho những người nhanh nhạy nắm bắt công nghệ mới để phát triển chuyên môn.

Mô hình nhóm làm việc liên ngành

Tầm quan trọng của Evals trong kỷ nguyên Agents

Một trong những khái niệm cốt lõi trong kỹ thuật AI hiện nay là "Evals" (đánh giá). Khác với phần mềm truyền thống có tính xác định cao, các ứng dụng AI mang tính xác suất (probabilistic) và không xác định. Do đó, việc kiểm thử và đánh giá trở nên phức tạp hơn gấp 10 lần.

Sam Bhagwat chỉ ra rằng các bộ đánh giá chuẩn (generic benchmarks) có sẵn trên thị trường là chưa đủ. Giá trị thực sự nằm ở việc xây dựng các bài đánh giá dựa trên dữ liệu riêng và chuyên môn lĩnh vực của tổ chức bạn.

"Những thứ quan trọng khi xây dựng ứng dụng mà các nhà cung cấp mô hình không làm được là những thứ độc đáo đối với năng lực cốt lõi của tổ chức bạn và dữ liệu mà tổ chức bạn sở hữu," ông nói.

Ví dụ, một nền tảng HR SaaS xây dựng tác nhân AI để trả lời câu hỏi về chính sách nhân sự. Họ cần tập trung đánh giá khả năng xử lý các quy tắc lương, thưởng và luật lao động cụ thể của họ — những dữ liệu mà các mô hình AI chung chung chưa từng được huấn luyện kỹ.

Tiger Teams: Mô hình nhóm làm việc mới

Để triển khai thành công các ứng dụng AI, Sam Bhagwat đề xuất mô hình "Tiger Teams" — các nhóm đặc nhiệm đa chức năng. Đây là nơi kết hợp giữa tư duy kỹ thuật phần mềm (software engineering) và tư duy khoa học dữ liệu (data science).

Các kỹ sư phần mềm thường quen với sự nghiêm ngặt và khả năng mở rộng, trong khi các nhà khoa học dữ liệu thì thoải mái hơn với sự không chắc chắn của thống kê. Tiger Teams là nơi hai tư duy này gặp gỡ để giải quyết vấn đề.

Các tổ chức hoạt động theo mô hình chỉ huy và kiểm soát (command and control) thường gặp khó khăn trong việc thành lập các nhóm này. Ngược lại, các công ty linh hoạt, cho phép kéo nhân sự từ các phòng ban khác nhau cho một dự án cụ thể sẽ có lợi thế lớn hơn.

Lời khuyên cho các kỹ sư trước làn sóng AI

Đối với những kỹ sư đang cảm thấy hoài nghi hoặc e ngại trước sự thay đổi quá nhanh của AI, Sam đưa ra lời khuyên: Hãy chấp nhận sự khó chịu khi học cái mới.

"Khi bạn bước ra khỏi tuổi 20 và vào tuổi 30, 40, phản ứng mặc định của bạn với những cái mới thường là hoài nghi thay vì nhiệt tình. Nhưng để giỏi trong một lĩnh vực mới, bạn cần chấp nhận việc mình chưa giỏi và chấp nhận sự khó chịu đó."

Ông khuyến khích các kỹ sư nên đắm mình vào năng lượng thô sơ của việc sáng tạo cùng AI (vibe coding), giống như cảm giác hào hứng khi chạy được chương trình đầu tiên, thay vì từ chối nó chỉ vì nó khác biệt với những gì đã từng làm.