"Evaluation Debt": Nguy cơ thầm lặng giết chết các hệ thống AI sản xuất và cách giải quyết

Mallika Rao, cựu kỹ sư trưởng tại Twitter, Walmart và Netflix, đã chia sẻ sâu sắc về khái niệm "nợ đánh giá" (evaluation debt) - một rủi ro thầm lặng nhưng chết người trong các hệ thống AI sản xuất. Bài viết phân tích mô hình 5 tầng đánh giá, lý do các chỉ số truyền thống không còn phù hợp và cách các tổ chức có thể loại bỏ các lỗi ngữ nghĩa để xây dựng niềm tin bền vững với người dùng.

Trong thế giới phát triển AI hiện đại, chúng ta thường tập trung quá nhiều vào việc xây dựng các mô hình mạnh mẽ nhưng lại bỏ quên một khía cạnh quan trọng khác: cách chúng ta đánh giá chúng. Tại hội nghị QCon AI, Mallika Rao – cựu kỹ sư trưởng đã từng làm việc tại Twitter, Walmart và Netflix – đã có một bài thuyết trình sâu sắc về vấn đề này. Bà đưa ra một khái niệm gây chấn động: "Evaluation Debt" (Nợ đánh giá).

Mallika Rao trình bày về việc xây dựng đánh giá cho việc áp dụng AI

Rao cho rằng, trong khi kiến trúc hệ thống ngày càng trở nên phức tạp với LLMs, vector stores và các pipeline đa giai đoạn, thì cơ sở hạ tầng đánh giá của nhiều doanh nghiệp vẫn còn "mắc kẹt" vào năm 2018. Sự lệch pha này tạo ra những rủi ro thầm lặng mà các bảng điều khiển (dashboard) thông thường không thể phát hiện ra.

Evaluation Debt là gì?

Nợ đánh giá xảy ra khi hệ thống của bạn phát triển, trở nên tinh vi hơn, nhưng khung đánh giá thì không. Bạn thêm vào các lớp nhúng (embeddings), lưu trữ vector, các tác nhân AI (agents), nhưng quy trình đánh giá vẫn dừng lại ở các chỉ số cơ bản như độ chính xác (precision), độ phủ (recall) hoặc một vài bài kiểm thử đơn lẻ.

Điều nguy hiểm nhất là các hệ thống AI phân tán không thất bại theo cách truyền thống như một sự cố cơ sở dữ liệu (database crash). Chúng thất bại về mặt ngữ nghĩa (semantic). Hệ thống có thể trả về kết quả về mặt kỹ thuật là đúng, nhưng hoàn toàn sai đối với người dùng. Các biểu đồ giám sát vẫn màu xanh, chỉ số vẫn tốt, nhưng người dùng thì dần rời bỏ sản phẩm.

Mô hình 5 tầng đánh giá (The 5-Layer Evaluation Stack)

Để giải quyết vấn đề này, Rao đề xuất một mô hình tư duy mới, coi việc đánh giá như một ngăn xếp (stack) với 5 lớp, đòi hỏi sự phối hợp giữa các bộ phận khác nhau trong tổ chức:

Độ chính xác của mô hình (Model Correctness): Đây là điều kiện cơ bản. Mô hình có dự đoán đúng điều cần thiết vào đúng thời điểm trên tập kiểm tra không? (Precision, Recall, F1).
Độ bền của hạ tầng (Infrastructure Robustness): Các ràng buộc về độ trễ (P95, P99), giám sát API, microservices, caching và khả năng chịu lỗi của hệ thống khi xử lý khối lượng công việc AI.
Rào chắn sản phẩm (Product Guardrails): Hệ thống có tránh tạo ra nội dung gây hại không? Có kiểm tra tính hợp lý về ngữ nghĩa không? Đây là nơi sản phẩm và kỹ thuật cần ngồi lại để xác định ranh giới chấp nhận được.
Trải nghiệm con người (Human Experience): Người dùng có hiểu tại sao họ thấy kết quả đó không? Nó có tạo ra niềm tin hay sự nhầm lẫn? Thiết kế, nghiên cứu và sản phẩm cần đóng vai trò ở đây.
Tác động hệ thống (Systemic Impact): Tác động dài hạn về niềm tin, quản trị, tuân thủ và quyền riêng tư đối với chỉ số kinh doanh. Đây là lớp khó đo lường nhất nhưng quan trọng nhất ở quy mô lớn.

Hầu hết các tổ chức chỉ đang đánh giá ở lớp 1 và 2, dẫn đến việc tích lũy "nợ đánh giá" khổng lồ ở các lớp trên.

Tại sao các phương pháp đánh giá truyền thống thất bại?

Có ba sự thay đổi lớn đã làm vỡ vụn các phương pháp đánh giá cũ:

Khủng hoảng ô nhiễm dữ liệu (Contamination Crisis): Các bộ chuẩn hóa công khai (public benchmarks) như MMLU thường bị ô nhiễm vì các mô hình đã "thấy" câu trả lời trong quá trình huấn luyện. Điểm số cao trên các benchmark này không phản ánh đúng thực tế sản phẩm.
Hệ thống tác nhân (Agent Systems): Một tác nhân AI đặt vé máy bay có thể bao gồm 8 bước. Nếu mỗi bước có độ chính xác 95%, tỷ lệ thành công chung chỉ còn 66% (0.95^8). Các chỉ số truyền thống không đo lường được sự thành công của chuỗi hành động này.
Sử dụng LLM làm giám khảo (LLM-as-Judge) không có nền tảng: Mặc dù cần thiết để tự động hóa, nhưng LLM có những thiên kiến có hệ thống về độ dài, phong cách và xu hướng tán thành. Cần một hệ thống phân tầng kết hợp giữa con người và máy móc để hiệu chuẩn chính xác.

Bài học thực tế từ Twitter và Walmart

Rao chia sẻ hai nghiên cứu điển hình (case studies) từ kinh nghiệm thực tế của mình.

Trường hợp 1: Tìm kiếm cá nhân hóa tại Twitter

Twitter đã chuyển từ tìm kiếm từ khóa sang tìm kiếm cá nhân hóa sử dụng các mô hình nhúng (embeddings). Đội ngũ kỹ thuật tối ưu hóa mô hình để đạt điểm cao trên các benchmark về độ tương đồng ngữ nghĩa. Kết quả là các chỉ số offline (như NDCG) rất đẹp, nhưng chất lượng tìm kiếm thực tế lại giảm sút.

Lý do là benchmark quá tĩnh và không phản ánh tính "tươi mới" (freshness) của Twitter. Mô hình ưu tiên sự tương đồng từ khóa (ví dụ: trả về tweet cũ nhắc đến Bob Dylan) thay vì hiểu ý định khám phá âm nhạc của người dùng (ví dụ: gợi ý Joni Mitchell, Leonard Cohen). Đây là sự thất bại ở lớp 3 và 4 (Rào chắn sản phẩm và Trải nghiệm con người).

Trường hợp 2: Walmart Rewards

Trong hệ thống hoàn tiền của Walmart, một lỗi hiển thị nhỏ đã xảy ra tại bang Louisiana do quy định thuế đặc biệt. Hệ thống tính toán chính xác ở backend, nhưng lớp hiển thị (UI) không xử lý logic giữ thuế, dẫn đến việc người dùng nhìn thấy số dư khả dụng là 0 dù họ đã tích lũy điểm thưởng.

Về mặt kỹ thuật, hệ thống không hề "crash" và các chỉ số hạ tầng đều tốt. Nhưng đối với người dùng, đây là một thảm họa làm xói mòn niềm tin. Tỷ lệ đổi thưởng giảm từ 68% xuống 41% chỉ trong một tuần và mất 12 tháng để phục hồi. Bài học ở đây: Đúng về mặt kỹ thuật không đồng nghĩa với người dùng tin tưởng.

Mô hình trưởng thành và kết luận

Để tránh các cạm bẫy này, các tổ chức cần áp dụng một mô hình trưởng thành trong đánh giá:

Level 0: YOLO (You Only Live Once) – Kiểm thử trực tiếp trên môi trường sản xuất.
Level 1: Các chỉ số cơ bản (Precision, Recall).
Level 2: Đánh giá đa tầng (5 lớp) nhưng vẫn hoạt động theo kiểu "ốc đảo" (siloed).
Level 3: Tích hợp chéo giữa các lĩnh vực, sản phẩm và kỹ thuật.
Level 4: Hệ thống thích ứng, nơi khung đánh giá phát triển song song với sản phẩm.

Rao kết luận rằng việc xây dựng khung đánh giá không phải là trách nhiệm của riêng đội ML, mà là sự nỗ lực chung của toàn bộ tổ chức. Đừng đợi đến khi "nợ đánh giá" tích lũy quá mức và bùng nổ mới bắt đầu giải quyết. Hãy đầu tư vào việc đánh giá ngay từ bây giờ để bảo vệ niềm tin của người dùng – tài sản quý giá nhất của bất kỳ sản phẩm công nghệ nào.