Từ Thí Điểm Đến Sản Xuất Thực Tế: Bài Học AI Từ MassMutual và Mass General Brigham

Các chương trình AI doanh nghiệp thường thất bại không phải vì ý tưởng tồi, mà vì bị mắc kẹt trong giai đoạn thí điểm thiếu quản trị. MassMutual và Mass General Brigham đã chia sẻ chiến lược kỷ luật giúp họ đạt được kết quả ấn tượng như tăng 30% năng suất lập trình và giảm đáng kể thời gian hỗ trợ khách hàng.

Các chương trình AI trong doanh nghiệp hiếm khi thất bại vì những ý tưởng tồi. Thay vào đó, chúng thường bị mắc kẹt trong chế độ thí điểm (pilot) thiếu kiểm soát và không bao giờ đạt đến môi trường sản xuất. Tại một sự kiện gần đây của VentureBeat, các lãnh đạo công nghệ từ MassMutual và Mass General Brigham đã giải thích cách họ tránh khỏi bẫy này — và kết quả trông như thế nào khi sự kỷ luật thay thế cho sự lan man.

Tại MassMutual, các kết quả là rất cụ thể: năng suất của lập trình viên tăng 30%, thời gian giải quyết vấn đề tại bàn hỗ trợ IT giảm từ 11 phút xuống còn 1 phút, và thời gian gọi dịch vụ khách hàng được cắt từ 15 phút xuống chỉ còn một hoặc hai phút.

Xác định chỉ số đo lường và thiết lập vòng phản hồi mạnh mẽ

MassMutual, một công ty 175 tuổi phục vụ hàng triệu chủ hợp đồng và khách hàng, đã đẩy AI vào sản xuất trên toàn bộ doanh nghiệp — bao gồm hỗ trợ khách hàng, IT, tìm kiếm khách hàng, bảo hiểm, dịch vụ, khiếu nại và các lĩnh vực khác.

Sears Merritt, người đứng đầu công nghệ và trải nghiệm doanh nghiệp của MassMutual, cho biết đội ngũ của ông tuân theo phương pháp khoa học, bắt đầu bằng một giả thuyết và kiểm tra xem nó có mang lại kết quả thúc đẩy doanh nghiệp đi lên một cách hữu hình hay không. Một số ý tưởng rất tuyệt vời, nhưng có thể "khả thi trong kinh doanh" do các yếu tố như thiếu dữ liệu, quyền truy cập hoặc hạn chế về quy định.

"Chúng tôi luôn bắt đầu bằng việc tại sao chúng tôi quan tâm đến vấn đề này? Nếu chúng tôi giải quyết được vấn đề, làm sao chúng tôi biết là đã giải quyết được? Và, giá trị liên quan đến việc làm đó là bao nhiêu?" — Sears Merritt chia sẻ.

Đội ngũ sẽ không đi xa hơn với một ý tưởng cho đến khi họ rõ ràng tuyệt đối về cách đo lường và định nghĩa thành công. Cuối cùng, việc định nghĩa chất lượng phụ thuộc vào các phòng ban và lãnh đạo khác nhau: chọn một chỉ số và định nghĩa mức chất lượng tối thiểu trước khi công cụ được đặt vào tay các đội ngũ và đối tác.

Điểm khởi đầu này tạo ra một vòng phản hồi nhanh. Merritt lưu ý rằng những thứ làm chậm họ lại là nơi không có sự rõ ràng chung về kết quả họ đang cố gắng đạt được, điều này dẫn đến sự nhầm lẫn và điều chỉnh liên tục. "Chúng tôi không đưa vào sản xuất cho đến khi có một đối tác kinh doanh nói: 'Có, cái này hoạt động'."

Đội ngũ của ông cũng có chiến lược trong việc đánh giá các công cụ mới nổi và "cực kỳ nghiêm ngặt" khi kiểm tra và đo lường những gì được coi là "tốt". Ví dụ, họ thực hiện chấm điểm tin cậy (trust scoring) để giảm tỷ lệ ảo giác (hallucination), thiết lập ngưỡng và tiêu chí đánh giá, cũng như giám sát sự trôi dạt của tính năng và đầu ra.

Merritt cũng vận hành với chính sách "không cam kết" — nghĩa là công ty không khóa mình vào việc sử dụng một mô hình cụ thể nào. Họ có một môi trường công nghệ "vô cùng đa dạng" kết hợp các mô hình tốt nhất cùng với các máy tính lớn chạy trên COBOL. Sự linh hoạt này không phải là ngẫu nhiên. Đội ngũ của ông đã xây dựng các lớp dịch vụ chung, vi dịch vụ (microservices) và API nằm giữa lớp AI và mọi thứ bên dưới — để khi một mô hình tốt hơn xuất hiện, việc thay thế nó không có nghĩa là phải bắt đầu lại từ đầu.

Bởi vì, như Merritt giải thích: "mô hình tốt nhất hôm nay có thể là tồi tệ nhất vào ngày mai, và chúng tôi không muốn tự đặt mình vào thế bị tụt hậu."

Nhổ cỏ dại thay vì để "ngàn hoa đua nở"

Đối với phần mình, Mass General Brigham (MGB) ban đầu đã tiếp cận theo kiểu "phun sương và cầu nguyện".

Khoảng 15.000 nhà nghiên cứu trong hệ thống y tế phi lợi nhuận này đã sử dụng AI, ML và học sâu trong 10 đến 15 năm qua, ông Nallan "Sri" Sriraman, Giám đốc Công nghệ (CTO) của MGB cho biết tại cùng sự kiện.

Nhưng vào năm ngoái, ông đã đưa ra một lựa chọn táo bạo: Đội ngũ của ông đã đóng cửa sự lan man của các dự án thí điểm AI không được quản trị. Ban đầu, "chúng tôi đã làm theo phương pháp để ngàn hoa nở, nhưng chúng tôi không có ngàn hoa, chúng tôi có lẽ chỉ có vài chục bông hoa đang cố gắng nở", ông nói.

Giống như đội ngũ của Merritt tại MassMutual, MGB đã chuyển sang một cái nhìn toàn diện hơn, xem xét lý do tại sao họ phát triển các công cụ nhất định cho các phòng ban hoặc quy trình làm việc cụ thể. Họ đặt câu hỏi về những khả năng họ muốn và cần, cũng như khoản đầu tư mà những thứ đó yêu cầu.

Đội ngũ của Sriraman cũng đã nói chuyện với các nhà cung cấp nền tảng chính của họ — Epic, Workday, ServiceNow, Microsoft — về lộ trình của họ. Đây là một "thời điểm then chốt", ông lưu ý, khi họ nhận ra rằng họ đang xây dựng các công cụ nội bộ mà các nhà cung cấp đã đang cung cấp (hoặc có kế hoạch triển khai).

"Tại sao chúng ta lại tự xây dựng nó? Chúng ta đã ở trên nền tảng đó rồi. Nó sẽ nằm trong quy trình làm việc. Hãy tận dụng nó." — Sriraman nhận định.

Tuy nhiên, thị trường vẫn còn sơ khai, điều này có thể dẫn đến những quyết định khó khăn. Sriraman so sánh việc này như khi sáu người mù chạm vào một con voi và hỏi nó trông như thế nào — bạn sẽ nhận được sáu câu trả lời khác nhau. Điều đó không sao cả; mọi người đều đang khám phá và thử nghiệm khi bối cảnh liên tục thay đổi.

Thay vì một môi trường "miền Viễn Tây hoang dã", đội ngũ của Sriraman phân phối Microsoft Copilot cho người dùng trên toàn doanh nghiệp và sử dụng một "vùng hạ cánh nhỏ" (small landing zone) nơi họ có thể kiểm tra an toàn các sản phẩm tinh vi hơn và kiểm soát việc sử dụng token.

Họ cũng bắt đầu "cố tình cài đặt các nhà vô địch AI" (AI champions) trên các nhóm kinh doanh. "Đây là một kiểu đảo ngược của việc để ngàn hoa nở, là trồng trọt và chăm sóc cẩn thận", Sriraman nói.

Khả năng quan sát (observability) là một cân nhắc lớn khác; ông mô tả các bảng điều khiển thời gian thực quản lý sự trôi dạt của mô hình và an toàn, cho phép các đội ngũ IT quản trị AI "một cách thực dụng hơn". Giám sát sức khỏe là rất quan trọng với các hệ thống AI, và đội ngũ của ông đã thiết lập các nguyên tắc và chính sách xung quanh việc sử dụng AI, chưa kể đến quyền truy cập tối thiểu.

Trong môi trường lâm sàng, các hàng rào an toàn là tuyệt đối: các hệ thống AI không bao giờ đưa ra quyết định cuối cùng.

"Luôn sẽ có một bác sĩ hoặc trợ lý bác sĩ trong vòng lặp để chốt quyết định," Sriraman nói. Ông dẫn chứng việc tạo báo cáo X-quang (radiology) là một lĩnh vực AI được sử dụng nhiều, nhưng nơi một bác sĩ X-quang luôn phải ký xác nhận.

Sriraman rất rõ ràng: "Điều cấm kỵ là: Đừng hiển thị thông tin sức khỏe được bảo vệ (PHI) trên Perplexity. Đơn giản là vậy, đúng không?"

Và quan trọng hơn, phải có các cơ chế an toàn được đặt ra. "Chúng tôi cần một nút đỏ lớn, tắt nó đi," Sriraman nhấn mạnh. "Chúng tôi không đưa bất cứ thứ gì vào môi trường vận hành mà không có cái đó."

Cuối cùng, mặc dù AI tác nhân (agentic AI) là một công nghệ mang tính chuyển đổi, cách tiếp cận của doanh nghiệp đối với nó không nhất thiết phải khác biệt một cách ngoạn mục. "Không có gì mới mẻ ở đây," Sriraman kết luận. "Bạn có thể thay thế từ BPM (quản lý quy trình kinh doanh) từ thập niên 90 và 2000 bằng AI. Các khái niệm tương tự vẫn được áp dụng."

Từ Thí Điểm Đến Sản Xuất Thực Tế: Bài Học AI Từ MassMutual và Mass General Brigham

Xác định chỉ số đo lường và thiết lập vòng phản hồi mạnh mẽ

Nhổ cỏ dại thay vì để "ngàn hoa đua nở"

Bài viết liên quan