Chiến lược AI của MassMutual: Hợp đồng 12 tháng, tăng 30% năng suất và không bị khóa nhà cung cấp
Các đội ngũ AI doanh nghiệp thường đối mặt với sự thay đổi nhanh chóng của các mô hình ngôn ngữ. MassMutual giải quyết bài toán này bằng cách tránh các hợp đồng dài hạn và xây dựng hạ tầng linh hoạt, giúp tăng 30% năng suất của lập trình viên và giảm đáng kể thời gian xử lý tại trung tâm liên hệ.

Các đội ngũ AI doanh nghiệp đang đối mặt với một tình huống khó xử: Mô hình tốt nhất hôm nay có thể không còn là mô hình tốt nhất một năm nữa. Câu trả lời của MassMutual là ngừng đặt cược dài hạn — và xây dựng hạ tầng có thể hoán đổi các mô hình khi thị trường thay đổi.
"Thế giới AI hiện nay cực kỳ động," Sears Merritt, Giám đốc Thông tin (CIO) của MassMutual, giải thích trong một podcast mới của VB Beyond the Pilot. "Chúng tôi muốn đảm bảo mình được định vị tốt để đón làn sóng năng động này."
Chiến lược này đang mang lại kết quả lớn. MassMutual đã ghi nhận mức tăng khoảng 30% năng suất của các nhà phát triển, trong khi các quy trình làm việc được hỗ trợ bởi AI tại trung tâm liên hệ đã giảm thời gian giải quyết vấn đề từ 10 phút xuống còn 1 phút và cắt giảm chi phí từ mức đô la xuống xu.
Tuy nhiên, bài học lớn hơn dành cho các lãnh đạo CNTT có thể không nằm ở kết quả mà ở cách công ty xây dựng hạ tầng AI một cách có tư duy và đặt người dùng làm trung tâm.
Giữ lại sự lựa chọn cho các khả năng trong tương lai
MassMutual làm việc với các nhà cung cấp hàng đầu, nhưng giữ các mối quan hệ này trong giới hạn thời gian. "Những mối quan hệ này bị giới hạn để chúng tôi duy trì khả năng lựa chọn các công cụ tốt nhất khi mọi thứ trưởng thành trong lĩnh vực này, và tại một thời điểm nào đó, sẽ ổn định," Merritt nói.
Triết lý đó mở rộng sang các mô hình mã nguồn mở. Merritt cho biết đội ngũ của ông "100%" đang xem xét các công cụ mã nguồn mở và thấy công nghệ này sẽ đóng vai trò lớn trong cách MassMutual (và các công ty tương tự) sử dụng AI.
"Chúng tôi chắc chắn sẽ cần các mô hình tiên phong và khả năng hàng đầu để làm những điều ngày nay là không thể, và ngày mai sẽ có thể," ông nói.
Đo lường kết quả ngay từ đầu
Nỗ lực AI của MassMutual chia làm hai loại chính.
Loại đầu tiên tập trung vào việc hỗ trợ (enablement): Đưa các công cụ tăng năng suất như Copilot và trợ lý ảo vào tay mọi nhân viên. Loại thứ hai liên quan đến những gì Merritt mô tả là các sáng kiến "làm sâu và tập trung", nơi các nhóm nhắm đến một quy trình làm việc hoặc quy trình kinh doanh cụ thể sẽ có tác động mạnh mẽ đến các cố vấn, người được bảo hiểm hoặc nhân viên.
Thay vì tập trung vào các chỉ số áp dụng, các dự án này bắt đầu với các tiêu chí thành công được xác định trước. "Mọi thứ chúng tôi làm đều được đo lường," Merritt nói. "Luôn có một chỉ số thành công mà chúng tôi xác định ngay từ đầu để quyết định liệu chúng tôi có mở rộng quy mô một số thứ này hay không."
Công ty cũng chủ động khuyến khích thử nghiệm, cung cấp cho nhân viên quyền truy cập vào một loạt các mô hình tốt nhất, "quy trình làm việc tiêu thụ token" và các khả năng khác để họ có thể cân nhắc lợi ích tương đối so với các "mô hình ngôn ngữ lớn (LLM) đơn giản hơn, chi phí thấp hơn".
Đồng thời, MassMutual đang thu thập các phân tích ngày càng chi tiết xung quanh các mô hình sử dụng, quy trình làm việc của nhà phát triển, hiệu suất mô hình và chi phí. Mục tiêu là giảm chi tiêu đồng thời xây dựng trí tuệ vận hành để cuối cùng định tuyến khối lượng công việc đến mô hình phù hợp dựa trên chi phí, chất lượng phản hồi và trải nghiệm người dùng.
Những hiểu biết sâu sắc đó cuối cùng sẽ thúc đẩy các quyết định tối ưu hóa xung quanh việc định tuyến mô hình, lựa chọn lời nhắc (prompt), thời gian phản hồi và thiết kế hạ tầng.
"Chúng tôi đang có quyền truy cập vào các phân tích cho phép, theo cách rất chi tiết, xem xét các mô hình sử dụng, quy trình làm việc của nhà phát triển và bắt đầu hiểu rõ ai đang sử dụng cái gì, khi nào và cho các loại nhiệm vụ nào," Merritt nói.
Tại sao MassMutual đôi khi chọn mô hình đắt tiền hơn
Một khía cạnh thú vị khác của cách tiếp cận của MassMutual là cách họ đánh giá chất lượng AI. Thay vì chỉ tập trung vào các điểm chuẩn hoặc chi phí token, công ty sử dụng những gì Merritt gọi là khung "điểm tin cậy" (trust score).
Quy trình này kết hợp phản hồi của người dùng với các chỉ số vận hành để hiểu nhân viên cảm nhận thế nào về các phản hồi do AI tạo ra và liệu các phản hồi đó có thực sự cải thiện kết quả hay không.
Việc xây dựng lại trung tâm liên hệ đã đưa khung này vào thử thách. Trong quá trình phát triển, nhân viên được quyền truy cập vào hai LLM khác nhau. Một cái tạo ra phản hồi gần như thời gian thực nhưng chất lượng ồn ào/không ổn định. Tùy chọn đắt tiền hơn mất thêm vài giây để phản hồi nhưng luôn cung cấp câu trả lời chất lượng cao hơn.
Trí tuệ thông thường và tốc độ kinh doanh có thể gợi ý rằng người dùng sẽ thích cái trước; nhưng họ áp đảo chọn chất lượng. Đội ngũ của Merritt đã hỏi người dùng về chất lượng phản hồi, mô hình họ thích và suy nghĩ tổng thể của họ về trải nghiệm.
Hầu hết thời gian, người dùng nói: "Chúng tôi muốn cái đắt tiền hơn. Chúng tôi sẵn sàng chờ đợi, nhưng sự khác biệt về chất lượng quá lớn nên hai giây thêm thực sự đáng giá với chúng tôi."
Phản hồi đó cuối cùng đã xác định mô hình nào mà MassMutual triển khai.
"Chúng tôi đã đưa yếu tố trải nghiệm đó vào việc ra quyết định, và điều đó dẫn chúng tôi nói rằng, trên cơ sở tương đối, chi phí là không đáng kể, vì vậy chúng tôi sẽ sử dụng mô hình phức tạp hơn," Merritt nói.
Bạn có thể nghe và đăng ký Beyond the Pilot trên Spotify, Apple hoặc bất cứ nơi nào bạn nghe podcast.



