Khi dự án Data Science hoàn thành nhưng không ai sử dụng: Tại sao lại xảy ra?

Bài viết phân tích lý do tại sao nhiều mô hình dữ liệu và AI được xây dựng kỹ lưỡng nhưng cuối cùng lại bị bỏ quên. Nguyên nhân chính nằm ở sự thiếu minh bạch của mô hình "hộp đen", thời gian triển khai quá lâu, và sự khó khăn khi tích hợp vào quy trình làm việc hàng ngày của người dùng.

Các bên liên quan (stakeholders) đến yêu cầu chúng tôi xây dựng một mô hình. Chúng tôi tạo ra bản khái niệm (proof of concept), nhận được đèn xanh và giao sản phẩm. Tuần làm việc trôi qua... chỉ để nhận lại sự im lặng tuyệt đối.

Đây là một câu chuyện cũ kỹ, nhưng lại là nỗi ám ảnh của các chuyên gia dữ liệu khắp nơi, từ các nhà phân tích đến kỹ sư Machine Learning (ML). Vậy, chuyện gì đã xảy ra?

Hình ảnh minh họa về sự bí ẩn của công nghệ

Mô hình của bạn là một "Hộp đen" bí ẩn

Ngành của chúng ta dựa trên khoa học máy tính hiện đại. Chúng ta có khả năng tạo ra các mô hình cực kỳ phức tạp với hàng trăm đặc trưng (features) và tinh chỉnh hàng chục siêu tham số (hyperparameters). Quá trình này tạo ra các mô hình có độ chính xác đáng kinh ngạc, nhưng cái giá phải trả là tính giải thích (explainability).

Có một ranh giới mong manh giữa một mô hình mạnh mẽ và một "hộp đen" mà ngay cả người tạo ra nó cũng không thể giải thích. Sự đánh đổi giữa tính giải thích và độ chính xác là một yếu tố lớn, đặc biệt trong ngành y tế. Khách hàng thường là các bác sĩ và lâm sàng gia. Họ quen với việc đưa ra phán đoán dựa trên chuyên môn và kiến thức y khoa sâu sắc.

Nếu một mô hình dự đoán tốt nhưng không thể giải thích rõ ràng, các bác sĩ sẽ nghi ngờ độ tin cậy của nó. Khi phải lựa chọn giữa quy trình lâm sàng đã được kiểm chứng hay một mô hình hộp đen với các thuật toán khó hiểu, họ sẽ chọn quy trình lâm sàng.

Vậy, làm thế nào để tránh điều này? Tôi tìm thấy thành công nhất bằng cách cung cấp cho khách hàng một bản tóm tắt mô hình (model brief) dễ hiểu. Đây là một bộ slide dẫn dắt khách hàng đi qua mô hình: định nghĩa đối tượng, mục tiêu, đặc trưng, và kết thúc bằng hiệu suất của bản khái niệm.

Hãy định nghĩa các chỉ số (metrics) theo câu hỏi kinh doanh, đặt mình vào vị trí của khách hàng. Tránh nói thuật ngữ thống kê thuần túy và giữ các định nghĩa gắn liền với mục tiêu của họ. Nếu mô hình phức tạp, hãy giải thích ở mức độ cao và truyền đạt lý do bạn chọn tập hợp đặc trưng đó. Việc phát triển bản tóm tắt toàn diện là bước then chốt để khách hàng hiểu mô hình bằng các thuật ngữ quen thuộc của họ.

Hình ảnh minh họa về thời gian và tốc độ

Giải pháp của bạn tốn quá nhiều thời gian

Xây dựng mô hình hoạt động mất thời gian. Từ việc trao đổi với khách hàng đến những rắc rối bất ngờ, thiết kế một mô hình hiệu quả không phải là nhiệm vụ nhanh chóng. Và sau đó là triển khai (deployment). Đó là một quy trình riêng biệt.

Thế giới thực không kiên nhẫn chờ đợi. Khách hàng đang sống hàng ngày với các công cụ họ đã có. Nếu việc xây dựng mô hình mất quá lâu, họ có thể từ bỏ ý tưởng hoặc tìm ra các giải pháp sáng tạo không liên quan đến mô hình dự đoán.

Chúng ta thấy điều này thường xuyên trong y tế. Các bên liên quan yêu cầu mô hình. Sau vài trở ngại (giao tiếp bị đình trệ, vấn đề truy cập dữ liệu, lỗi triển khai...), vài tuần phát triển kéo dài thành vài tháng. Khi bạn sẵn sàng trình bày, bạn nhận được tin buồn: "Chúng tôi không còn cần mô hình nữa, chúng tôi đã tự giải quyết được".

Có một câu nói tôi sống theo: "Đừng để sự hoàn hảo cản trở cái tốt". Hãy xây dựng nhanh. Lên ý tưởng, tinh chỉnh, xem xét... nhưng luôn tiến về phía trước. Sự hoàn hảo có thể ngăn bạn cung cấp những thông tin chi tiết có giá trị. Thế giới vận động nhanh, và nếu bạn bị mắc kẹt trong giai đoạn xây dựng quá lâu, thế giới sẽ bỏ lại bạn phía sau.

Hãy tung ra phiên bản v1. Nếu sau này bạn tìm ra cách tốt hơn, hãy đưa nó vào danh sách cải tiến cho v2. Một số giải pháp nào đó hầu như luôn tốt hơn là không có giải pháp nào cả.

Nếu mọi việc diễn ra chậm hơn kế hoạch, bạn cần giao tiếp với khách hàng sớm và thường xuyên. Hãy cập nhật tiến độ cho họ và cung cấp cái nhìn sơ bộ để giữ họ hào hứng với sản phẩm cuối cùng.

Hình ảnh minh họa về tích hợp và trải nghiệm người dùng

Mô hình của bạn không dễ dàng sử dụng

Xây dựng một mô hình dự đoán tốt chỉ là một nửa cuộc chiến. Trong hầu hết các ngành, các bên liên quan rất bận rộn. Trong y tế, bác sĩ và y tá bị ngập đầu trong việc chăm sóc bệnh nhân. Nếu nhóm khoa học dữ liệu đến để giới thiệu mô hình chính xác nhất của họ, nhưng việc truy cập các dự đoán lại làm phức tạp quy trình làm việc và làm chậm họ, mô hình đó sẽ không bao giờ được sử dụng.

Nếu các dự đoán tạo ra ma sát, bạn đang mở đường dẫn đến sự bỏ rơi, không phải sự chấp nhận.

Việc cung cấp các dự đoán dễ sử dụng có thể là một trong những thách thức lớn nhất đối với các nhà khoa học dữ liệu. Chúng ta có thể giỏi tạo ra các mô hình chính xác, nhưng việc tích hợp mô hình vào cuộc sống hàng ngày của khách hàng lại không tự nhiên. Phần này ít liên quan đến con số, xác suất và kiến thức thống kê, mà nhiều hơn về vận hành, kiến thức kinh doanh và sự quen thuộc với quy trình hàng ngày của người yêu cầu.

Trong môi trường bệnh viện, điều này trông giống như việc tích hợp vào phần mềm hồ sơ sức khỏe điện tử (như Epic). Thay vì yêu cầu các bác sĩ bận rộn đăng nhập vào một hệ thống riêng để xem dự đoán, họ có thể truy cập ngay tại đó, trong hồ sơ bệnh nhân, cùng với các công cụ lâm sàng khác. Trong các ngành khác, ý tưởng tương tự cũng áp dụng. Đừng làm gián đoạn quy trình hiện tại. Hãy lồng ghép vào nó.

Tổng kết

Một trong những sự thất vọng lớn nhất mà một nhà khoa học dữ liệu phải đối mặt trong suốt sự nghiệp là công việc khó khăn của họ không được sử dụng. Điều này xảy ra thường xuyên hơn ta nghĩ, và rất dễ đổ lỗi cho khách hàng.

Trên thực tế, có thể có một số yếu tố quan trọng mà nhà khoa học dữ liệu đã bỏ lỡ trong quá trình phát triển. Nhận thức được các bẫy phổ biến có thể giúp các nhà khoa học dữ liệu đưa mô hình của họ về đích. Đích đến thực sự: sự chấp nhận và sử dụng.