Bài kiểm tra AI hiện tại đã lỗi thời: Cần thay đổi cách đo lường hiệu suất thực tế

Trong nhiều thập kỷ, hiệu suất AI thường được đo bằng cách so sánh với con người trong các tác vụ đơn lẻ, nhưng cách đánh giá này không phản ánh đúng thực tế khi AI được sử dụng trong môi trường phức tạp và làm việc cùng đội nhóm. Nhà nghiên cứu Angela Aristidou đề xuất tiêu chuẩn mới gọi là HAIC (Human-AI, Context-Specific Evaluation) tập trung vào hiệu suất trong các quy trình làm việc và tổ chức thay vì chỉ là các bài kiểm tra tĩnh.

Trong nhiều thập kỷ, trí tuệ nhân tạo (AI) thường được đánh giá dựa trên câu hỏi liệu máy móc có vượt qua con người hay không. Từ cờ vua đến toán học cao cấp, hay từ lập trình đến viết luận, hiệu suất của các mô hình AI được so sánh với năng lực của một cá nhân hoàn thành nhiệm vụ. Cách tiếp cận này rất hấp dẫn nhưng cũng chứa đựng vấn đề lớn.

Cách đánh giá này dễ dàng chuẩn hóa, so sánh và tối ưu hóa, tạo ra các bảng xếp hạng và tiêu đề giật gân. Tuy nhiên, vấn đề nằm ở chỗ AI hiếm khi được sử dụng đúng cách như cách nó được đo lường. Dù các nhà nghiên cứu và ngành công nghiệp đã bắt đầu cải thiện bằng cách chuyển sang các phương pháp đánh giá động hơn, nhưng các giải pháp này chỉ giải quyết được một phần vấn đề. Lý do là vì chúng vẫn đánh giá hiệu suất AI trong môi trường tách biệt, trong khi thực tế, hiệu suất của AI chỉ thực sự bộc lộ trong các đội nhóm và quy trình tổ chức phức tạp.

Trong khi AI được đánh giá ở mức độ tác vụ trong môi trường cô lập, nó lại được sử dụng trong môi trường lộn xộn, nơi thường tương tác với nhiều người. Hiệu suất (hoặc thiếu hiệu suất) chỉ bộc lộ sau một thời gian dài sử dụng. Sự lệch pha này khiến chúng ta hiểu lầm khả năng của AI, bỏ qua các rủi ro hệ thống và đánh giá sai những hệ quả kinh tế và xã hội.

Để khắc phục điều này, thời điểm đã đến để chuyển từ các phương pháp hẹp sang các tiêu chuẩn đánh giá hiệu suất của các hệ thống AI trong thời gian dài, bên trong các đội nhóm, quy trình làm việc và tổ chức. Tôi đề xuất một cách tiếp cận khác, gọi là HAIC (Human-AI, Context-Specific Evaluation).

Hiệu ứng khi AI thất bại

Đối với chính phủ và doanh nghiệp, các điểm số benchmark của AI có vẻ khách quan hơn các tuyên bố của nhà cung cấp. Chúng là một phần quan trọng trong việc quyết định xem một mô hình AI hay ứng dụng có "đủ tốt" để triển khai thực tế hay không. Hãy tưởng tượng một mô hình AI đạt được các điểm số kỹ thuật ấn tượng trên các tiêu chuẩn tiên tiến nhất—98% độ chính xác, tốc độ đột phá, đầu ra thuyết phục. Dựa trên kết quả này, các tổ chức có thể quyết định áp dụng mô hình, cam kết tài chính và nguồn lực kỹ thuật lớn để mua và tích hợp nó.

Nhưng sau khi được áp dụng, khoảng cách giữa benchmark và hiệu suất thực tế nhanh chóng trở nên rõ ràng. Ví dụ, hãy xem xét các mô hình AI được FDA phê duyệt có thể đọc chẩn đoán hình ảnh y tế nhanh và chính xác hơn chuyên gia X-quang. Tuy nhiên, tại các đơn vị chẩn đoán hình ảnh tại các bệnh viện từ California đến London, tôi đã chứng kiến nhân viên mất nhiều thời gian hơn để giải thích đầu ra của AI cùng với các tiêu chuẩn báo cáo đặc thù của bệnh viện và các yêu cầu quy định quốc gia. Những gì xuất hiện như một công cụ tăng năng suất khi được kiểm tra trong môi trường cô lập lại gây ra sự chậm trễ trong thực tế.

Nó nhanh chóng trở nên rõ ràng rằng các bài kiểm tra chuẩn mà các mô hình AI y tế được đánh giá không nắm bắt được cách các quyết định y tế được thực sự đưa ra. Các bệnh viện phụ thuộc vào các đội ngũ đa chuyên môn—chuyên gia X-quang, bác sĩ ung thư, vật lý, y tá—who xem xét bệnh nhân cùng nhau. Quyết định điều trị hiếm khi dựa trên một quyết định tĩnh; nó phát triển khi thông tin mới xuất hiện trong vài ngày hoặc tuần. Các quyết định thường phát sinh từ các cuộc tranh luận xây dựng và sự đánh đổi giữa các tiêu chuẩn chuyên môn, sở thích của bệnh nhân và mục tiêu chung là sức khỏe lâu dài của bệnh nhân. Không có gì ngạc nhiên khi ngay cả các mô hình AI có điểm số cao cũng gặp khó khăn trong việc mang lại hiệu suất hứa hẹn khi chúng tiếp xúc với các quy trình chăm sóc lâm sàng phức tạp, hợp tác này.

Cách xây dựng bài kiểm tra tốt hơn

Để thu hẹp khoảng cách giữa benchmark và hiệu suất thực tế, chúng ta phải chú ý đến các điều kiện thực tế mà các mô hình AI sẽ được sử dụng. Câu hỏi cốt lõi là: AI có thể hoạt động như một thành viên sản xuất hiệu quả bên trong các đội nhóm con người không? Và nó có thể tạo ra giá trị tập thể bền vững không?

Qua nghiên cứu của tôi về việc triển khai AI trên nhiều lĩnh vực, tôi đã thấy nhiều tổ chức đang di chuyển—mục đích và thực nghiệm—về phía các tiêu chuẩn HAIC mà tôi ưa chuộng.

Tiêu chuẩn HAIC thay đổi cách đánh giá hiện tại theo bốn cách:

Từ hiệu suất cá nhân và tác vụ đơn lẻ sang hiệu suất tập thể và quy trình làm việc (chuyển đổi đơn vị phân tích).
Từ bài kiểm tra một lần với câu trả lời đúng/sai sang tác động lâu dài (mở rộng tầm nhìn thời gian).
Từ độ chính xác và tốc độ sang kết quả tổ chức, chất lượng phối hợp và khả năng phát hiện lỗi (mở rộng các chỉ số kết quả).
Từ đầu ra cô lập sang hệ quả đầu vào và đầu ra (hiệu ứng hệ thống).

Ở những tổ chức nơi phương pháp tiếp cận này đã xuất hiện và bắt đầu được áp dụng, bước đầu tiên là chuyển đổi đơn vị phân tích.

Ví dụ, trong một hệ thống bệnh viện tại Vương quốc Anh trong giai đoạn 2021–2024, câu hỏi đã mở rộng từ việc liệu ứng dụng AI y tế có cải thiện độ chính xác chẩn đoán hay không sang việc sự hiện diện của AI trong các đội ngũ đa chuyên môn của bệnh viện ảnh hưởng như thế nào đến cả độ chính xác và sự phối hợp và thảo luận. Bệnh viện đã đánh giá cụ thể sự phối hợp và thảo luận của các đội nhóm con người sử dụng và không sử dụng AI. Nhiều bên liên quan (bên trong và bên ngoài bệnh viện) đã quyết định các chỉ số như AI ảnh hưởng đến tư duy tập thể như thế nào, có làm nổi lên các xem xét bị bỏ qua không, có làm mạnh hay yếu hóa sự phối hợp không, và có thay đổi các thực tiễn rủi ro và tuân thủ đã thiết lập không.

Điều này là cơ bản. Nó quan trọng lớn trong các bối cảnh trọng yếu nơi các hiệu ứng ở cấp độ hệ thống quan trọng hơn độ chính xác ở cấp độ tác vụ. Nó cũng quan trọng đối với nền kinh tế. Nó có thể giúp tái lập lại các kỳ vọng đã phóng đại về những khoản tăng năng suất trọn đời, vốn dựa chủ yếu vào lời hứa cải thiện hiệu suất tác vụ cá nhân.

Sau khi nền tảng này được thiết lập, đánh giá HAIC có thể bắt đầu lấy yếu tố thời gian.

Các benchmark hiện tại giống như các bài kiểm tra trường học—một lần, các bài kiểm tra chuẩn hóa về độ chính xác. Nhưng năng lực chuyên môn thực sự được đánh giá khác nhau. Các bác sĩ nội trú và luật sư trẻ được đánh giá liên tục bên trong các quy trình làm việc thực tế, dưới sự giám sát, với các vòng phản hồi và các cấu trúc trách nhiệm. Hiệu suất được đánh giá theo thời gian và trong một ngữ cảnh cụ thể, vì năng lực là mang tính liên hệ. Nếu các hệ thống AI được thiết kế để vận hành cùng các chuyên gia, tác động của chúng cần được đánh giá theo chiều dài (longitudinally), phản ánh cách hiệu suất diễn ra trong các tương tác lặp lại.

Tôi đã thấy khía cạnh HAIC này được áp dụng trong một trường hợp nghiên cứu của tôi trong lĩnh vực nhân đạo. Trong 18 tháng, một hệ thống AI được đánh giá bên trong các quy trình làm việc thực tế, với sự chú ý đặc biệt vào độ dễ dàng phát hiện lỗi của nó—tức là, con người dễ dàng nhận ra và sửa lỗi như thế nào. Việc "biên lai lỗi detectability" dài hạn này có nghĩa là các tổ chức liên quan có thể thiết kế và kiểm tra các rào cản bảo vệ cụ thể ngữ cảnh để thúc đẩy niềm tin vào hệ thống, mặc dù sự hiện diện của các lỗi AI không thể tránh khỏi.

Tầm nhìn thời gian dài hơn cũng làm cho các hệ quả ở cấp độ hệ thống mà các benchmark ngắn hạn bỏ qua trở nên rõ ràng. Một ứng dụng AI có thể vượt qua một bác sĩ đơn lẻ trên một nhiệm vụ chẩn đoán hẹp nhưng không cải thiện quyết định đa chuyên môn. Thậm chí tồi tệ hơn, nó có thể gây ra các suy biến hệ thống: neo đội nhóm quá sớm vào các câu trả lời có khả thi nhưng chưa đầy đủ, thêm vào gánh nặng công việc nhận thức của con người, hoặc tạo ra các bất tiện ở đầu ra (downstream) mà bù đắp bất kỳ lợi ích tốc độ hay hiệu quả nào tại điểm sử dụng AI. Các hệ quả lan truyền này—thường không thấy rõ trong các benchmark hiện tại—là trung tâm trong việc hiểu tác động thực sự.

Phương pháp tiếp cận HAIC, xin lỗi nhưng hứa hẹn sẽ làm cho việc đánh giá phức tạp hơn, tốn nhiều nguồn lực hơn và khó chuẩn hóa hơn. Nhưng tiếp tục đánh giá AI trong các điều kiện tinh khiết tách rời với thế giới lao động sẽ để chúng ta hiểu lầm những gì AI thực sự có thể và không thể làm cho chúng ta. Để triển khai AI một cách có trách nhiệm trong các bối cảnh thực tế, chúng ta phải đo lường những gì thực sự quan trọng: không chỉ mô hình có thể làm gì một mình, mà những gì nó hỗ trợ hoặc hủy hoại khi con người và đội nhóm trong thế giới thực làm việc cùng nó.

Angela Aristidou là giáo sư tại Đại học University College London và một fellow tại Stanford Digital Economy Lab và Stanford Human-Centered AI Institute. Bà nói, viết và tư vấn về việc triển khai thực tế các công cụ trí tuệ nhân tạo cho lợi ích công cộng.

Bài kiểm tra AI hiện tại đã lỗi thời: Cần thay đổi cách đo lường hiệu suất thực tế

Hiệu ứng khi AI thất bại

Cách xây dựng bài kiểm tra tốt hơn

Bài viết liên quan