Mô hình AI tiên tiến thất bại một phần ba trong môi trường sản xuất và ngày càng khó kiểm toán

Các tác nhân AI hiện đã được tích hợp sâu vào quy trình doanh nghiệp, nhưng vẫn thất bại khoảng một phần ba số lần thử nghiệm trên các chuẩn mực có cấu trúc. Báo cáo Chỉ số AI thường niên lần thứ chín của Stanford HAI chỉ ra rằng khoảng cách giữa khả năng và độ tin cậy này chính là thách thức vận hành lớn nhất đối với các lãnh đạo CNTT vào năm 2026. Dù năng lực của AI đang tăng tốc, tính minh bạch và độ ổn định trong môi trường thực tế đang ngày càng giảm sút.

Các tác nhân AI hiện nay đã được nhúng sâu vào các quy trình làm việc thực tế của doanh nghiệp, tuy nhiên chúng vẫn thất bại trong khoảng một phần ba số lần thử nghiệm trên các benchmark có cấu trúc. Khoảng cách giữa khả năng và độ tin cậy này được coi là thách thức vận hành định nghĩa cho các lãnh đạo CNTT trong năm 2026, theo báo cáo Chỉ số AI thường niên lần thứ chín của Viện AI nhân tạo trung tâm (Stanford HAI).

Hiệu suất không đồng đều và khó dự đoán này là những gì Chỉ số AI gọi là "biên giới gồ ghề" (jagged frontier) — một thuật ngữ do nhà nghiên cứu AI Ethan Mollick đặt ra để mô tả ranh giới nơi AI xuất sắc và sau đó đột ngột thất bại.

"Các mô hình AI có thể giành huy chương vàng tại Olympic Toán học Quốc tế," các nhà nghiên cứu Stanford HAI chỉ ra, "nhưng vẫn không thể xem giờ một cách đáng tin cậy."

Sự tiến bộ của các mô hình trong năm 2025

Tỷ lệ áp dụng AI trong doanh nghiệp đã đạt mức 88%. Một số thành tựu đáng chú ý trong năm 2025 và đầu năm 2026 bao gồm:

Các mô hình tiên tiến đã cải thiện 30% chỉ trong một năm trên bài kiểm tra "Kỳ thi cuối cùng của Nhân loại" (HLE), bao gồm 2.500 câu hỏi spanning toán học, khoa học tự nhiên, ngôn ngữ cổ đại và các lĩnh vực chuyên sâu khác.
Các mô hình hàng đầu đạt điểm trên 87% ở MMLU-Pro, kiểm tra khả năng lập luận đa bước dựa trên 12.000 câu hỏi được xem xét bởi con người trên hơn một chục lĩnh vực.
Các mô hình hàng đầu như Claude Opus 4.5, GPT-5.2 và Qwen3.5 đạt điểm từ 62,9% đến 70,2% trên τ-bench, kiểm tra khả năng của các tác nhân trong các nhiệm vụ thực tế đòi hỏi trò chuyện với người dùng và gọi các công cụ hoặc API bên ngoài.
Độ chính xác của mô hình trên GAIA, benchmark đánh giá các trợ lý AI tổng quát, tăng từ khoảng 20% lên 74,5%.
Hiệu suất của tác nhân trên SWE-bench Verified tăng từ 60% lên gần 100% chỉ trong một năm. Benchmark này đánh giá khả năng giải quyết các vấn đề phần mềm thực tế của mô hình.

Các tác nhân AI cũng đang cho thấy sự gia tăng khả năng trong lĩnh vực an ninh mạng. Ví dụ, các mô hình tiên tiến đã giải quyết 93% vấn đề trên Cybench, một benchmark bao gồm 40 nhiệm vụ cấp chuyên nghiệp trên sáu danh mục "bắt cờ" (capture-the-flag), bao gồm mật mã học, bảo mật web, kỹ thuật ngược, điều tra pháp y và khai thác lỗ hổng.

Tạo video cũng đã phát triển đáng kể trong năm qua; các mô hình hiện nay có thể nắm bắt được cách hành xử của các vật thể. Ví dụ, Veo 3 của Google DeepMind đã được kiểm tra trên hơn 18.000 video được tạo ra, chứng minh khả năng mô phỏng lực nổi và giải quyết mê cung mà không cần được huấn luyện trên các nhiệm vụ đó.

"Các mô hình tạo video không còn chỉ sản xuất nội dung trông thực tế," các nhà nghiên cứu viết. "Một số đang bắt đầu học cách thế giới vật lý thực sự hoạt động."

Khả năng của AI tăng vọt nhưng độ tin cậy tụt hậu

Các mô hình đa phương thức hiện nay đã đạt hoặc vượt qua mức cơ sở của con người về các câu hỏi khoa học cấp tiến sĩ, lập luận đa phương thức và toán học cạnh tranh. Ví dụ, Gemini Deep Think đã giành huy chương vàng tại Olympic Toán học Quốc tế (IMO) năm 2025, giải quyết năm trong số sáu vấn đề hoàn toàn bằng ngôn ngữ tự nhiên trong giới hạn thời gian 4,5 giờ.

Tuy nhiên, các hệ thống AI giống nhau này vẫn thất bại trong khoảng một phần ba số lần thử và gặp khó khăn với các nhiệm vụ nhận thức cơ bản. Trên ClockBench — một bài kiểm tra bao gồm 180 thiết kế đồng hồ và 720 câu hỏi — Gemini Deep Think chỉ đạt độ chính xác 50,1%, so với khoảng 90% của con người. GPT-4.5 High đạt điểm gần như tương tự là 50,6%.

"Nhiều mô hình đa phương thức vẫn gặp khó khăn với điều mà hầu hết con người thấy thường ngày: Xem giờ," báo cáo của Stanford HAI chỉ ra.

Nhiệm vụ dường như đơn giản này kết hợp nhận thức thị giác với số học đơn giản, xác định kim đồng hồ và vị trí của chúng, và chuyển đổi các giá trị đó thành thời gian. Các lỗi ở bất kỳ bước nào trong số này có thể dẫn đến kết quả không chính xác. Ngay cả sau khi tinh chỉnh trên 5.000 hình ảnh tổng hợp, các mô hình chỉ cải thiện trên các định dạng quen thuộc và thất bại trong việc khái quát hóa các biến thể thực tế.

Ảo giác và lập luận đa bước vẫn là khoảng cách lớn

Ngay cả khi các mô hình tiếp tục tăng tốc về khả năng lập luận, ảo giác (hallucination) vẫn là một mối lo ngại lớn. Trong một benchmark, tỷ lệ ảo giác trên 26 mô hình hàng đầu dao động từ 22% đến 94%. Độ chính xác của một số mô hình giảm mạnh khi bị kiểm tra chặt chẽ — ví dụ, độ chính xác của GPT-4o trượt từ 98,2% xuống 64,4%, và DeepSeek R1 tụt dốc từ hơn 90% xuống 14,4%.

Hơn nữa, các mô hình tiếp tục gặp khó khăn với các quy trình làm việc đa bước, ngay cả khi chúng được giao nhiều nhiệm vụ hơn. Ví dụ, trên benchmark τ-bench, không mô hình nào vượt quá 71%, cho thấy rằng "quản lý các cuộc trò chuyện nhiều lượt trong khi sử dụng đúng công cụ và tuân thủ các ràng buộc chính sách vẫn khó khăn ngay cả đối với các mô hình tiên tiến."

Các mô hình đang trở nên mờ ám

Các mô hình hàng đầu hiện nay "gần như không thể phân biệt được" với nhau về mặt hiệu suất. Các mô hình open-weight (trọng số mở) cạnh tranh mạnh mẽ hơn bao giờ hết, nhưng chúng đang hội tụ.

Khi khả năng không còn là một "yếu tố phân biệt rõ ràng", áp lực cạnh tranh đang chuyển sang chi phí, độ tin cậy và tính hữu ích trong thế giới thực.

Các phòng thí nghiệm tiên tiến đang công bố ít thông tin hơn về các mô hình của họ, các phương pháp đánh giá nhanh chóng mất đi tính phù hợp, và kiểm tra độc lập không luôn luôn xác nhận các chỉ số do nhà phát triển báo cáo.

"Các hệ thống có khả năng nhất hiện nay là hệ thống kém minh bạch nhất," Stanford HAI chỉ ra.

Mã huấn luyện, số lượng tham số, kích thước bộ dữ liệu và thời gian thường được giữ kín — bởi các công ty bao gồm OpenAI, Anthropic và Google. Tính minh bạch đang giảm đi rộng rãi hơn: Năm 2025, 80 trong số 95 mô hình được phát hành mà không có mã huấn luyện tương ứng, trong khi chỉ có bốn mô hình làm mã của họ hoàn toàn mã nguồn mở.

Đánh giá AI ngày càng khó khăn — và kém tin cậy hơn

Các benchmark được sử dụng để đo lường tiến bộ của AI đang đối mặt với các vấn đề về độ tin cậy ngày càng tăng, với tỷ lệ lỗi đạt tới 42% trên các đánh giá được sử dụng rộng rãi.

Các thách thức chính bao gồm:

Báo cáo thiên kiến từ các nhà phát triển đang "thưa thớt và giảm dần".
Nhiễu benchmark, khi mô hình tiếp xúc với dữ liệu kiểm tra; điều này có thể dẫn đến "điểm số bị thổi phồng sai lệch".
Sự khác biệt giữa kết quả do nhà phát triển báo cáo và kiểm tra độc lập.
Các đánh giá "được xây dựng kém" thiếu tài liệu, chi tiết về ý nghĩa thống kê và script có thể tái tạo.
"Sự mờ ám ngày càng tăng và lời nhắc (prompting) không chuẩn chuẩn" khiến việc so sánh mô hình với mô hình trở nên không đáng tin cậy.

"Ngay cả khi điểm số benchmark về mặt kỹ thuật là hợp lệ, hiệu suất benchmark mạnh không luôn luôn chuyển thành tính hữu ích trong thế giới thực," báo cáo nhận định.

Điều này dẫn đến "bão hòa benchmark", nơi các mô hình đạt điểm số quá cao以至于 các bài kiểm tra không còn có thể phân biệt chúng.

Chúng ta đã đạt đến "đỉnh dữ liệu"?

Khi các nhà xây dựng chuyển sang suy luận (inference) tốn nhiều dữ liệu hơn, ngày càng có nhiều lo ngại về nút thắt dữ liệu và tính bền vững của việc mở rộng quy mô. Các nhà nghiên cứu hàng đầu đang cảnh báo rằng kho dữ liệu văn bản và web chất lượng cao có sẵn của con người đã bị "khai thác hết" — một trạng thái được gọi là "đỉnh dữ liệu" (peak data).

Các phương pháp lai kết hợp dữ liệu thực và dữ liệu tổng hợp có thể "tăng tốc đáng kể việc huấn luyện" — đôi khi lên mức 5 đến 10 lần — và các mô hình nhỏ hơn được huấn luyện hoàn toàn trên dữ liệu tổng hợp đã cho thấy triển vọng cho các nhiệm vụ được xác định hẹp như phân loại hoặc tạo mã.

Tuy nhiên, "những lợi ích này chưa được khái quát hóa thành các mô hình ngôn ngữ mục đích chung lớn."

Thay vì mở rộng quy mô dữ liệu "mù quáng", các nhà nghiên cứu đang chuyển sang cắt tỉa, tuyển chọn và tinh chỉnh các đầu vào, đồng thời cải thiện hiệu suất bằng cách làm sạch nhãn, loại bỏ trùng lặp mẫu và xây dựng các bộ dữ liệu chất lượng cao hơn tổng thể.

AI có trách nhiệm đang bị tụt hậu

Mặc dù cơ sở hạ tầng cho AI có trách nhiệm đang phát triển, tiến bộ đã "không đồng đều" và không thể bắt kịp với tốc độ tăng trưởng khả năng nhanh chóng.

Hầu như tất cả các nhà phát triển mô hình AI tiên tiến hàng đầu đều báo cáo kết quả trên các benchmark khả năng, nhưng báo cáo tương ứng về an toàn và trách nhiệm thì không nhất quán và "thưa thớt."

Các sự cố AI được ghi nhận đã tăng đáng kể so với cùng kỳ năm trước — 362 trường hợp vào năm 2025 so với 233 trường hợp vào năm 2024. Và mặc dù một số mô hình tiên tiến nhận được xếp hạng an toàn "Rất tốt" hoặc "Tốt" trong điều kiện sử dụng tiêu chuẩn, hiệu suất an toàn đã giảm trên tất cả các mô hình khi được kiểm tra chống lại các nỗ lực jailbreak sử dụng lời nhắc đối kháng.

"Các mô hình AI hoạt động tốt trong các bài kiểm tra an toàn trong điều kiện bình thường, nhưng phòng thủ của chúng yếu đi dưới sự tấn công có chủ đích," Stanford HAI lưu ý.

Dữ liệu của Stanford làm rõ một điều: khoảng cách quan trọng vào năm 2026 không phải là giữa hiệu suất của AI và con người. Đó là khoảng cách giữa những gì AI có thể làm trong một bản demo và những gì nó thực hiện một cách đáng tin cậy trong môi trường sản xuất.

Mô hình AI tiên tiến thất bại một phần ba trong môi trường sản xuất và ngày càng khó kiểm toán

Sự tiến bộ của các mô hình trong năm 2025

Khả năng của AI tăng vọt nhưng độ tin cậy tụt hậu

Ảo giác và lập luận đa bước vẫn là khoảng cách lớn

Các mô hình đang trở nên mờ ám

Đánh giá AI ngày càng khó khăn — và kém tin cậy hơn

Chúng ta đã đạt đến "đỉnh dữ liệu"?

AI có trách nhiệm đang bị tụt hậu

Bài viết liên quan