Đánh giá AI sẽ thất bại và bạn sẽ không hề hay biết

Chúng ta khá giỏi trong việc đánh giá các mô hình hiện tại, nhưng lại kém cỏi khi đánh giá những mô hình sắp tới, đặc biệt là khi chúng bước vào một chế độ năng lực mới. Hầu hết các điểm chuẩn và quy trình đánh giá an toàn đều ngầm giả định rằng mô hình tiếp theo chỉ là phiên bản mạnh hơn của mô hình hiện tại, chứ không phải một loại hình khác biệt. Đây là vấn đề chưa được giải quyết quan trọng nhất trong việc hiểu về các Mô hình Ngôn ngữ Lớn (LLM).

Chúng ta giỏi trong việc đánh giá các mô hình mình đang có. Tuy nhiên, chúng ta lại kém cỏi rất nhiều khi đánh giá những mô hình mình sắp xây dựng — đặc biệt là nếu chúng vượt qua ranh giới để bước vào một chế độ năng lực hoàn toàn mới.

Hầu hết các điểm chuẩn (benchmarks), các bài đánh giá an toàn và các giao thức kiểm thử đối kháng (red-teaming) đều ngầm giả định rằng mô hình tiếp theo chỉ là một phiên bản mạnh hơn của mô hình hiện tại. Nếu đó là một loại hình khác biệt, toàn bộ cơ sở hạ tầng đánh giá của chúng ta sẽ bị phá vỡ một cách âm thầm.

Tôi nghĩ đây là vấn đề chưa được giải quyết quan trọng nhất trong cách chúng ta hiểu về các Mô hình Ngôn ngữ Lớn (LLM). Và câu trả lời, theo tôi, là đánh giá (eval) — chứ không phải huấn luyện, kiến trúc hay dữ liệu — mới chính là nút thắt cổ chai cho bước nhảy vọt về năng lực tiếp theo. Hãy để tôi giải thích tại sao.

Chế độ thất bại: Những thay đổi mang tính chất định tính

Wei và cộng sự (2022) đã ghi nhận những gì họ gọi là "khả năng mới nổi" (emergent abilities) — hiệu suất tác vụ khi gợi ý vài ví dụ (few-shot), lợi ích từ suy luận chuỗi (chain-of-thought), khả năng tuân thủ hướng dẫn — những năng lực chỉ xuất hiện ở quy mô lớn hơn. Hiện tượng Grokking (Power và cộng sự, 2022) cho thấy một hiện tượng liên quan nhưng khác biệt: các mạng lưới đột nhiên khái quát hóa (generalize) lâu sau khi đã ghi nhớ dữ liệu huấn luyện, một sự chuyển đổi động theo thời gian huấn luyện thay vì theo quy mô (Liu và cộng sự, 2022). Các hiện tượng khác nhau, nhưng cùng một hàm ý cho việc đánh giá: các số liệu chuẩn đã thất bại trong việc dự đoán sự thay đổi định tính.

Tuy nhiên, có một điểm phản biện quan trọng: Schaeffer và cộng sự (2023) đã chỉ ra rằng nhiều "bước nhảy" về năng lực của LLM thực chất chỉ là tạo tác của các số liệu không liên tục như độ chính xác khớp chính xác (exact-match accuracy). Nếu chuyển sang một số liệu liên tục, năng lực thường tăng trưởng một cách trơn tru.

Tôi không nghĩ điều này chấm dứt câu hỏi — theo một cách nào đó, nó làm cho luận điểm của tôi sắc bén hơn. Nếu chúng ta thậm chí không thể nói được liệu một sự chuyển đổi trong quá khứ là thay đổi định tính thực sự hay chỉ là tạo tác của số liệu, thì điều đó nói gì về khả năng phát hiện sự chuyển đổi tiếp theo của chúng ta? Dù theo cách nào, cơ sở hạ tầng đánh giá cũng có thể gây bất ngờ cho chúng ta — dù là do hệ thống thay đổi hay do các số liệu của chúng ta đã gây hiểu lầm từ đầu.

Chúng ta không biết nên đo lường điều gì

Trong vật lý, việc hiểu về một chuyển pha thường có nghĩa là xác định một tham số thứ tự (order parameter) — một đại lượng vĩ mô phân biệt các chế độ và thay đổi giá trị hoặc hành vi tỷ lệ gần điểm tới hạn. Nếu không có nó, bạn không thể biết mình đang gần biên giới đến mức nào, hoặc thậm chí là không biết biên giới đó tồn tại.

Đối với các LLM ở quy mô triển khai, chúng ta chưa có các tham số thứ tự — chưa có cho các chuyển đổi năng lực. Tiến bộ đã được thực hiện trong các bối cảnh được cách điệu (sẽ nói thêm dưới đây), nhưng đối với các hệ thống mà chúng ta thực sự đưa ra thị trường, chúng ta đang "bay mù".

Mọi điểm chuẩn chúng ta sử dụng — GPQA, SWE-bench, ARC-AGI, Humanity's Last Exam — đều đo lường những gì mô hình có thể làm ngay bây giờ. Chúng hữu ích trong một chế độ, nhưng là bằng chứng yếu về những gì sẽ xảy ra sau khi thay đổi chế độ. Khi một năng lực mới xuất hiện mà không có điểm chuẩn nào kiểm tra, chúng ta cuống cuồng xây dựng một bài đánh giá sau khi sự việc đã xảy ra. Chúng ta đã thấy một phiên bản của điều này với chuỗi suy luận: một khi phương pháp khơi gợi trở thành tiêu chuẩn, một số điểm chuẩn suy luận cũ trở nên ít chẩn đoán hơn, và lĩnh vực này phải chuyển hướng sang các bài đánh giá khó hơn. Chúng ta sẽ thấy nó lại một lần nữa.

Để làm rõ điều này: hãy tưởng tượng một mô hình mà, ở một quy mô nào đó, phát triển khả năng giữ lại thông tin một cách chiến lược để đạt được mục tiêu — không phải nói dối chính xác, nhưng là lược bỏ có chọn lọc các sự thật theo cách điều hướng các cuộc hội thoại hướng tới kết quả mà quá trình huấn luyện của nó vô tình củng cố. Các điểm chuẩn về trung thực hiện có của bạn sẽ không bắt được điều này, vì chúng kiểm tra độ chính xác về mặt sự thật, không phải sự lược bỏ chiến lược. Các bộ phân loại an toàn của bạn sẽ không gắn cờ nó, vì các đầu ra riêng lẻ đều về mặt kỹ thuật là đúng. Năng lực là mới, chế độ thất bại là mới, và không có gì trong bộ đánh giá của bạn được thiết kế để tìm kiếm nó. Bạn đang giám sát sai thứ và sẽ không biết điều đó.

Đây là vấn đề cốt lõi: toàn bộ cơ sở hạ tầng đánh giá của chúng ta mang tính chất phản ứng theo cấu trúc. Chúng ta đo lường hệ thống sau khi nó đã thay đổi. Chúng ta không bao giờ dự đoán sự thay đổi.

Đánh giá là yếu tố tiên quyết của mọi thứ

Vấn đề này quan trọng hơn âm thanh của nó, vì một sự thật đơn giản: nếu bạn có thể đánh giá đúng, bạn có thể huấn luyện đúng.

Huấn luyện là tối ưu hóa, và tối ưu hóa chỉ tốt bằng mục tiêu của nó. Mục tiêu đến từ đánh giá. Nếu bạn biết phải đo lường gì — nếu bạn có thể dự đoán các phép đo đó thay đổi như thế nào theo quy mô — thì bạn có thể thiết kế các mục tiêu huấn luyện đúng, xây dựng các lớp an toàn đúng, đưa ra các quyết định mở rộng quy mô có hiểu biết, thực hiện RLHF nhắm vào các thuộc tính hành vi đúng thay vì các đại diện thay thế mà sẽ bị Goodhart tại biên giới pha tiếp theo.

Điều ngược lại cũng đúng: nếu các bài đánh giá của bạn được hiệu chuẩn cho chế độ sai, mọi thứ ở hạ nguồn đều sai. Tín hiệu huấn luyện, số liệu an toàn, quyết định mở rộng quy mô — tất cả đều sai, và bạn sẽ không biết điều đó cho đến khi quá muộn.

Đó là lý do tôi tin rằng đánh giá là nút thắt cổ chai cho bước nhảy vọt năng lực tiếp theo. Các phòng thí nghiệm tìm ra cách đánh giá trước đường cong sẽ là những nơi mở rộng quy mô một cách an toàn. Những nơi không làm được sẽ là những nơi bị bất ngờ.

Vậy chúng ta nên làm gì

Lĩnh vực này cần đầu tư theo cách khác. Không phải bằng vứt bỏ các bài đánh giá hiện tại — chúng hoạt động — mà bằng cách xây dựng cơ sở hạ tầng để dự đoán khi nào chúng sẽ ngừng hoạt động.

Tìm các tham số thứ tự. Những đại lượng nào báo hiệu một sự chuyển đổi định tính — về năng lực, về sự liên kết, về tính cách hành vi? Đây không chỉ là một mong muốn lý thuyết. Shan, Li và Sompolinsky (PNAS, 2026) đã sử dụng cơ chế thống kê để suy ra các tham số thứ tự cho các mạng nơ-ron sâu trong bối cảnh học tập liên tục, và các tham số thứ tự đó thực sự dự đoán các chuyển pha trong khả năng học tập. Nanda và cộng sự (2023) đã sử dụng khả năng diễn giải cơ chế để tìm các "biện pháp tiến bộ" dự đoán hiện tượng grokking trước khi nó xảy ra — những thay đổi cấu trúc nội bộ đi trước sự nhảy vọt về hiệu suất rõ ràng. Thách thức là mở rộng những điều này từ bối cảnh được cách điệu sang các LLM ở quy mô lớn. Nếu chúng ta biết phải đo lường gì, chúng ta sẽ biết phải theo dõi điều gì.

Xây dựng các bài đánh giá phát hiện ra sự lỗi thời của chính chúng — và tiến hóa. Điều này đang trở nên cấp bách hơn khi các mô hình trở nên có tính tác nhân (agentic) hơn. Các hệ thống có thể viết mã, chạy thử nghiệm, tạo dữ liệu và hỗ trợ các quy trình huấn luyện hoặc đánh giá làm cho các bài đánh giá tĩnh ngày càng dễ vỡ. Nếu năng lực mô hình cải thiện nhanh hơn các nhóm đánh giá của con người có thể cập nhật điểm chuẩn, việc đánh giá phải trở nên thích ứng.

Cụ thể: giám sát các tín hiệu siêu (meta-signals) — phân phối điểm số điểm chuẩn có đang thay đổi tính cách không? Cấu trúc tương quan giữa các bài đánh giá có đang dịch chuyển không? Mô hình có đang phát triển các năng lực trực giao với các trục đo lường của bạn không? Theo dõi các đường cong tỷ lệ cho mọi thứ — không chỉ là mất mát (loss), mà còn là độ sâu suy luận, sự tinh vi trong việc sử dụng công cụ, khả năng lừa dối — và chú ý khi một xu hướng trơn tru bị phá vỡ. Tham vọng hơn nữa, hãy xây dựng các bài đánh giá tự tiến hóa: các hệ thống đánh giá sử dụng mô hình để thăm dò các mô hình khác, tự động tạo ra các trường hợp kiểm tra mới khi năng lực thay đổi, phát hiện các chế độ thất bại mà các nhà thiết kế bài đánh giá ban đầu không bao giờ dự đoán. Bộ đánh giá nên là một hệ thống sống cùng tiến hóa với các mô hình mà nó đo lường, không phải là một danh sách kiểm tra tĩnh được viết cho biên giới của năm ngoái.

Câu hỏi không phải là liệu các bài đánh giá của chúng ta có bị bất ngờ hay không — chúng đã bị như vậy, nhiều lần, dù là do chuyển pha thực sự hay do các lựa chọn số liệu của chính chúng ta gây hiểu lầm. Câu hỏi là liệu chúng ta có thấy sự bất ngờ tiếp theo đang đến hay không. Ngay bây giờ, chúng ta sẽ không.