Trình Theo Dõi Lịch Sử ELO: Phơi Bày Sự "Nerf" và Sự Trỗi Dậy Của Các Mô Hình AI

Một công cụ mới giúp trực quan hóa vòng đời và sự thay đổi hiệu suất của các mô hình AI hàng đầu đã ra mắt. Trình theo dõi này vẽ biểu đồ lịch sử xếp hạng ELO từ Arena AI, giúp người dùng nhận diện rõ ràng những bước nhảy vọt về thế hệ cũng như sự suy giảm hiệu suất mà các nhà cung cấp thường thực hiện sau khi ra mắt.

Bạn có bao giờ cảm thấy một mô hình AI hoạt động tuyệt vời khi mới ra mắt, nhưng vài tuần sau lại có vẻ "kém thông minh" hơn? Một nhà phát triển đã tạo ra một công cụ để trả lời câu hỏi này bằng cách trực quan hóa lịch sử xếp hạng ELO của các mô hình AI hàng đầu.

Thay vì một biểu đồ lộn xộn chứa mọi biến thể của mô hình, công cụ này vẽ chính xác một đường cong liên tục cho mỗi phòng thí nghiệm AI lớn. Nó theo dõi động mô hình chủ lực có xếp hạng cao nhất của họ theo thời gian, giúp làm nổi bật cả những bước nhảy vọt về thế hệ lẫn sự suy giảm hiệu suất chậm chạp.

Tại sao công cụ này lại tồn tại?

Các phòng thí nghiệm AI thường xuyên cập nhật các mô hình của mình sau khi ra mắt. Những bản cập nhật này đôi khi dẫn đến việc mô hình bị "làm yếu đi" (nerf), chẳng hạn như kiểm duyệt quá mức, lượng tử hóa (quantization) quá mức để tiết kiệm chi phí tính toán, hoặc sự suy giảm về hành vi. Biểu đồ này giúp phơi bày những xu hướng ẩn gián đó mà người dùng thông thường khó nhận ra.

API so với Giao diện Web người dùng

Tuy nhiên, tác giả của dự án chỉ ra một điểm mù quan trọng về dữ liệu. LMSYS Arena chủ yếu kiểm tra hiệu suất mô hình thông qua các điểm cuối API (mô hình "nguyên bản"). Trong khi đó, các giao diện trò chuyện dành cho người tiêu dùng (như gemini.com hay chatgpt.com) thường thêm các system prompt, bộ lọc an toàn và các lớp bao bọc đặc thù cho giao diện mà không có trong API nguyên bản.

Các nhà cung cấp cũng có thể âm thầm chuyển sang các phiên bản mô hình đã được lượng tử hóa (độ chính xác thấp hơn) để tiết kiệm tài nguyên tính toán trong thời điểm tải cao, dẫn đến việc người dùng web cảm thấy mô hình bị "làm yếu đi" mà các điểm chuẩn API không thể ghi nhận đầy đủ.

Nguồn dữ liệu và Logic biểu đồ

Dữ liệu được tự động lấy hàng ngày từ Bộ dữ liệu Bảng xếp hạng LM Arena chính thức trên Hugging Face. Arena dựa vào hàng nghìn đánh giá của con người theo phương pháp mù (blind), khiến nó trở thành thước đo mạnh mẽ nhất về khả năng thực tế của mô hình.

Về mặt logic biểu đồ, mỗi phòng thí nghiệm AI lớn sẽ có một đường cong đại diện cho dòng sản phẩm chủ lực của họ. Tại mỗi thời điểm, đường cong sẽ theo dõi mô hình đủ điều kiện là chủ lực có xếp hạng cao nhất trên bảng xếp hạng — không chỉ là mô hình được công bố gần nhất.

Các biến thể chế độ suy luận (inference-mode) như -thinking, -reasoning, và -high được gộp lại vì chúng thực chất là cùng một mô hình cơ bản ở chế độ khác nhau. Điều này giúp đường cong không bị dao động liên tục. Các bản phát hành mới được hiển thị dưới dạng các điểm đánh dấu, thường đi kèm với sự tăng điểm số, trong khi bất kỳ xu hướng giảm nào trong vòng đời của mô hình đều được hiển thị rõ ràng.

Kêu gọi cộng đồng

Tác giả hiện đang tìm kiếm các bộ dữ liệu lịch sử ELO hoặc đánh giá cụ thể lấy hoặc kiểm tra đầu ra từ các giao diện web người dùng thay vì API thô. Điều này sẽ giúp tích hợp dữ liệu để có một bức tranh chính xác hơn về trải nghiệm của người tiêu dùng. Dự án này là mã nguồn mở và tác giả rất mong nhận được phản hồi hoặc gợi ý về các nguồn dữ liệu từ cộng đồng.