Phân tích Dữ liệu ICLR 2026: Bức tranh về Các Tổ chức Đang Dẫn dắt Nghiên cứu AI
Một bộ dữ liệu mới phân tích 5.356 bài báo được chấp nhận tại ICLR 2026 đã được công bố, cung cấp cái nhìn chi tiết về các tổ chức học thuật và công ty công nghệ đang dẫn đầu trong lĩnh vực trí tuệ nhân tạo. Dự án sử dụng quy trình phân tích trực tiếp từ file PDF để đảm bảo tính chính xác về đơn vị liên kết, tránh các sai lệch thường gặp từ hồ sơ người dùng.

Hội nghị ICLR (International Conference on Learning Representations) 2026 là một trong những sự kiện hàng đầu trong lĩnh vực trí tuệ nhân tạo và học máy. Gần đây, một dự án mã nguồn mở trên GitHub đã thu hút sự chú ý khi cung cấp một bộ dữ liệu và phân tích chi tiết về các đơn vị trực thuộc (institutional affiliations) của các bài báo được chấp nhận tại hội nghị này.
Dự án do Dmytro Lopushanskyy thực hiện nhằm mục đích trả lời câu hỏi: Ai đang thực sự định hình nghiên cứu AI ngay lúc này? Thay vì dựa vào các thống kê sơ khai, dự án này đã xây dựng một quy trình xử lý dữ liệu (pipeline) hoàn chỉnh để chuyển đổi 5.356 bài báo thành một bộ dữ liệu sạch và các biểu đồ trực quan.
Biểu đồ Treemap các tổ chức hàng đầu tại ICLR 2026
Giải quyết vấn đề "trôi dạt" hồ sơ trên OpenReview
Một trong những thách thức lớn khi phân tích dữ liệu khoa học là sự không chính xác trong hồ sơ tác giả trên các nền tảng như OpenReview. Thông thường, khi một tác giả cập nhật công việc hiện tại của họ, thông tin mới này sẽ hiển thị trên tất cả các bài báo cũ mà họ đã từng viết. Điều này dẫn đến việc một bài viết thực tế được thực hiện tại Đại học British Columbia (UBC) lại có thể bị gán nhãn sai là thuộc về một tổ chức khác nơi tác giả hiện đang làm việc.
Để khắc phục vấn đề này, dự án đã sử dụng phương pháp trích xuất thông tin trực tiếp từ phần tiêu đề (title block) trong file PDF của bài báo, thay vì dựa vào hồ sơ công khai của tác giả. Cách tiếp cận này đảm bảo rằng đơn vị liên kết phản ánh chính xác thời điểm bài nghiên cứu được thực hiện.
Dữ liệu và Phương pháp phân tích
Bộ dữ liệu công bố bao gồm nhiều tệp tin CSV và XLSX với thông tin chi tiết về:
- Danh sách tác giả và đơn vị liên kết được trích xuất từ PDF.
- Tên chuẩn hóa của các tổ chức (ví dụ: MIT, Massachusetts Institute of Technology, MIT CSAIL đều được gộp chung thành MIT).
- Quốc gia và khu vực của các đơn vị nghiên cứu.
- Tóm tắt (abstract) và đường dẫn đến bài báo trên OpenReview.
Quy trình phân tích sử dụng khoảng 250 quy tắc regex để chuẩn hóa tên các tổ chức, giúp loại bỏ sự trùng lặp do khác biệt về cách viết tắt hoặc ngôn ngữ. Các tổ chức trong Top 50 được đánh giá là ổn định qua nhiều phương pháp đếm khác nhau (đếm duy nhất, chỉ tác giả đầu tiên, hoặc chia nhỏ tín nhiệm).
Biểu đồ trực quan hóa dữ liệu
Chi tiết kỹ thuật và Công cụ
Dự án cung cấp một pipeline hoàn toàn tự động hóa bằng Python, cho phép bất kỳ ai cũng có thể tái tạo lại biểu đồ hoặc cập nhật dữ liệu cho các hội nghị khác trong tương lai. Trình phân tích PDF (parser) được thiết kế để xử lý 4 mẫu bố cục phổ biến trong các bài báo khuôn mẫu ICLR, bao gồm cả các bài báo từ các công ty công nghệ lớn thường sử dụng định dạng khác với academia.
Kết quả cho thấy 96% số bài báo được phân tích thành công, trong khi 4% còn lại sẽ sử dụng dữ liệu dự phòng từ hồ sơ OpenReview và được ghi chú rõ ràng trong cột Affiliation_source.
Tài nguyên và Mở rộng
Toàn bộ mã nguồn và dữ liệu đều được cấp phép theo MIT, khuyến khích cộng đồng nghiên cứu và các kỹ sư AI sử dụng cho các mục đích phân tích sâu hơn. Những ai quan tâm có thể clone kho GitHub này và chạy các lệnh Python có sẵn để tạo ra các biểu đồ Treemap dạng PNG hoặc SVG.
Đây là một nguồn tài liệu quý giá cho những ai muốn theo dõi xu hướng nghiên cứu AI, sự phân bổ nguồn lực giữa các viện nghiên cứu học thuật và các tập đoàn công nghệ, cũng như sự dịch chuyển trọng tâm nghiên cứu trên toàn cầu.
Bài viết liên quan

Công nghệ
Cerebras, đối tác thân thiết của OpenAI, sẵn sàng cho đợt IPO kỷ lục định giá tới 26,6 tỷ USD
04 tháng 5, 2026

Công nghệ
Microsoft giới thiệu Surface Pro 12 và Surface Laptop 8: Sức mạnh chip Intel, giá thành gây sốc
19 tháng 5, 2026
Công nghệ
Trang web ngăn chặn tự tử tại Hà Lan bị phát hiện chia sẻ dữ liệu người dùng cho các công ty công nghệ
13 tháng 5, 2026
