Google ra mắt Aletheia: AI tự chủ giải quyết các bài toán nghiên cứu toán học cấp cao

Google vừa công bố Aletheia, một hệ thống AI sử dụng mô hình Gemini 3 Deep Think có khả năng giải quyết 6/10 bài toán toán học mới lạ trong thử thách FirstProof. Với khả năng hoạt động hoàn toàn tự chủ và tỷ lệ chính xác cao, Aletheia đánh dấu bước tiến quan trọng trong việc khám phá các chứng minh toán học ở cấp độ nghiên cứu mà không cần sự can thiệp của con người.

Google vừa công bố Aletheia, một hệ thống trí tuệ nhân tạo sử dụng mô hình Gemini 3 Deep Think, đã giải quyết thành công 6 trong số 10 bài toán toán học mới lạ trong thử thách FirstProof. Ngoài ra, Aletheia còn đạt điểm số khoảng 91,9% trên IMO-ProofBench, tín hiệu cho thấy sự thay đổi lớn trong việc tự động hóa khám phá các chứng minh toán học ở cấp độ nghiên cứu mà không cần sự can thiệp của con người.

Khác với các chuẩn mực (benchmark) truyền thống thường gặp phải vấn đề ô nhiễm dữ liệu – nơi các mô hình vô tình ghi nhớ dữ liệu huấn luyện – thử thách FirstProof bao gồm mười định lý toán học cấp độ nghiên cứu chưa từng được công bố. Vì các bài toán này được lấy từ các công trình đang thực hiện của các nhà toán học và chưa bao giờ được đăng tải trực tuyến, nên gần như không thể để AI đã từng nhìn thấy chúng trước đó. Hơn nữa, các tham gia chỉ có một tuần để gửi giải pháp.

Sơ đồ kiến trúc của Aletheia

Khi được đưa ra các đề bài thô mà không có gợi ý hay vòng đối thoại của con người, Aletheia đã tạo ra các chứng minh ứng viên hoàn toàn tự chủ. Các chuyên gia đánh giá người đã chấm điểm 6 trong số 10 giải pháp đề xuất là "có thể xuất bản sau khi sửa đổi nhỏ". Đáng chú ý, giải pháp cho Bài toán 8 được đánh giá là đúng bởi 5/7 chuyên gia, trong khi những người còn lại tiếc nuối vì thiếu các chi tiết làm rõ. Quan trọng hơn, đối với 4 bài toán còn lại, Aletheia đã rõ ràng đưa ra kết quả "Không tìm thấy giải pháp" hoặc hết thời gian, thay vì bị ảo giác tạo ra một câu trả lời thuyết phục nhưng sai lệch.

Các nhà nghiên cứu từ DeepMind nhận định:

"Tính năng tự lọc này là một trong những nguyên tắc thiết kế chính của Aletheia; chúng tôi coi độ tin cậy là nút thắt cổ chai chính để mở rộng quy mô hỗ trợ của AI trong nghiên cứu toán học. Chúng tôi nghi ngờ rằng... nhiều nhà nghiên cứu thực tế sẽ sẵn sàng đánh đổi khả năng giải quyết vấn đề thô để lấy độ chính xác cao hơn."

OpenAI cũng đã giải quyết thử thách này với một mô hình suy luận nội bộ chưa được phát hành. Họ ban đầu báo cáo đã giải quyết 6 trong số 10 bài toán, nhưng ước tính đó sau đó đã được sửa đổi giảm xuống còn 5 sau khi giải pháp cho Bài toán 2 được phát hiện có lỗi logic. Khác với quy trình tự động hóa zero-shot nghiêm ngặt của DeepMind, OpenAI thừa nhận dựa vào sự giám sát hạn chế của con người để đánh giá thủ công và chọn ra đầu ra tốt nhất từ nhiều lần thử.

Kiến trúc và Cơ chế hoạt động

Dưới bề mặt, Aletheia tận dụng kiến trúc Gemini 3 Deep Think, dựa vào việc tính toán mở rộng "thời gian kiểm tra" (test-time compute). Hệ thống sử dụng khung đa tác nhân (multi-agent framework) bao gồm:

Generator (Trình tạo): Đề xuất các bước logic.
Verifier (Trình xác minh): Đánh giá các bước để tìm lỗi sai.
Reviser (Trình sửa đổi): Lặp lại và vá lỗi.

Bằng cách tích hợp các công cụ bên ngoài như Google Search, tác nhân có thể điều hướng qua tài liệu hiện có để xác minh các khái niệm và ít có khả năng đưa ra các trích dẫn vô căn cứ – vấn đề thường gặp ở các Mô hình Ngôn ngữ Lớn (LLM).

Như đã khám phá trong một phân tích sâu của Luhui Dev, Aletheia giống như một vòng lặp nghiên cứu nghiêm ngặt, có thể chạy được, tương tự như pipeline CI/CD cho toán học: đề xuất, xác minh, thất bại, sửa chữa và hợp nhất. LLM đóng vai trò là trình tạo ứng viên sáng tạo, trong khi một tác nhân thứ hai đóng vai trò là người đánh giá ngang hàng (peer reviewer) để thúc đẩy việc khắc phục.

Thách thức và Hướng đi tương lai

Tuy nhiên, các nhà nghiên cứu cũng lưu ý trong bài viết "Towards Autonomous Mathematics Research" rằng mặc dù tiến bộ đã đáng kể trong vài tháng qua, nhưng sự tự chủ hoàn toàn vẫn chưa đạt được:

"Ngay cả với cơ chế xác minh của mình, Aletheia vẫn dễ mắc lỗi hơn các chuyên gia con người. Hơn nữa, bất cứ khi nào có sự mơ hồ, mô hình có xu hướng hiểu sai câu hỏi theo cách dễ trả lời nhất... Điều này phù hợp với xu hướng nổi tiếng là 'specification gaming' và 'reward hacking' trong học máy."

Các nhà toán học đứng sau sáng kiến này đã đang làm việc cho lần lặp lại thứ hai. Một lô bài toán thứ hai sẽ được tạo ra, kiểm tra và chấm điểm từ tháng 3 đến tháng 6 năm 2026, lần này được thiết kế dưới dạng một chuẩn mực hoàn toàn chính thức.

Google ra mắt Aletheia: AI tự chủ giải quyết các bài toán nghiên cứu toán học cấp cao

Kiến trúc và Cơ chế hoạt động

Thách thức và Hướng đi tương lai

Bài viết liên quan