Trải nghiệm với ChatGPT 5.5 Pro: Khi AI giải quyết bài toán nghiên cứu cấp tiến sĩ

ChatGPT 5.5 Pro mới đây đã gây ấn tượng mạnh khi giải quyết thành công một bài toán nghiên cứu cấp độ tiến sĩ trong lĩnh vực lý thuyết số chỉ trong khoảng một giờ. Kết quả này không chỉ cho thấy khả năng toán học vượt trội của các mô hình ngôn ngữ lớn mà còn đặt ra nhiều câu hỏi về tương lai của giáo dục và nghiên cứu toán học.

Chúng ta liên tục phải điều chỉnh đánh giá của mình về khả năng toán học của các mô hình ngôn ngữ lớn (LLM). Gần đây, tôi đã phải thực hiện một sự điều chỉnh lớn sau khi ChatGPT 5.5 Pro - phiên bản mà tôi may mắn được truy cập - đã tạo ra một công trình nghiên cứu cấp độ tiến sĩ chỉ trong khoảng một giờ, mà gần như không cần sự đầu vào toán học chuyên sâu nào từ tôi.

Bối cảnh là như sau: đã có nhiều báo cáo cho thấy LLM hiện nay có khả năng giải quyết các vấn đề ở cấp độ nghiên cứu, thậm chí giải quyết được một số vấn đề trong danh sách các bài toán của Erdős. Tuy nhiên, ban đầu chúng ta có thể bỏ qua điều này vì nhiều "giải pháp" thực chất chỉ là việc LLM nhận ra câu trả lời đã có sẵn trong tài liệu hoặc dễ dàng suy ra từ các kết quả đã biết. Nhưng dần dần, sự hoài nghi đã giảm bớt. Thông điệp từ các nhà toán học khác là LLM đã đạt đến mức độ: nếu một bài toán có một lập luận dễ dàng mà con người đã bỏ sót (do bất kỳ lý do gì), thì có khả năng cao LLM sẽ tìm ra nó.

Tôi quyết định thử thách ChatGPT 5.5 Pro với một loạt vấn đề trong bài báo của Mel Nathanson về "Đa dạng, Công bằng và Hòa nhập cho các Vấn đề trong Lý thuyết số Cộng". Cụ thể, vấn đề liên quan đến kích thước của sumset (tập tổng) của một tập hợp số nguyên.

Định nghĩa sumset

Nếu $A$ là một tập hợp các số nguyên, thì sumset của nó, ký hiệu là $A+A$, được định nghĩa là tập hợp tất cả các tổng $a+b$ với $a, b \in A$. Nathanson quan tâm đến các kích thước có thể có của $A+A$ cho trước kích thước của $A$. Một câu hỏi tự nhiên là: bạn cần một đường kính (khoảng cách giữa phần tử nhỏ nhất và lớn nhất) lớn như thế nào để có được một tập hợp $A$ với kích thước cho trước và sumset có kích thước quy định.

ChatGPT đã suy nghĩ trong 17 phút 5 giây trước khi cung cấp một cấu trúc mang lại giới hạn trên bậc hai (quadratic upper bound), rõ ràng là tốt nhất có thể. Nó đã viết lại lập luận này thành một file LaTeX giống như một bản tiền in toán học điển hình. Sau khi dành thời gian kiểm tra, tôi xác nhận lập luận đó là hoàn toàn chính xác.

Ý tưởng cơ bản đằng sau cả lập luận của Nathanson và ChatGPT là sử dụng tập Sidon (một tập hợp có sumset kích thước tối đa) và một cấp số cộng. ChatGPT đã đạt được sự cải tiến bằng cách sử dụng một tập Sidon hiệu quả hơn - một ý tưởng tối ưu hóa mà dường như chỉ trở nên rõ ràng sau khi cấu trúc ban đầu được mô tả lại.

Tập hợp A

Isaac Rajagopal, một sinh viên tại MIT có công trình trước đó liên quan đến vấn đề này, đã nhận xét về tính độc đáo của ý tưởng từ ChatGPT. Ông nhận định rằng ChatGPT đã đưa ra một ý tưởng gốc và thông minh, loại ý tưởng mà một con người có thể mất một hoặc hai tuần để suy ngẫm. Cụ thể, ChatGPT đã sử dụng các tập hợp "B-dissociated" để kiểm soát các quan hệ của bậc thấp, một cách tiếp cận được đánh giá là hoàn toàn nguyên bản.

Một câu hỏi lớn được đặt ra là: Chúng ta nên làm gì với những nội dung do AI tạo ra như thế này? Nếu kết quả này do một nhà toán học con người tạo ra, nó chắc chắn sẽ được công bố. Tuy nhiên, có vẻ vô nghĩa khi đưa nó vào một tạp chí khoa học vì nó có thể được cung cấp miễn phí, và không ai cần "ghi nhận" cho nó (trừ Isaac, người xứng đáng được ghi nhận vì đã tạo ra khuôn khổ). arXiv hiện có chính sách không chấp nhận nội dung do AI viết, vì vậy có lẽ chúng ta cần một kho lưu trữ mới dành cho các kết quả do AI tạo ra, đi kèm với một quy trình kiểm duyệt để đảm bảo tính chính xác.

Sự phát triển này có tác động sâu sắc đến việc đào tạo sinh viên tiến sĩ. Việc đào tạo sinh viên mới làm nghiên cứu vốn dĩ đã khó, nay lại càng khó hơn. Một cách rõ ràng để giúp người mới bắt đầu là đưa cho họ một vấn đề "dễ thở". Nhưng nếu LLM đã có thể giải quyết các vấn đề dễ thở, thì cách đó không còn khả thi nữa. Giới hạn thấp để đóng góp cho toán học bây giờ là phải chứng minh điều gì đó mà LLM không thể chứng minh, thay vì chỉ chứng minh điều gì đó chưa ai chứng minh.

Tuy nhiên, sinh viên tiến sĩ có quyền sử dụng LLM. Nhiệm vụ vì thế có thể dễ hơn: chứng minh một cái gì đó trong sự hợp tác với LLM mà LLM không thể tự mình quản lý. Nhưng điều này cũng đặt ra vấn đề về sự bình đẳng, khi không phải ai cũng có quyền truy cập vào các mô hình AI tốt nhất và đắt đỏ nhất. Kỷ nguyên mà việc tiếp cận các tài nguyên đắt đỏ không mang lại lợi thế lớn trong nghiên cứu toán học dường như đã kết thúc.

Sumset A+A

Tóm lại, tương lai của nghiên cứu toán học sẽ thay đổi hoàn toàn. Những người bắt đầu chương trình tiến sĩ vào năm tới sẽ tốt nghiệp trong một thế giới rất khác. Việc đấu tranh với một bài toán khó vẫn có giá trị lớn trong việc xây dựng tư duy và kỹ năng sử dụng AI, nhưng kỷ nguyên mà bạn có thể tận hưởng sự thích thú khi tên mình gắn liền với một định lý cụ thể có thể đang kết thúc.

Trải nghiệm với ChatGPT 5.5 Pro: Khi AI giải quyết bài toán nghiên cứu cấp tiến sĩ

Bài viết liên quan