OpenAI ra mắt GPT-5.5: Mô hình AI mạnh mẽ nhất hiện nay, vượt mặt Claude Mythos Preview trên Terminal-Bench 2.0

OpenAI chính thức ra mắt GPT-5.5, mô hình ngôn ngữ lớn (LLM) mới nhất được đánh giá là mạnh nhất hiện nay. Với khả năng lập trình vượt trội và hiệu suất "agentic" ấn tượng, GPT-5.5 đã vượt qua đối thủ Claude Mythos Preview của Anthropic trên benchmark Terminal-Bench 2.0, dù đi kèm mức giá API cao hơn.

Sau nhiều tháng đồn đoán về một mô hình ngôn ngữ lớn (LLM) mới mạnh mẽ hơn với tên mã nội bộ là "Spud", OpenAI hôm nay đã chính thức ra mắt sản phẩm mới nhất của mình dưới tên gọi GPT-5.5.

Và có lẽ không ai ngạc nhiên khi GPT-5.5 hoàn toàn không phải là một "củ khoai tây" theo nghĩa tiêu cực. Mô hình này đã giúp OpenAI giành lại vị trí dẫn đầu trong số các LLM được phát hành rộng rãi, vượt qua các đối thủ như Anthropic và Google, thậm chí còn đánh bại narrowly (sát nút) mô hình riêng tư Claude Mythos Preview của Anthropic trên một benchmark cụ thể.

"Đây chắc chắn là mô hình mạnh nhất của chúng tôi cho đến nay về mặt lập trình, dựa trên cả các bài đo lường benchmark và phản hồi từ các đối tác tin cậy cũng như kinh nghiệm của chính chúng tôi," Amelia "Mia" Glaese, Phó Chủ tịch Nghiên cứu của OpenAI, chia sẻ trong một cuộc gọi báo chí trước buổi ra mắt.

OpenAI định vị GPT-5.5 là một sự thiết kế lại cơ bản cách thức trí tuệ nhân tác tương tác với hệ điều hành máy tính và các phần mềm chuyên nghiệp.

"Điều thực sự đặc biệt về mô hình này là nó có thể làm được nhiều việc hơn với ít hướng dẫn hơn nhiều," Greg Brockman, đồng sáng lập và Chủ tịch của OpenAI, cho biết. "Nó trực quan hơn nhiều khi sử dụng. Nó có thể nhìn vào một vấn đề mơ hồ và tìm ra những gì cần làm tiếp theo."

Tập trung vào khả năng "Tác nhân" (Agentic)

Tại cốt lõi của GPT-5.5 là sự tập trung vào hiệu suất "agentic" (tác nhân) — cụ thể là trong lập trình, sử dụng máy tính và nghiên cứu khoa học.

Khác với các tiền nhiệm thường yêu cầu các câu lệnh chi tiết từng bước một để tránh "ảo giác" đường đi, GPT-5.5 được thiết kế để xử lý các nhiệm vụ lộn xộn, nhiều phần một cách tự chủ. Nó xuất sắc trong việc nghiên cứu trực tuyến, gỡ lỗi các cơ sở mã phức tạp và di chuyển giữa tài liệu và bảng tính mà không cần sự can thiệp của con người.

Một trong những bước nhảy vọt kỹ thuật quan trọng nhất là hiệu quả của mô hình. Trong khi các mô hình lớn hơn thường bị tăng độ trễ, GPT-5.5 có độ trễ trên mỗi token tương đương với GPT-5.4 trước đó nhưng mang lại mức độ thông minh cao hơn.

Điều này đạt được thông qua sự đồng thiết kế phần cứng-phần mềm sâu sắc. OpenAI chạy GPT-5.5 trên các hệ thống NVIDIA GB200 và GB300 NVL72, sử dụng các thuật toán heuristic tùy chỉnh — được viết bởi chính AI — để phân chia và cân bằng công việc trên các lõi GPU. Sự tối ưu hóa này được cho là đã tăng tốc độ tạo token hơn 20%.

Đối với lý luận cao độ, chế độ "GPT-5.5 Thinking" trong ChatGPT cung cấp câu trả lời thông minh và ngắn gọn hơn bằng cách cho phép mô hình có nhiều "thời gian tính toán" nội bộ hơn để xác minh các giả định của chính nó trước khi phản hồi.

Các Benchmark cho thấy OpenAI đã giành lại vị trí dẫn đầu

Cuộc đua giữa các mô hình tiên phong của Mỹ đang trở nên ngày càng khốc liệt giữa OpenAI, Anthropic và Google.

Chỉ một tuần trước, đối thủ Anthropic đã phát hành Opus 4.7, mô hình mạnh nhất của họ dành cho công chúng. Tuy nhiên, hôm nay GPT-5.5 đã vượt qua nó và thậm chí cả mô hình Claude Mythos Preview mạnh mẽ nhưng bị hạn chế của Anthropic, mặc dù chỉ trên một benchmark là Terminal-Bench 2.0 — kiểm tra "khả năng điều hướng và hoàn thành nhiệm vụ của mô hình trong môi trường terminal".

GPT-5.5 đạt độ chính xác 82,7% trên Terminal-Bench 2.0, vượt trội so với Opus 4.7 (69,4%) và đánh bại sát nút Mythos Preview (82,0%).

Tuy nhiên, trong lý luận đa ngành mà không sử dụng công cụ, bối cảnh cạnh tranh khốc liệt hơn. Trong bài kiểm tra "Humanity's Last Exam" không công cụ, GPT-5.5 Pro đạt 43,1%, xếp sau Opus 4.7 (46,9%) và Mythos Preview (56,8%).

Điều này cho thấy虽然 OpenAI đang thắng về "sử dụng máy tính" và "khả năng tác nhân", các mô hình khác vẫn có thể có lợi thế về kiến thức học thuật thuần túy.

Vì Mythos Preview không phải là sản phẩm đại chúng, cuộc cạnh tranh thị trường chính vẫn nằm giữa GPT-5.5, Gemini 3.1 Pro và Claude Opus 4.7. Đối với những mô hình mà công chúng có thể truy cập, GPT-5.5 đã giành lại vương miện cho OpenAI, đạt hiệu suất hàng đầu trên 14 benchmark so với 4 của Claude Opus 4.7 và 2 của Google Gemini 3.1 Pro.

Chi phí tăng cao cho người dùng

Sự gia tăng về trí tuệ đi kèm với việc tăng giá đáng kể cho các nhà phát triển API. OpenAI đã thực sự tăng gấp đôi giá nhập cho mô hình flagship so với thế hệ trước, và tăng gấp đôi nữa cho biến thể tiên tiến nhất, GPT-5.5 Pro:

GPT-5.4: $2,50 (Input) / $15,00 (Output) cho mỗi 1M token.
GPT-5.5: $5,00 (Input) / $30,00 (Output) cho mỗi 1M token.
GPT-5.5 Pro: $30,00 (Input) / $180,00 (Output) cho mỗi 1M token.

Để giảm thiểu chi phí này, OpenAI nhấn mạnh rằng GPT-5.5 hiệu quả hơn về token, nghĩa là nó sử dụng ít token hơn để hoàn thành cùng một nhiệm vụ so với GPT-5.4.

Cấp phép và biên giới "cho phép mạng" (Cyber-permissive)

Cách tiếp cận của OpenAI đối với an toàn và cấp phép cho GPT-5.5 giới thiệu một khái niệm mới: Trusted Access for Cyber. Vì mô hình hiện nay có khả năng xác định và vá các lỗ hổng bảo mật nâng cao, OpenAI đã triển khai các "bộ phân loại rủi ro mạng" nghiêm ngặt hơn cho người dùng chung.

Tuy nhiên, đối với các chuyên gia bảo mật hợp pháp, OpenAI đang cung cấp giấy phép "cyber-permissive" chuyên biệt. Chương trình này cho phép những người bảo vệ được xác minh — những người chịu trách nhiệm về cơ sở hạ tầng quan trọng như lưới điện hoặc nguồn nước — sử dụng các mô hình như GPT-5.4-Cyber hoặc phiên bản GPT-5.5 không bị hạn chế với ít từ chối hơn đối với các lời nhắc liên quan đến bảo mật.

Phản ứng ban đầu: Mất quyền truy cập giống như bị cắt cụt chi

Phản hồi ban đầu từ những người dùng chuyên sâu và các kỹ sư cho thấy GPT-5.5 đã vượt qua một ngưỡng tâm lý về tính hữu dụng của AI. Đối với các nhà phát triển, khả năng duy trì "sự rõ ràng về khái niệm" trên các cơ sở mã khổng lồ là tính năng nổi bật nhất.

"Mô hình lập trình đầu tiên tôi sử dụng có sự rõ ràng về khái niệm nghiêm túc," Dan Shipper, CEO của Every, nhận xét.

Có lẽ phản ứng chân thật nhất đến từ một kỹ sư ẩn danh tại NVIDIA, người có quyền truy cập sớm vào mô hình:

"Mất quyền truy cập vào GPT-5.5 cảm giác như thể tôi bị cắt cụt một chi."

Cảm giác này cũng được phản ánh trong cộng đồng khoa học. Derya Unutmaz, giáo sư tại Phòng thí nghiệm Y học Genomic Jackson, đã sử dụng GPT-5.5 Pro để phân tích một tập dữ liệu gồm 28.000 gen, tạo ra một báo cáo trong vài phút mà thông thường đội của ông ấy phải mất hàng tháng.

GPT-5.5 không chỉ là một bản cập nhật gia tăng; nó là một công cụ được thiết kế cho một thế giới nơi con người ủy quyền toàn bộ quy trình làm việc thay vì các câu lệnh đơn lẻ. Mặc dù chi phí cao hơn và các rào chắn an toàn chặt chẽ hơn, những lợi ích về hiệu suất trong công việc tác nhân cho thấy AI cuối cùng đang chuyển từ hộp chat sang hệ điều hành.

"Chúng tôi thực sự vẫn còn dư địa để đào tạo các mô hình thông minh hơn đáng kể so với cái này," Jakub Pachocki, nhà khoa học trưởng của OpenAI, cho biết.