ChatGPT Images 2.0: Bước tiến nhảy vọt trong khả năng tạo văn bản trên hình ảnh

21 tháng 4, 2026·4 phút đọc

Mô hình Images 2.0 mới của OpenAI đã khắc phục triệt để vấn đề chính tả từng là điểm yếu của AI, cho phép tạo ra thực đơn, tài liệu marketing và truyện tranh với độ chính xác cao. Với khả năng tư duy và hỗ trợ đa ngôn ngữ tốt hơn, công cụ này hứa hẹn thay đổi cách thiết kế nội dung số.

ChatGPT Images 2.0: Bước tiến nhảy vọt trong khả năng tạo văn bản trên hình ảnh

ChatGPT Images 2.0: Bước tiến nhảy vọt trong khả năng tạo văn bản trên hình ảnh

Chỉ cách đây vài năm, việc phân biệt hình ảnh do con người tạo và hình ảnh do AI tạo ra là khá dễ dàng. Các mô hình tạo ảnh trước đây thường gặp khó khăn lớn trong việc xử lý văn bản; nếu bạn yêu cầu chúng tạo một thực đơn cho nhà hàng México, kết quả thường là những món ăn bị viết sai chính tả một cách hài hước như “enchuita”, “churiros”, hay “burrto”.

Tuy nhiên, mọi thứ đã thay đổi hoàn toàn với ChatGPT Images 2.0, mô hình tạo ảnh mới nhất của OpenAI. Khi tôi yêu cầu mô hình này tạo một thực đơn món México, kết quả trả về hoàn toàn có thể sử dụng ngay tại một nhà hàng thực tế mà khách hàng khó có thể nhận ra bất kỳ điểm bất thường nào (dù giá ceviche 13,50 USD có thể khiến thực khách nghi ngờ về chất lượng cá).

Thực đơn món México được tạo bởi ChatGPT Images 2.0Thực đơn món México được tạo bởi ChatGPT Images 2.0

Tại sao AI trước đây khó viết chính tả?

Về mặt kỹ thuật, các trình tạo ảnh AI lịch sử thường gặp khó khăn trong việc đánh vần vì chúng chủ yếu sử dụng mô hình khuếch tán (diffusion models). Các mô hình này hoạt động bằng cách tái tạo hình ảnh từ nhiễu.

“Các mô hình khuếch tán […] đang tái tạo một đầu vào nhất định,” Asmelash Teka Hadgu, nhà sáng lập và CEO của Lesan AI, chia sẻ với TechCrunch vào năm 2024. “Chúng ta có thể giả định rằng văn bản trên hình ảnh chỉ là một phần rất, rất nhỏ, do đó trình tạo ảnh học các mẫu bao phủ nhiều pixel hơn thay vì tập trung vào chi tiết văn bản nhỏ.”

Kể từ đó, các nhà nghiên cứu đã khám phá các cơ chế khác cho việc tạo ảnh, chẳng hạn như mô hình tự hồi quy (autoregressive models). Các mô hình này đưa ra dự đoán về hình ảnh nên trông như thế nào và hoạt động tương tự như Mô hình Ngôn ngữ Lớn (LLM), giúp cải thiện đáng kể khả năng xử lý văn bản.

Mặc dù OpenAI từ chối tiết lộ cụ thể loại mô hình nào đang hỗ trợ cho ChatGPT Images 2.0 trong buổi họp báo tuần này, nhưng công ty xác nhận rằng mô hình mới sở hữu “khả năng tư duy”.

Khả năng tư duy và các tính năng mới

OpenAI giải thích rằng khả năng tư duy này cho phép mô hình tìm kiếm trên web, tạo nhiều hình ảnh từ một câu lệnh (prompt) và kiểm tra lại các sáng tạo của chính mình. Điều này cho phép Images 2.0 tạo ra các tài liệu marketing ở nhiều kích thước khác nhau, cũng như các truyện tranh nhiều khung hình phức tạp.

So sánh khả năng tạo ảnh của các phiên bản trướcSo sánh khả năng tạo ảnh của các phiên bản trước

Ngoài ra, OpenAI cho biết Images hiện có khả năng hiểu tốt hơn về việc hiển thị văn bản không phải tiếng Latinh, bao gồm các ngôn ngữ như tiếng Nhật, tiếng Hàn, tiếng Hindi và tiếng Bengal. Kiến thức của mô hình được cắt đứt vào tháng 12 năm 2025, điều này có thể ảnh hưởng đến độ chính xác khi tạo các câu lệnh liên quan đến tin tức gần đây.

“Images 2.0 mang lại mức độ cụ thể và trung thực chưa từng có cho việc tạo ảnh. Nó không chỉ có thể hình dung những hình ảnh tinh vi hơn mà còn thực hiện hóa tầm nhìn đó một cách hiệu quả, có khả năng tuân theo hướng dẫn, giữ lại các chi tiết được yêu cầu và kết xuất các yếu tố chi tiết thường làm hỏng các mô hình ảnh: văn bản nhỏ, biểu tượng, yếu tố UI, bố cục dày đặc và các ràng buộc phong cách tinh tế, tất cả ở độ phân giải lên tới 2K,” OpenAI tuyên bố trong thông cáo báo chí.

Khả dụng và hiệu suất

Nhờ những khả năng này, quá trình tạo ảnh không nhanh chóng như việc đặt một câu hỏi văn bản cho ChatGPT, nhưng việc tạo ra một thứ gì đó phức tạp như một truyện tranh nhiều khung hình vẫn chỉ mất vài phút.

Tất cả người dùng ChatGPT và Codex sẽ có thể truy cập Images 2.0 bắt đầu từ thứ Ba; người dùng trả phí sẽ có thể tạo ra các đầu ra nâng cao hơn. Công ty cũng sẽ cung cấp API gpt-image-2, với mức giá phụ thuộc vào chất lượng và độ phân giải của đầu ra.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗