So sánh 118 mô hình AI trong thử thách tạo hình ảnh SVG: Chuột hamster chơi bóng bàn

Một cuộc kiểm tra quy mô lớn đã so sánh khả năng viết mã SVG của 118 mô hình AI khác nhau, với yêu cầu tạo hình ảnh một chú chuột hamster chơi bóng bàn. Kết quả cho thấy sự phân hóa rõ rệt về chi phí, tốc độ xử lý và độ chính xác giữa các dòng mô hình như Gemini, GPT và Claude.

Thử thách tạo sinh mã SVG

Nhiệm vụ được đưa ra cho các mô hình AI tưởng chừng đơn giản nhưng lại đòi hỏi khả năng lập trình và tư duy không gian chính xác: "Create a detailed SVG illustration of a hamster playing table tennis" (Tạo một hình minh họa SVG chi tiết về một chú chuột hamster đang chơi bóng bàn).

Đây không chỉ là bài kiểm tra khả năng vẽ tranh, mà là bài kiểm tra kỹ năng viết mã (coding) của AI, vì SVG thực chất là một định dạng dựa trên XML. Mô hình phải tự viết ra các dòng mã để định hình hình ảnh mà không có sự hỗ trợ của công cụ đồ họa trực quan.

Kết quả và hiệu suất

Theo dữ liệu từ bảng xếp hạng, tổng cộng có 118 mô hình đã được thử nghiệm. Trong số đó, 89 mô hình tạo ra mã hợp lệ (Valid), nhưng vẫn có 29 mô hình thất bại (Invalid) trong việc tạo ra cấu trúc SVG đúng chuẩn.

Quá trình chạy thử nghiệm này tiêu tốn tổng cộng 3 giờ 10 phút và chi phí khoảng 2,19 USD.

Các mô hình nổi bật

Dưới đây là một số cái tên dẫn đầu và có kết quả đáng chú ý trong bài test:

Gemini 3 Flash Preview: Đây là một trong những mô hình ấn tượng nhất về hiệu suất tổng hợp. Nó hoàn thành nhiệm vụ chỉ trong 17,9 giây với chi phí cực thấp, chỉ khoảng 0,010 USD.
Qwen3.7 Max: Mô hình này cũng hoàn thành tốt nhiệm vụ với chi phí thấp (0,017 USD) và thời gian xử lý ở mức chấp nhận được (68,8 giây).
Claude Opus 4.8: Phiên bản này của Claude hoàn thành nhiệm vụ trong 23,1 giây với chi phí 0,057 USD, được đánh giá chất lượng hình ảnh ở mức trung bình (medium).
GPT-5.5: Trong danh sách thử nghiệm xuất hiện các phiên bản GPT tương lai như GPT-5.5 hay GPT-5.4. GPT-5.5 hoàn thành trong 37 giây với chi phí 0,068 USD, tuy nhiên chất lượng đầu ra được đánh giá là thấp (low).

Những thất bại và vấn đề phát sinh

Không phải mọi mô hình đều vượt qua bài test. Một ví dụ điển hình là Gemini 2.5 Flash, dù có thời gian xử lý khá lâu (274 giây) nhưng kết quả lại được đánh giá là Invalid SVG (SVG không hợp lệ), nghĩa là mã lệnh được tạo ra có lỗi cú pháp và không thể hiển thị hình ảnh.

Ngoài ra, sự chênh lệch về số lượng token sử dụng cũng rất lớn. Trong khi một số mô hình như GPT-5.2 Chat chỉ dùng 797 token, thì những mô hình khác như Qwen3.7 Plus tiêu tốn tới hơn 10.000 token cho cùng một yêu cầu.

Kết luận

Bài kiểm tra này cung cấp cái nhìn thực tế về khả năng sinh mã của các mô hình AI hiện nay. Trong khi các mô hình mới như dòng Gemini Flash cho thấy tiềm năng lớn về tốc độ và tiết kiệm chi phí, thì sự ổn định và độ chính xác vẫn là những thách thức mà nhiều "ông lớn" trong làng AI đang phải đối mặt. Đối với các nhà phát triển, việc lựa chọn mô hình phù hợp phụ thuộc không chỉ vào chất lượng đầu ra mà còn vào chi phí tính toán và tốc độ phản hồi.

So sánh 118 mô hình AI trong thử thách tạo hình ảnh SVG: Chuột hamster chơi bóng bàn

Thử thách tạo sinh mã SVG

Kết quả và hiệu suất

Các mô hình nổi bật

Những thất bại và vấn đề phát sinh

Kết luận

Bài viết liên quan