Antigravity 2.0 dẫn đầu cuộc đua AI lập trình 3D với benchmark OpenSCAD

Một bài kiểm tra thực tế từ ModelRift đã yêu cầu các công cụ AI tạo mã OpenSCAD để xây dựng mô hình đền Pantheon. Kết quả cho thấy Google Antigravity 2.0 vượt trội ở chế độ tự động, trong khi sự kết hợp giữa AI và con người vẫn mang lại hiệu quả cao nhất.

ModelRift, nền tảng chuyên về tạo mô hình 3D, mới đây đã thực hiện một bài kiểm tra benchmark thực tế thú vị: yêu cầu các công cụ lập trình AI khác nhau thực hiện cùng một nhiệm vụ—xây dựng đền Pantheon bằng ngôn ngữ OpenSCAD. Vì khả năng xử lý hình học không gian của các mô hình ngôn ngữ lớn (LLM) ảnh hưởng trực tiếp đến chất lượng sản phẩm, ModelRift đã quyết định đánh giá xem các hệ thống này chuyển đổi tài liệu kiến trúc thành mã CAD tham số tốt đến mức nào.

Tổng quan kết quả benchmark

Tại sao lại chọn Pantheon và OpenSCAD?

Đây không phải là một bài kiểm tra cú pháp OpenSCAD cơ bản. Hầu hết các LLM lập trình hiện nay đều có thể tạo ra một mô hình "khối lập phương có lỗ" đơn giản một cách hoàn hảo. Tuy nhiên, Pantheon lại là một thử thách ở mức độ trung gian: nó đòi hỏi sự kết hợp giữa đối xứng trục (radial symmetry), các phép toán Boolean, các hình trụ, hình hộp và các hình khối kiến trúc sạch sẽ.

Pantheon bao gồm một rotunda (tháp tròn) lớn, mái vòm, một portico (hàng cột) phía trước, các cột trụ, bậc thang và một fronton hình tam giác. Sự pha trộn này làm cho nó trở thành một bài kiểm tra minh họa tuyệt vời mà không phải là bất khả thi.

Hình ảnh tham khảo cho nhiệm vụ

OpenSCAD được chọn là mục tiêu vì đây là mã văn bản thuần túy với vốn từ vựng nhỏ gọn. Một tác nhân AI có thể mô tả tòa nhà thông qua các phép biến đổi lồng nhau, các phép toán Boolean và các module có tên—cách tiếp cận này gần với cách các mô hình ngôn ngữ suy luận về cấu trúc hơn là yêu cầu chúng điều khiển một ứng dụng 3D qua giao diện người dùng.

Kết quả benchmark: Antigravity 2.0 lên ngôi

Sáu kết quả benchmark hiện tại đã được đánh giá dựa trên thời gian thực hiện và chất lượng mô hình.

Google Antigravity 2.0 / Gemini 3.5 Flash High là kết quả tự chủ tốt nhất. Mặc dù mất khoảng 12 phút (điểm thấp về tốc độ), nhưng chất lượng đạt 4,5/5. Điểm ấn tượng là Antigravity đã tìm kiếm các thông số thực tế của Pantheon thay vì chỉ ước lượng qua hình ảnh. Nó sử dụng các phép đo chính xác cho rotunda, mái vòm và portico. Đặc biệt, đây là tác nhân duy nhất triển khai thành công mẫu trần ô vuông (coffered ceiling) đặc trưng bên trong mái vòm và cung cấp chế độ cắt ngang (cutaway mode) để xem cả nội thất và ngoại thất.

ModelRift / Gemini Flash 3.0 là người chiến thắng ở nhóm có sự can thiệp của con người (human-in-the-loop). Với quy trình làm việc chú thích lặp lại của ModelRift, kết quả này đạt điểm 3,8/5. Việc cho phép người dùng vẽ ghi chú trực tiếp lên kết quả kết xuất giúp AI sửa chữa chính xác hơn các chi tiết không gian so với chỉ dùng văn bản.

Codex 5.5 High tạo ra mô hình có chi tiết dày đặc nhất, bao gồm cả dòng chữ khắc trên dầm ngang: "M AGRIPPA L F COS TERTIVM FECIT". Tuy nhiên, nó gặp vấn đề ở bước xuất khẩu: hình ảnh xem trước (PNG) trông tốt hơn nhiều so với tệp STL cuối cùng, nơi xuất hiện các bề mặt trần lạ ở khu vực mái portico. Nếu chỉ chấm điểm dựa trên PNG, Codex sẽ đứng ngay sau Antigravity.

Vấn đề xuất khẩu của Codex

Claude Code (Sonnet 4.6) tạo ra mô hình sạch nhất trong lô tự chủ ban đầu với tỷ lệ cân đối, nhưng lại là mô hình chậm nhất. Cursor Composer 2.5 là công cụ nhanh nhất nhưng cho ra kết quả yếu nhất về mặt kiến trúc và chi tiết.

Bài học rút ra

Từ bài kiểm tra này, một số điểm chính đã được làm rõ:

OpenSCAD là ngôn ngữ phù hợp cho LLM: Cú pháp nhỏ gọn và đầu ra xác định giúp các LLM dễ dàng sử dụng mà không cần hướng dẫn nhiều.
Sử dụng công cụ không phải là nút thắt: Mọi tác nhân đều gọi OpenSCAD CLI để kết xuất PNG xem trước thành công. Yếu tố khó khăn là phán đoán hình học, không phải kỹ thuật kết nối phần mềm.
Tốc độ không dự báo chất lượng: Cursor hoàn thành nhanh nhất nhưng kết quả kém nhất. Ngược lại, các mô hình chậm hơn như Antigravity và Claude Sonnet lại cho kết quả chất lượng cao hơn.
Xem trước khác với xuất khẩu: Codex đã chứng minh rằng một bản xem trước đẹp không đảm bảo tệp lưới (mesh) xuất khẩu cuối cùng sẽ hoàn hảo. Đối với các dự án in 3D, việc kiểm tra tệp xuất khẩu là bắt buộc.

Hiện tại, chưa có mô hình nào tạo ra một bản sao kiến trúc hoàn hảo của Pantheon. Tuy nhiên, việc các hệ thống AI có thể tạo ra mã OpenSCAD hợp lệ chỉ từ hai hình ảnh tham khảo và một câu lệnh ngắn gọn là một bước tiến lớn. Mặc dù việc tạo sinh tự động hoàn toàn chưa phải là quy trình tối ưu cho các tác vụ không gian phức tạp này, nhưng sự kết hợp giữa AI và con người thông qua phản hồi trực quan đang cho thấy tiềm năng rất lớn.

Antigravity 2.0 dẫn đầu cuộc đua AI lập trình 3D với benchmark OpenSCAD

Bài viết liên quan