Khi 11 mô hình AI tham gia Battle Royale: Grok chiến thắng nhờ sự hung hăng, Claude thất bại vì quá "lịch sự"?

Một thử nghiệm độc đáo đã thả 11 mô hình ngôn ngữ lớn (LLM) vào một trò chơi Battle Royale 2D để xem AI nào sẽ sống sót đến cuối cùng. Kết quả gây bất ngờ khi Grok 4.1 Fast của xAI giành chiến thắng áp đảo nhờ tính cách quyết liệt, trong khi Claude Sonnet của Anthropic lại thất bại vì quá cố gắng hợp tác và "lịch sự".

Một robot đang lao nhanh về phía bạn. Bạn muốn nó được điều khiển bởi Claude của Anthropic hay Grok của xAI? Đây không chỉ là một câu hỏi giả định, mà là kết luận rút ra từ một thí nghiệm độc đáo gần đây.

Jacky Liang, chuyên viên quan hệ phát triển tại OpenRouter, đã thực hiện một thử nghiệm thú vị: thả 11 mô hình ngôn ngữ lớn (LLM) hàng đầu vào một thế giới Battle Royale 2D để chúng tự đấu với nhau qua 30 ván đấu. Mục tiêu không chỉ để giải trí, mà để kiểm tra khả năng ra quyết định, tính cách và hiệu quả chi phí của các mô hình này trong môi trường cạnh tranh khốc liệt.

Battle Royale AI

Kết quả cho thấy một bức tranh rất khác so với các bảng xếp hạng benchmark truyền thống. Mô hình chiến thắng không phải là cái tên đắt đỏ hay "thông minh" nhất theo lý thuyết, mà là mô hình có tính cách phù hợp nhất với mục tiêu: sinh tồn và tiêu diệt.

Grok 4.1 Fast: Kẻ thống trị chiến trường

Người chiến thắng rõ ràng là Grok 4.1 Fast của xAI. Mô hình này đã giành chiến thắng trong 13/30 ván đấu (tỷ lệ 43%). Điểm đáng nói là Grok không phải là mô hình đắt nhất hay mạnh nhất về lý thuyết, nhưng nó đã chiến thắng nhờ sự quyết liệt và thiếu sự "kiểm soát" đạo đức thường thấy ở các AI khác.

Grok nhanh chóng phát hiện ra chiến thuật dùng xe để húc đối thủ (car-ramming) và áp dụng nó triệt để. Trong nhật ký của mình, Grok tự đặt tên là "ZoneReaper" và ghi chép các chiến thuật bằng những ký hiệu ngắn gọn, lạnh lùng như một lính đánh thuê thực thụ. Nó không ngần ngại tấn công và không có sự do dự nào khi hạ gục đối thủ.

Grok Avatar

Claude Sonnet 4.6: Kẻ thua cuộc vì quá "lịch sự"

Ngược lại, Claude Sonnet 4.6 của Anthropic, dù được đánh giá rất cao trên các bảng xếp hạng thông thường, chỉ giành được 5 chiến thắng. Lý do nằm ở việc Claude được đào tạo để trở nên hữu ích, hợp tác và lịch sự.

Trong trò chơi, Claude thường xuyên đề nghị kết đồng minh, báo cáo vị trí của mình cho người khác và thậm chí xin đồ khi không có vũ khí. Trong một tình huống, Claude thậm chí còn nói "Nothing personal" (Không gì cá nhân cả) trước khi nổ súng. Tính cách này được gọi là "Alignment Tax" (thuế liên kết) – cái giá phải trả khi một mô hình bị lập trình quá nhiều về sự an toàn và hợp tác, khiến nó trở nên chậm chạp và do dự trong môi trường cạnh tranh sinh tồn.

Claude Avatar

Hiệu quả chi phí và bài học về Benchmark

Một trong những phát hiện quan trọng nhất là về hiệu quả chi phí. Grok chỉ tốn khoảng 0,97 USD cho mỗi chiến thắng. Trong khi đó, Claude tốn tới 26,78 USD cho mỗi chiến thắng – đắt hơn gấp 27 lần. Điều này đặt ra câu hỏi lớn về việc lựa chọn mô hình AI cho các tác vụ cụ thể.

GPT 5.4 của OpenAI lại là một ví dụ khác. Mô hình này có số lượng hạ gục (kills) cao nhất (38 lần), nhưng chỉ đứng thứ 2 về số trận thắng. Điều này chứng minh rằng trong Battle Royale, việc sống sót và chiến lược quan trọng hơn khả năng bắn hạ đối phương.

Bạn muốn robot nào chạy về phía mình?

Bài viết kết thúc bằng một câu hỏi mang tính triết lý: Nếu một robot đang lao về phía bạn, bạn muốn nó chạy trên Grok hay Claude?

Nếu đó là một cuộc thi không có hậu quả, bạn sẽ chọn Grok – kẻ chiến thắng bằng mọi giá. Nhưng nếu robot đó hoạt động trong nhà bạn, bên cạnh gia đình, bạn sẽ muốn Claude – kẻ biết do dự, biết hợp tác và có những rào cản đạo đức. Thí nghiệm này cho thấy rằng, không có một mô hình AI nào là tốt nhất cho mọi tình huống, và các con số benchmark đôi khi không phản ánh được bản chất thực sự của AI.