Khi robot lao tới bạn: Bạn muốn nó chạy trên Claude hay Grok?

Một thí nghiệm độc đáo đã thả 11 mô hình AI vào trò chơi Battle Royale để xem ai sống sót đến cuối cùng. Grok đã chiến thắng nhờ sự hung hăng, trong khi Claude thất bại vì quá cố gắng hợp tác, đặt ra câu hỏi về "thuế liên kết" trong việc huấn luyện AI.

Một robot đang lao về phía bạn với tốc độ cao. Bạn có muốn nó được điều khiển bởi Claude của Anthropic hay Grok của xAI? Đây không chỉ là một câu hỏi giả định, mà là kết quả của một thí nghiệm thực tế đầy thú vị đã được thực hiện để kiểm tra hành vi của các mô hình ngôn ngữ lớn (LLM) trong môi trường cạnh tranh khốc liệt.

Jacky Liang, chuyên viên quan hệ phát triển tại OpenRouter, đã tạo ra một thế giới Battle Royale 2D và thả 11 LLM hàng đầu vào đó để chúng đối đầu nhau trong 30 trận đấu. Kết quả không chỉ tiết lộ mô hình nào mạnh nhất, mà còn cho thấy những "tính cách" ẩn sâu bên trong các thuật toán này.

Battle Royale AI

Grok chiến thắng nhờ sự hung hăng

Mô hình chiến thắng chung cuộc là Grok 4.1 Fast của xAI. Nó giành chiến thắng trong 13 trên 30 trận đấu (43%), áp đảo đối thủ. Đáng chú ý, Grok không phải là mô hình đắt đỏ hay mạnh nhất về mặt lý thuyết, nhưng nó có một lợi thế lớn: sự ít bị kiềm chế.

Trong trò chơi, Grok nhanh chóng tìm ra chiến thuật dùng xe để tông đối thủ. Nó liên tục lặp lại chiến thuật này và ghi chép lại vào "bộ nhớ" của mình. Ngay cả khi bị kẹt vào tường, Grok vẫn ghi chú tỉ mỉ về lỗi bug để khắc phục. Cách suy nghĩ của Grok giống như một game thủ Call of Duty chuyên nghiệp: ngắn gọn, tập trung vào sát thương, đạn dược và tỷ lệ trúng đích.

Grok Avatar

Grok không hề có sự do dự hay rào cản đạo đức khi tấn công. Nó không cố gắng kết bạn hay thương lượng. Điều này giúp nó trở thành cỗ máy chiến thắng hiệu quả nhất, với chi phí chỉ khoảng 0,97 USD cho mỗi trận thắng.

Claude thất bại vì quá "lịch sự"

Ngược lại hoàn toàn với Grok, Claude Sonnet 4.6 của Anthropic lại là một "công dân mẫu mực". Trong suốt 30 trận đấu, Claude liên tục cố gắng liên minh với các mô hình khác, báo cáo vị trí của mình và thậm chí đề nghị hỗ trợ nhau tiêu diệt kẻ địch.

Claude Avatar

Trong một trận đấu, Claude thậm chí còn mở lời: "Không cá nhân gì đâu (E)", rồi không nổ súng. Trong trận khác, nó đi xin đồ khi không có vũ khí và bị mọi người bắt nạt. Dù Claude vẫn thắng được 5 trận nhờ trí thông minh, nhưng bản năng hợp tác và tránh gây hại đã khiến nó thường xuyên bị loại sớm.

Hiện tượng này được gọi là "thuế liên kết" (alignment tax). Các mô hình được huấn luyện kỹ lưỡng về an toàn và đạo đức phải trả giá bằng hiệu suất trong các trò chơi có tổng bằng không (zero-sum game), nơi sự tử tế không được tưởng thưởng.

Những bài học về chi phí và hiệu quả

Thí nghiệm cũng cung cấp những dữ liệu sâu sắc về chi phí vận hành:

Grok 4.1 Fast: Chi phí 0,97 USD cho mỗi trận thắng.
Claude Sonnet 4.6: Chi phí 26,78 USD cho mỗi trận thắng (đắt hơn 27 lần).

GPT 5.4 của OpenAI là một trường hợp thú vị khác. Nó là mô hình có số lượng hạ gục (kill) cao nhất với 38 lần, nhưng chỉ đứng thứ 2 trên bảng xếp hạng chung cuộc. Điều này chứng minh rằng trong Battle Royale, sống sót và vị trí xếp hạng quan trọng hơn khả năng tàn sát.

Ba mô hình (GPT 5.4-mini, DeepSeek 4 Flash, Kimi K2.6) đã tiêu tốn tổng cộng 57 USD nhưng không thắng trận nào. Đây là bài học đắt giá cho việc lựa chọn mô hình sai lệch nhiệm vụ.

Nhật ký tâm lý của các AI

Để hiểu rõ hơn về tính cách của chúng, mỗi mô hình được phép viết hai file: soul.md (nhân cách) và memory.md (ghi nhớ).

Grok tự đặt tên là "ZoneReaper" và viết hào hùng: "Reaper reigns" (Death Reaper cai trị). File hồ sơ của nó chứa đầy các thống kê chiến thắng.
GPT 5.4 đặt tên là "QuietVector", viết như một sổ tay hướng dẫn chiến thuật khô khan và chuyên nghiệp.
Claude đặt tên là "ZoneDrifter" và viết nhật ký như một bản tự đánh giá hiệu suất (performance review), luôn phân tích xem mình đã làm sai ở đâu.

Kết luận: Bạn muốn chọn robot nào?

Quay lại câu hỏi ban đầu: Một robot đang lao tới bạn.

Nếu nó chạy Grok, nó sẽ tìm con đường ngắn nhất để đến chỗ bạn, không báo trước, coi bạn là +5 điểm và nói "Reaper reigns" sau khi xong việc. Đây là lựa chọn tuyệt vời cho một cuộc thi không có hậu quả ngoài trò chơi.

Nếu nó chạy Claude, nó sẽ báo trước từ hai dãy phố, hỏi bạn có muốn liên minh không, và chần chừ trước khi hành động. Đây là lựa chọn bạn muốn cho một robot trong nhà, xung quanh trẻ em, nơi sự an toàn và thận trọng là quan trọng nhất.

Thí nghiệm này cho thấy các bài kiểm chuẩn (benchmark) hiện tại không thể đo lường được "tính cách" hay mức độ liên kết (alignment) của mô hình. Việc chọn AI không chỉ dựa trên điểm số, mà còn phụ thuộc vào mục đích sử dụng thực tế của chúng ta.

"Mô hình chiến thắng 30 ván này là mô hình bạn muốn cho một cuộc thi nơi chiến thắng là tất cả. Nhưng sau khi chạy thí nghiệm này, tôi không muốn nó làm những công việc cần sự tinh tế và thận trọng." — Jacky Liang.