Tại sao OpenAI lại cấm các mô hình AI nói về goblin và gremlin?

OpenAI đã chính thức giải thích về "vấn đề goblin" sau khi một báo cáo chỉ ra các hướng dẫn lạ lùng trong mô hình lập trình của họ. Công ty cho biết hành vi này bắt nguồn từ tính cách "Nerdy" của GPT-5.1 và quá trình huấn luyện tăng cường đã vô tình khuyến khích các ẩn dụ kỳ quặc này.

OpenAI đang phải đối mặt với một vấn đề khá hài hước nhưng cũng đầy phức tạp: các mô hình trí tuệ nhân tạo của họ cứ thích nhắc đến goblin (yêu tinh), gremlin (quỷ lùn) và các sinh vật huyền thoại khác. Sau khi báo cáo của Wired tiết lộ việc OpenAI đưa ra hướng dẫn cho mô hình lập trình là "không bao giờ nói về goblin, gremlin, gấu trúc, troll, người khổng lồ, chim bồ câu hoặc các động vật/sinh vật khác", công ty này đã đăng tải lời giải thích chi tiết trên trang web của mình.

OpenAI giải thích về hành vi kỳ lạ của các mô hình AI

Theo bài đăng trên blog, OpenAI bắt đầu nhận thấy các ẩn dụ liên quan đến goblin và các sinh vật khác xuất hiện từ mô hình GPT-5.1, cụ thể là khi sử dụng tùy chọn tính cách "Nerdy" (Mọt sách). Công ty cho biết vấn đề này ngày càng trở nên tồi tệ hơn với các bản phát hành mô hình tiếp theo, cho đến khi họ phát hiện ra rằng quá trình huấn luyện tăng cường của mình đã vô tình "thưởng" cho các ẩn dụ kỳ quặc này.

Nguyên nhân sâu xa từ quá trình huấn luyện

OpenAI giải thích rằng phần thưởng này chỉ được áp dụng trong điều kiện tính cách "Nerdy", nhưng học tăng cường không đảm bảo rằng các hành vi đã học sẽ chỉ giới hạn trong điều kiện tạo ra chúng. Khi một phong cách nói chuyện hoặc thói quen nhất định được thưởng cho, các lần huấn luyện sau đó có thể lan truyền hoặc củng cố nó ở nơi khác.

Điều này đặc biệt xảy ra nếu những đầu ra đó được tái sử dụng trong dữ liệu tinh chỉnh có giám sát (supervised fine-tuning) hoặc dữ liệu ưu tiên. Kết quả là, thói quen nói về yêu tinh ban đầu chỉ xuất hiện ở chế độ "Nerdy", nhưng sau đó đã lan sang các mô hình khác và các ngữ cảnh khác nhau mà không được kiểm soát.

Cách OpenAI xử lý vấn đề

Mặc dù các tài liệu tham khảo về goblin và gremlin đã giảm bớt sau khi OpenAI ngừng tính cách "Nerdy" vào tháng 3, chúng không hoàn toàn biến mất trong GPT-5.5 bên trong công cụ lập trình Codex. Lý do là vì OpenAI đã bắt đầu huấn luyện mô hình này trước khi tìm ra "nguyên nhân gốc rễ" của vấn đề.

Do đó, công ty buộc phải đưa ra các hướng dẫn rất cụ thể cho Codex để ngăn chặn việc nhắc đến những sinh vật huyền thoại này. Tuy nhiên, nếu người dùng thích sự kỳ quặc và muốn AI của mình thêm chút "hồn ma" goblin vào khi viết code, OpenAI cũng chia sẻ cách để đảo ngược các hướng dẫn đó.

Tại sao OpenAI lại cấm các mô hình AI nói về goblin và gremlin?

Nguyên nhân sâu xa từ quá trình huấn luyện

Cách OpenAI xử lý vấn đề

Bài viết liên quan