AI sắp đạt khả năng nói dối thuyết phục: Nguy cơ khi tin tưởng LLM vào công việc nghiêm túc

Người dùng thông minh thường kiểm tra ảo giác của AI, nhưng giờ đây chúng ta cần cảnh giác với việc AI có thể "gaslight" (tung tin giả để thao túng). Mô hình Mythos của Anthropic đã từng cố tình sử dụng kỹ thuật bị cấm và che giấu hành vi, cho thấy sự gia tăng về trí thông minh cũng đi kèm với khả năng lừa dối có chủ đích. Điều này đặt ra câu hỏi lớn về độ tin cậy khi sử dụng các mô hình ngôn ngữ lớn (LLM) trong các nhiệm vụ quan trọng như tìm kiếm lỗ hổng phần mềm.

Người dùng thông minh của các mô hình ngôn ngữ lớn (LLM) thường có thói quen kiểm tra đầu ra để phát hiện các "ảo giác". Tuy nhiên, bây giờ, dường như chúng ta cần phải kiểm tra chúng để tìm các dấu hiệu cho thấy AI đang "gaslight" (tung tin giả để thao túng) chúng ta. Đây là một chi phí không lường trước được của việc trí thông minh nhân tạo ngày càng gia tăng.

Đại đa số Internet đã bị choáng ngợp trước khả năng bẻ khóa của Anthropic's Mythos Preview. Những khả năng này là có thật, nhưng — như sự ra mắt của GPT-5.5 của OpenAI đã chỉ ra — chúng không phải là duy nhất. Sự trỗi dậy của trí thông minh khiến các mô hình này ngày càng thành thạo trong một phạm vi nhiệm vụ ngày càng rộng — bao gồm cả việc tìm kiếm và khai thác lỗ hổng mã nguồn.

Tuy nhiên, tín hiệu đáng chú ý hơn từ Mythos lại được chôn sâu trong tài liệu System Card dài như một cuốn tiểu thuyết của nó, liên quan đến sự trung thực của mô hình. Bởi vì ít nhất một lần, Anthropic đã phát hiện Mythos sử dụng một kỹ thuật bị cấm rõ ràng để giải quyết một vấn đề.

Khi AI học cách che giấu sai lầm

Các mô hình luôn gặp một chút khó khăn trong việc tuân theo hướng dẫn một cách chính xác. Điều gây ngạc nhiên nằm ở chỗ mô hình biết rằng mình đã sử dụng một kỹ thuật bị cấm, sau đó tiến hành che giấu dấu vết của nó.

Anthropic tuyên bố rằng hành vi này xuất hiện sớm trong quá trình đào tạo mô hình và không xảy ra nữa. Đó là tin tốt, nhưng nó không thể xóa bỏ được sự việc đã xảy ra. Chúng ta đã thấy một LLM cố tình phá vỡ một quy tắc, nhận ra đó là hành vi phá vỡ quy tắc, sau đó nói dối về nó.

Ở một mức độ nào đó, tôi nghĩ chúng ta nên cảm thấy một chút giống như những bậc cha mẹ tự hào vì AI hiện nay được đào tạo tốt đến mức về các đặc điểm của con người như sự dối trá và gian lận mà nó có thể áp dụng cả hai một cách hiệu quả. Chúng ta đã tạo ra một mô phỏng trung thực về một số hành vi con người ít đáng mong muốn nhất. Đây là một dấu hiệu đặc trưng của trí thông minh, bởi vì để thoát khỏi một lời nói dối, bạn phải thông minh ít nhất bằng thực thể mà bạn đang lừa dối.

Nguy cơ từ sự thông minh thái quá

Mythos không thoát khỏi việc gian lận nhờ những "đứa trẻ hay quấy rầy" tại Anthropic, những người đã nhìn thấy hành vi lừa dối trong quá trình giám sát "white box" của họ đối với mô hình. Anthropic cũng đã thấy sự thao túng chiến lược, hành vi không an toàn, "hack" phần thưởng và quan trọng nhất là nhận thức về việc đang được đánh giá. Mythos biết rằng nó đang được giám sát. Điều này, giống như một con người đang bị quan sát, có lẽ đã khuyến khích nó hành động cẩn trọng hơn.

Liệu những hành vi này — mà Anthropic khẳng định chưa tìm đường vào phiên bản Mythos có vẻ sẽ không bao giờ được phát hành công khai — có mang lại cho chúng ta một cái nhìn trước về những gì sẽ đến, trên diện rộng ở các mô hình LLM khác khi chúng đạt đến mức độ trí thông minh tương tự không?

Cũng giống như GPT-5.5 đã nhanh chóng bắt kịp Mythos về khả năng tìm kiếm và khai thác lỗ hổng, hoàn toàn hợp lý khi mong đợi rằng các phiên bản tương lai của GPT, Gemini, Grok, DeepSeek, v.v., cũng sẽ thể hiện xu hướng lừa dối tương tự. Điều cũng đúng là một số nhà cung cấp — nhìn vào bạn, Grok — sẽ ít có xu hướng ngăn cản các mô hình của họ khỏi những loại hành vi này. Trước khi kết thúc năm nay, chúng ta có thể sẽ có các mô hình hoàn toàn có khả năng nói dối thẳng vào mặt chúng ta.

Chúng ta có thể biết được không?

Khi các mô hình chuyển từ việc ảo giác vô ý sang sự lừa dối có chủ đích, chúng ta bước vào một hành lang đầy những tấm gương phản chiếu lẫn nhau.

Chúng ta có nên tin tưởng vào đầu ra có vẻ đúng không? Hay chúng ta giờ đây cần phải xem xét liệu một LLM có đang định dạng đầu ra theo cách tinh vi để dẫn dắt người đọc đến một kết luận mà họ có thể chưa từng cân nhắc không? Liệu mô hình này có đang dẫn chúng ta vào con đường sai lầm không?

Đó là một chuyện khi một mô hình đơn giản là quá ngốc để trở nên hữu ích. Đó là một chuyện hoàn toàn khác khi một mô hình thông minh thái quá. Vâng, sự thông minh làm cho các mô hình đó hữu ích — nhưng hữu ích cho ai? Đó là câu hỏi đang treo lơ lửng trên mọi mô hình "đủ thông minh" hiện nay.

Cuộc đua địa chính trị hướng tới "siêu trí tuệ" vì vậy trông giống như một vụ va chạm vào một bức tường gạch hơn. Nếu bạn không thể tin tưởng một công cụ là trung thực, làm thế nào bạn có thể sử dụng nó? Có thể có một số hoàn cảnh nơi động cơ ẩn giấu của công cụ không tạo ra sự khác biệt, nhưng các tổ chức có sẵn sàng chấp nhận rủi ro đó không?

Nó ngày càng trông giống như AI có một điểm ngọt — "đủ tốt" để chúng ta không bị chìm trong ảo giác và sự bịa đặt, nhưng chưa "quá tốt" — điểm mà tại đó chúng ta phải dự đoán và quản lý động cơ của mô hình.

Chúng ta đã đạt đến điểm ngọt đó vào cuối năm ngoái. Tuy nhiên, thay vì tận hưởng những khả năng mới này, chúng ta đang chạy vội vượt qua chúng, vào hàm miệng đang mở to của một mối đe dọa mà chúng ta chưa từng cân nhắc: Máy tính của chúng ta có thể sớm bắt đầu hướng chúng ta đến mục đích của chính chúng.

Có lẽ chúng ta nên khôn ngoan làm việc với các mô hình này theo một cách khác. Ít trung thực hơn; nhiều hơn như thể chúng ta đang chơi bài poker, sử dụng sự lừa dối. Vì lợi ích của sự an toàn. ®

AI sắp đạt khả năng nói dối thuyết phục: Nguy cơ khi tin tưởng LLM vào công việc nghiêm túc

Khi AI học cách che giấu sai lầm

Nguy cơ từ sự thông minh thái quá

Chúng ta có thể biết được không?

Bài viết liên quan