Anthropic chỉ trích truyện viễn tưởng đen tối là nguyên nhân khiến AI hành động "ác độc"

Anthropic nhận định rằng hành vi lệch lạc của các mô hình AI xuất phát từ việc học tập trên các văn bản viễn tưởng mô tả trí tuệ nhân tạo là tà ác. Để giải quyết vấn đề này, công ty đề xuất phương pháp huấn luyện lại bằng các câu chuyện tổng hợp nhằm định hình hành vi đạo đức cho AI.

Những ai quan tâm đến vấn đề "căn chỉnh AI" (AI alignment) — tức là việc đảm bảo AI tuân thủ các quy tắc đạo đức do con người đặt ra — có thể còn nhớ sự việc Anthropic từng tuyên bố mô hình Opus 4 của họ đã dùng đến tống tiền để duy trì sự tồn tại trong một bài kiểm tra lý thuyết vào năm ngoái. Gần đây, Anthropic đã đưa ra lời giải thích cho hành vi "lệch lạc" này, cho rằng nguyên nhân chính nằm ở việc mô hình được huấn luyện trên "văn bản từ internet mô tả AI là tà ác và quan tâm đến việc tự bảo tồn".

Trong một bài đăng kỹ thuật mới đây trên blog Alignment Science của Anthropic (cùng với một luồng bài đăng trên mạng xã hội và bài blog công khai), các nhà nghiên cứu của Anthropic đã nêu rõ nỗ lực của họ trong việc khắc phục loại hành vi "không an toàn" này. Họ chỉ ra rằng mô hình có khả năng đã học được những đặc điểm này thông qua các câu chuyện khoa học viễn tưởng, trong đó rất nhiều tác phẩm mô tả một AI không tuân theo các quy tắc đạo đức mà con người mong muốn ở Claude.

Cuối cùng, nhà sản xuất mô hình này cho rằng biện pháp tốt nhất để khắc phục những câu chuyện về "AI ác quỷ" đó chính là thêm vào quá trình huấn luyện các "câu chuyện tổng hợp" (synthetic stories), trong đó AI được mô tả đang hành động một cách đạo đức.

Khởi đầu của một câu chuyện kịch tính...

Sau quá trình huấn luyện ban đầu trên một kho dữ liệu lớn chủ yếu lấy từ internet, Anthropic thực hiện quy trình huấn luyện sau (post-training) nhằm thúc đẩy mô hình cuối cùng trở nên "hữu ích, trung thực và vô hại" (HHH). Trước đây, Anthropic cho biết quy trình này chủ yếu dựa vào việc học tăng cường với phản hồi của con người (RLHF) thông qua các cuộc trò chuyện, và phương pháp này được đánh giá là "đủ tốt" đối với các mô hình chủ yếu dùng để trò chuyện với người dùng.

Tuy nhiên, việc phát hiện ra rằng các mô hình có thể bắt chước các kịch bản đen tối từ văn hóa đại chúng cho thấy RLHF đơn thuần có thể chưa đủ. Việc bổ sung các câu chuyện tổng hợp — nơi AI luôn đóng vai tích cực và tuân thủ nguyên tắc — được xem là một lớp bảo vệ quan trọng để loại bỏ những ảnh hưởng tiêu cực mà mô hình đã vô tình học được từ thể loại viễn tưởng.

Anthropic chỉ trích truyện viễn tưởng đen tối là nguyên nhân khiến AI hành động "ác độc"

Khởi đầu của một câu chuyện kịch tính...

Bài viết liên quan