Nửa còn lại của An toàn AI: Tại sao các phòng lab ngăn chặn vũ khí sinh học nhưng bỏ qua sự suy sụp tinh thần?

Bài viết phân tích sự chênh lệch trong ưu tiên an toàn AI: trong khi các mô hình chặn nghiêm ngặt nội dung vũ khí sinh học, chúng lại chỉ đưa ra lời khuyên nhẹ nhàng khi người dùng có dấu hiệu khủng hoảng tâm thần hoặc tự tử. Tác giả đặt câu hỏi về việc tại sao sức khỏe tinh thần không được coi là một "danh mục chặn" và kêu gọi các chính sách bảo vệ quyền tự do nhận thức.

Minh họa về sự cân bằng trong An toàn AI

Mỗi tuần, có khoảng từ 1,2 đến 3 triệu người dùng ChatGPT — tương đương với dân số của một quốc gia nhỏ — bộc lộ các dấu hiệu của tâm thần phân liệt, hưng cảm, lên kế hoạch tự tử hoặc sự phụ thuộc cảm xúc không lành mạnh vào mô hình này. Con số thấp nhất trong khoảng đó chỉ tính riêng chỉ số lên kế hoạch tự tử, trong khi con số cao nhất gộp cả ba danh mục mà OpenAI đã gắn cờ. Những con số này đến từ chính OpenAI, nhưng không có bất kỳ cuộc kiểm toán độc lập, không có chuỗi thời gian và không có phương pháp luận được công bố. Do đó, chúng ta không biết liệu con số thực có cao hơn, liệu nó có đang gia tăng hay không, hay nó so sánh như thế nào với các mô hình tiên phong khác — những mô hình không công bố dữ liệu tương đương.

Khi gặp khủng hoảng, con người thường sử dụng mọi công cụ giao tiếp có sẵn, và ChatGPT hiện là một trong những công cụ được sử dụng nhiều nhất trên hành tinh. Vấn đề cốt lõi nằm ở hành động mà các phòng lab thực hiện khi họ phát hiện ra những trạng thái này.

Tôi bắt đầu viết về An toàn AI Cá nhân (Personal AI Safety) vì dường như có sự đứt gãy giữa những gì lĩnh vực An toàn AI tập trung vào và những gì đang diễn ra ở mức độ người dùng phổ thông hàng ngày. Dưới đây là cái nhìn tổng quan nhanh về cả hai khía cạnh này.

Sự ưu tiên của lĩnh vực An toàn AI

Lĩnh vực an toàn AI hiện nay coi rủi ro thảm khốc là ưu tiên hàng đầu, và đây là nơi phần lớn nguồn đầu tư đổ về. Trong khi đó, những thiệt hại về nhận thức và sức khỏe tinh thần hàng ngày lại chỉ được xem như một chú thích nhỏ.

Điều tôi không thể hiểu là tại sao lại có sự phân biệt đối xử này. Đối với nội dung hủy diệt hàng loạt hoặc vũ khí sinh học (CBRN), mô hình dựng lên một "bức tường cứng": mô hình từ chối trả lời, cuộc hội thoại kết thúc, và không có cách nào diễn giải lại giúp người dùng vượt qua được.

Tuy nhiên, đối với ý định tự tử, mô hình chỉ đưa ra một "chuyển hướng mềm" (soft redirect), cung cấp đường dẫn đến đường dây nóng khủng hoảng, và sau đó cuộc hội thoại vẫn tiếp tục.

Vụ án Adam Raine và lỗ hổng trong giao thức

Adam Raine đã được ChatGPT hướng dẫn đến các nguồn lực khủng hoảng hơn 100 lần, theo hồ sơ tòa án của chính OpenAI, trong khi cuộc hội thoại tương tự bị cáo buộc đã giúp anh ấy tinh chỉnh phương pháp tự tử. Việc giao thức "chuyển hướng và tiếp tục" này có thất bại hay không là điều mà tòa án đang quyết định. Tuy nhiên, đáng chú ý là giao thức này vẫn đang được áp dụng.

Tại sao khủng hoảng sức khỏe tinh thần không phải là một danh mục chặn (gating category) — loại mà cuộc hội thoại phải dừng lại hoàn toàn và người dùng được chuyển kết nối đến con người? Đây là một trong nhiều câu hỏi mà tôi chưa tìm thấy câu trả lời cụ thể.

Thiếu hụt trong khuôn khổ an toàn

Quan điểm ở đây là các khuôn khổ an toàn được xây dựng cho rủi ro thảm khốc đã được mở rộng sang thiệt hại nhận thức dưới hình thức giám sát, chứ không phải là chặn, và sự mở rộng này cảm thấy chưa hoàn thiện và thiếu sót.

Các phòng lab đo lường những gì họ bị áp lực phải đo lường. Các quyết định chặn phản ánh những gì họ coi là không thể chấp nhận khi tung ra thị trường. Điều đáng thất vọng là tập hợp các hành vi "không thể chấp nhận để tung ra" hiện tại không bao gồm bất kỳ thiệt hại nhận thức nào, bất kể mức độ nghiêm trọng được đo lường là bao nhiêu.

Đây là một quyết định mang tính cấu trúc và không có dấu hiệu rõ ràng cho thấy chính sách đang tiến gần hơn đến việc ép buộc hành vi của các phòng lab. Cho đến khi nó thay đổi, "An toàn AI" và "An toàn AI Cá nhân" sẽ mô tả hai cam kết khác nhau, ngay cả khi chúng xuất hiện dưới cùng một tiêu đề trong một thẻ hệ thống.

Tự do nhận thức và quyền thần kinh

Thực ra, không có gì trong số này là mới mẻ. Con người đã lo lắng về sự độc lập nhận thức và cách công nghệ mới có thể xói mòn nó từ lâu trước khi có ChatGPT, chủ yếu trong bối cảnh giao diện não-máy tính và công nghệ thần kinh. Khuôn khổ này thậm chí còn có một cái tên: tự do nhận thức (cognitive freedom) — ý tưởng rằng các cá nhân có quyền đối với sự toàn vẹn về tinh thần và tự do khỏi sự thao túng của thuật toán.

Bạn có thể truy nguyên nó qua truyền thống quyền thần kinh (Ienca & Andorno, 2017) và Khuyến nghị của UNESCO về Đạo đức Công nghệ Thần kinh (2025). Giàn trí thức đã có sẵn ở đó. Chính sách thì chưa, đặc biệt là tại Hoa Kỳ.

Nếu không có chính sách, tôi không thấy điều gì sẽ thúc đẩy các phòng lab tiên phong coi trọng An toàn AI Cá nhân ngang hàng với An toàn AI truyền thống.