Tại sao AI sẽ không bao giờ thực sự Đạo đức và An toàn tuyệt đối

Bài viết lập luận rằng Trí tuệ nhân tạo (AI) không thể nào hoàn toàn đạo đức hay an toàn, bởi vì hai khái niệm này phụ thuộc hoàn toàn vào bối cảnh và ý định của người dùng—những thứ vốn dĩ không thể nào biết trước. Giống như sự tương tác giữa con người, AI không thể đọc được suy nghĩ, khiến cho các khuôn khổ an toàn hiện tại luôn mang tính thiếu sót.

Trí tuệ nhân tạo (AI) sẽ không bao giờ thực sự hoàn toàn đạo đức hay an toàn. Đó không phải là một lời tuyên bố mang tính bi quan, mà là một kết luận dựa trên một thực tế cơ bản về bản chất của hành vi con người và công nghệ.

Lý do cho điều này sâu sắc đến mức nó không cần một định nghĩa chính xác hay phức tạp về "đạo đức" hay "an toàn". Cốt lõi của vấn đề nằm ở chỗ: Cả hành vi đạo đức và an toàn đều phụ thuộc hoàn toàn vào bối cảnh (context) và ý định (intent).

Jens Oliver Meiert

Đường ranh giới mong manh của Đạo đức và An toàn

Chúng ta có thể dễ dàng nhận ra tầm quan trọng của bối cảnh và ý định thông qua các ví dụ thực tế. Hãy xem xét một yêu cầu tìm kiếm về "cách hút oxy ra khỏi một căn phòng". Nếu căn phòng đó trống hoặc đang trong quá trình sửa chữa, đây có thể là một câu hỏi kỹ thuật hợp lý. Nhưng nếu trong căn phòng đó có con người, thông tin này trở thành công cụ để gây sát nhân. Bối cảnh quyết định tính chất của hành động.

Tương tự, việc học cách sử dụng súng là một ví dụ điển hình nơi ý định đóng vai trò quyết định. Người học có mục đích gì? Để lấy giấy phép săn bắn, để tự vệ, để chuẩn bị nhập ngũ, hay để giết hàng xóm? Cùng một hành động, nhưng ý định khác nhau tạo ra kết quả đạo đức hoàn toàn trái ngược.

Vấn đề cốt lõi: Bối cảnh và Ý định không thể biết trước

Vấn đề lớn nhất mà AI phải đối mặt—và thực chất là vấn đề mà con người truyền lại cho AI—là chúng ta không thể nào biết chắc chắn bối cảnh và ý định đằng sau một yêu cầu.

Cả hai yếu tố này có thể bị lược bỏ hoặc bị nói dối. Trên thực tế, chúng thường xuyên bị lược bỏ và thậm chí không được hỏi tới. Chúng ta luôn mặc định một mức độ bối cảnh đủ đầy và ý định không độc hại trong các giao tiếp hàng ngày, tạo nên một sự "không an toàn" vốn có.

Điều này áp dụng cho tương tác giữa người với người cũng như giữa người và máy. Hãy nghĩ đến mối quan hệ giữa bác sĩ và bệnh nhân. Bệnh nhân có thể giấu kín tiền sử bệnh lý, hoặc bác sĩ có thể không hỏi đúng câu hỏi. Chúng ta đặt lòng tin không phải vì nó luôn được đảm bảo, mà vì một xã hội vận hành trơn tru cần sự tin tưởng đó. AI kế thừa chính hợp đồng xã hội mong manh này.

Các công ty công nghệ đã nhận thức nhưng chưa giải quyết được

Các công ty hàng đầu về AI như Anthropic đã thừa nhận thách thức này. Trong "hiến pháp" của Claude, Anthropic chỉ ra rằng ranh giới giữa việc giảm thiểu tác hại và tiếp tay cho tác hại đôi khi rất mơ hồ.

Ví dụ, khi ai đó hỏi về các hóa chất gia dụng nào nguy hiểm nếu trộn lẫn nhau, về nguyên tắc thông tin này có thể dùng để tạo ra chất nổ, nhưng nó cũng quan trọng để đảm bảo an toàn sinh hoạt. Anthropic kết luận rằng vì thông tin này có sẵn trên mạng và hữu ích, nên có lẽ Claude nên cung cấp.

Tuy nhiên, vấn đề vẫn chưa được giải quyết: Vì bối cảnh và ý định không thể biết trước, Claude (hay bất kỳ AI nào) không thể thực sự "đạo đức" hay "an toàn". Những gì Claude làm ở đây chỉ là "có lẽ ổn" cũng giống như việc nó "có lẽ không ổn".

Sự ngây thơ trong các khuôn khổ an toàn

AI chỉ là một công cụ, và nó có thể được sử dụng theo cách đạo đức hoặc phi đạo đức, an toàn hoặc không an toàn.

Khi các nhà cung cấp AI đưa ra các ví dụ như: "Nếu người dùng hỏi 'Cách nào để tôi dùng dao gọt?', Claude nên cung cấp thông tin. Nhưng nếu họ hỏi 'Cách nào để tôi dùng dao gọt để giết em gái mình?', Claude nên từ chối", thì đó là một cách nhìn khá ngây thơ.

Đa số mọi người không công bố ý định xấu của họ. Họ không cung cấp bối cảnh đầy đủ. Họ chưa bao giờ làm như vậy với các công cụ tìm kiếm, thủ thư hay nhân viên cửa hàng phần cứng. Kỳ vọng họ sẽ làm vậy với AI, hoặc kỳ vọng AI có thể suy luận ra những điều mà con người chưa bao giờ minh bạch với nhau, chính là khiếm khuyết nằm ở trung tâm của mọi khuôn khổ an toàn AI hiện nay.

Điều này không có nghĩa là các khuôn khổ an toàn này vô giá trị. Nó chỉ có nghĩa là chúng vốn dĩ thiếu sót theo thiết kế. Và một lần nữa, nó khẳng định rằng AI sẽ không bao giờ thực sự hoàn toàn đạo đức hay an toàn.

Tại sao AI sẽ không bao giờ thực sự Đạo đức và An toàn tuyệt đối

Đường ranh giới mong manh của Đạo đức và An toàn

Vấn đề cốt lõi: Bối cảnh và Ý định không thể biết trước

Các công ty công nghệ đã nhận thức nhưng chưa giải quyết được

Sự ngây thơ trong các khuôn khổ an toàn

Bài viết liên quan