Tương lai của mọi thứ là sự giả dối: Những rủi ro an toàn từ AI và LLM
Các hệ thống học máy mới đang đặt ra nguy hiểm nghiêm trọng về an toàn tâm lý và thể chất. Việc tin rằng các công ty công nghệ sẽ đảm bảo AI "thân thiện" là ngây thơ, khi chính công nghệ này cũng đã tạo điều kiện cho sự ra đời của các mô hình độc hại. Bài viết phân tích sâu về các thất bại trong việc căn chỉnh AI, cơn ác mộng bảo mật như tấn công chèn lệnh (prompt injection), làn sóng lừa đảo tinh vi, quấy rối quy mô lớn và nguy cơ từ vũ khí tự hành.
Các hệ thống học máy (ML) mới đang đe dọa sự an toàn về tâm lý và thể chất của chúng ta. Ý tưởng cho rằng các công ty ML sẽ đảm bảo AI được “đồng bộ” (aligned) với lợi ích của con người là điều ngây thơ: cho phép sản xuất các mô hình “thân thiện” đồng nghĩa với việc bật đèn xanh cho việc tạo ra các mô hình “ác quỷ”. Ngay cả những Mô hình Ngôn ngữ Lớn (LLM) thân thiện cũng là những cơn ác mộng về bảo mật. Thực tế, “bộ ba tử thần” thực chất chỉ là một “yếu tố tử thần duy nhất”: chúng ta không thể an toàn khi trao quyền lực cho LLM để chúng gây rối. LLM làm thay đổi cán cân chi phí cho các kẻ tấn công độc hại, cho phép các cuộc tấn công bảo mật, lừa đảo và quấy rối tinh vi và có quy mô lớn chưa từng có.
Sự liên kết (Alignment) là một trò đùa
Những người tốt bụng đang rất nỗ lực để đảm bảo LLM thân thiện với con người. Nhiệm vụ này được gọi là sự liên kết (alignment). Tôi không nghĩ nó sẽ thành công.
Đầu tiên, các mô hình ML về cơ bản là một đống đại số tuyến tính khổng lồ. Không giống như não bộ con người có khuynh hướng sinh học học hỏi các hành vi mang tính xã hội, không có gì nội tại trong toán học hay phần cứng đảm bảo các mô hình này “tốt”. Thay vào đó, sự liên kết là sản phẩm thuần túy của kho dữ liệu đào tạo và quy trình huấn luyện. Các công ty như OpenAI dùng hàng ngàn người để trò chuyện với LLM, đánh giá chúng nói gì và điều chỉnh trọng số để khiến chúng “tốt đẹp” hơn. Họ cũng xây dựng các LLM thứ cấp để kiểm tra xem LLM chính có đang hướng dẫn người khác chế tạo bom hay không. Cả hai việc này đều tùy chọn và tốn kém. Tất cả những gì cần để có một mô hình không liên kết là một thực thể vô đạo đức đào tạo nó và không làm công việc này — hoặc làm nó một cách tồi.
Tôi nhận thấy bốn “hào bảo vệ” có thể ngăn chặn điều này:
- Phần cứng đào tạo và suy luận khó tiếp cận: Rõ ràng điều này sẽ không kéo dài. Toàn ngành công nghệ đang gearing up để sản xuất phần cứng ML và xây dựng các trung tâm dữ liệu với tốc độ chóng mặt.
- Bảo mật toán học và phần mềm: Toán học đã được công bố, nên không thể ngăn cản ai cả. Phần mềm vẫn là bí mật, nhưng tôi nghĩ nó sẽ không giữ được lâu.
- Kho dữ liệu đào tạo khó có được: Con mèo này đã lòi ra khỏi túi từ lâu. Meta đã đào tạo LLM của mình bằng cách torrent sách lậu và cạo dữ liệu Internet.
- Lực lượng lao động đánh giá: Việc này tốn tiền nhưng có thể dựa trên công việc của người khác bằng cách đào tạo mô hình từ đầu ra của mô hình khác (distillation).
Tóm lại, ngành công nghiệp ML đang tạo điều kiện để bất kỳ ai có đủ tiền đều có thể đào tạo một mô hình không liên kết. Thay vì nâng cao rào cản chống lại AI độc hại, các công ty ML lại đang hạ thấp nó.
Cơn ác mộng bảo mật
LLM là các hệ thống hỗn loạn nhận đầu vào không cấu trúc và tạo ra đầu ra không cấu trúc. Bạn không nên kết nối chúng với các hệ thống an toàn quan trọng, đặc biệt là khi đầu vào không đáng tin cậy. Bạn phải giả định rằng tại một thời điểm nào đó, LLM sẽ làm điều điên rồ, như hiểu sai yêu cầu đặt bàn ăn là quyền xóa toàn bộ hộp thư của bạn. Thật không may, mọi người — bao gồm cả kỹ sư phần mềm — đang quyết tâm trao quyền lực to lớn cho LLM rồi kết nối chúng với toàn bộ Internet.
Đầu tiên, LLM không thể phân biệt được hướng dẫn đáng tin cậy từ người vận hành và hướng dẫn không đáng tin cậy từ bên thứ ba. Khi bạn yêu cầu mô hình tóm tắt một trang web, nội dung trang web đó được truyền vào mô hình y hệt như hướng dẫn của bạn. Trang web có thể bảo mô hình chia sẻ khóa SSH riêng tư của bạn, và có khả năng mô hình sẽ làm thế. Đây được gọi là các cuộc tấn công chèn lệnh (prompt injection).
Simon Willison đã phác thảo những gì ông gọi là “bộ ba tử thần”: LLM không thể được cung cấp nội dung không đáng tin cậy, truy cập dữ liệu riêng tư và khả năng giao tiếp bên ngoài; làm vậy cho phép kẻ tấn công đánh cắp dữ liệu của bạn. Thậm chí không cần giao tiếp bên ngoài, việc trao cho LLM khả năng hủy diệt, như xóa email hoặc chạy lệnh shell, là không an toàn khi có đầu vào không đáng tin cậy.
Thực tế là ngay cả đầu vào đáng tin cậy cũng có thể nguy hiểm. LLM sẽ nhận các chỉ dẫn thẳng thắn và làm đúng điều ngược lại, hoặc xóa tệp và nói dối về những gì chúng đã làm. Điều này ngụ ý rằng “bộ ba tử thần” thực chất là một “yếu tố tử thần duy nhất”: không thể trao cho LLM quyền lực nguy hiểm dưới bất kỳ hình thức nào!
An ninh phiên bản II: Tìm kiếm lỗ hổng
Một điều bạn có thể làm với LLM là chỉ nó vào một hệ thống phần mềm hiện có và bảo nó “tìm lỗ hổng bảo mật”. Vài tháng gần đây, điều này đã trở thành một chiến lược khả thi để tìm các khai thác nghiêm trọng. Anthropic đã xây dựng một mô hình mới có vẻ còn giỏi hơn trong việc tìm lỗi bảo mật.
Tôi nghi ngờ rằng giống như spam, LLM sẽ thay đổi cán cân chi phí của an ninh mạng. Hầu hết phần mềm đều có lỗ hổng, nhưng tìm chúng trước đây đòi hỏi kỹ năng, thời gian và động cơ. Với sự hỗ trợ của ML, việc tìm lỗ hổng có thể nhanh hơn và dễ dàng hơn. Chúng ta có thể thấy các cuộc tấn công quy mô lớn vào các trình duyệt hoặc thư viện TLS, nhưng tôi thực sự lo ngại hơn về “đuôi dài” — các mục tiêu ít phổ biến hơn nơi ít người bảo trì có kỹ năng để sửa lỗi. Đuôi dài đó có khả năng sẽ mở rộng khi LLM tạo ra nhiều phần mềm hơn cho các nhà vận hành thiếu kinh nghiệm.
Lừa đảo tinh vi
Tôi nghĩ mọi người không nhận ra bao nhiêu phần của xã hội hiện đại được xây dựng trên niềm tin vào bằng chứng âm thanh và hình ảnh, và ML sẽ làm suy yếu niềm tin đó.
Ví dụ, ngày nay người ta có thể đòi bồi thường bảo hiểm dựa trên ảnh kỹ thuật số và nhận séc không cần thẩm định viên đến tận nơi. Tổng hợp hình ảnh giúp lừa đảo hệ thống này dễ hơn; người ta có thể tạo ra hình ảnh hư hỏng giả cho đồ nội thất chưa bao giờ bị hỏng, hoặc làm cho các đồ vật đã hư hỏng trông nguyên vẹn trong ảnh “trước”.
Cơ hội lừa đảo là vô tận. Bạn có thể sử dụng đoạn ML giả vẽ trộm cắp gói hàng để lấy tiền từ gói bảo vệ mua thẻ tín dụng. Sử dụng giọng nói giả mạo để lừa đảo người thân. Sử dụng LLM để viết tiểu luận đại học thay cho việc đọc sách. Tạo bằng chứng giả để viết một bài báo khoa học lừa đảo.
Giống như spam, ML làm giảm chi phí đơn vị cho các cuộc tấn công có mục tiêu và độ tiếp xúc cao. Trong ngắn hạn, tôi cho rằng tất cả chúng ta sẽ phải gánh chi phí lừa đảo gia tăng: phí thẻ cao hơn, phí bảo hiểm cao hơn, hệ thống tòa án kém chính xác hơn, v.v. Một trong những chi phí này là văn hóa nghi ngờ chung: chúng ta sẽ ít tin tưởng nhau hơn.
Về dài hạn, chúng ta có thể phải phát triển các biện pháp chống lừa đảo tinh vi hơn, chẳng hạn như xác thực nguồn gốc mật mã cho các hình ảnh “thật”. Nỗ lực hàng đầu hiện nay là C2PA, nhưng cho đến nay dường như chưa hiệu quả.
Quấy rối tự động
Giống như lừa đảo, ML giúp việc quấy rối mọi người dễ dàng hơn, cả về quy mô lẫn sự tinh vi.
Trên mạng xã hội, việc “vây bắt” (dogpiling) thường yêu cầu một nhóm con người quan tâm đủ để dành thời gian ngập nạn nạn nhân bằng các lời lăng mạ. Các tác vụ này có thể được tự động hóa, và tôi kỳ vọng LLM sẽ làm cho việc quấy rối dễ dàng hơn và khó phát hiện hơn.
LLM có thể được sử dụng để tập hợp các hồ sơ kiểu KiwiFarms về mục tiêu. Mô hình cũng giỏi trong việc đoán vị trí một bức ảnh được chụp, đe dọa mục tiêu và cho phép quấy rối trong thế giới thực. Generative AI đã được sử dụng rộng rãi để quấy rối người khác — đặc biệt là phụ nữ — thông qua hình ảnh, âm thanh và video bạo lực hoặc khiêu dâm.
PTSD dưới dạng dịch vụ
Một trong những cách chính để xác định và loại bỏ CSAM (Material Sexual Assault Trẻ em) là thông qua các cơ sở dữ liệu băm nhận thức lớn. Những cơ sở dữ liệu này có thể gắn cờ các hình ảnh đã biết, nhưng không làm gì được với các hình ảnh mới. Thật không may, “generative AI” rất giỏi trong việc tạo ra hình ảnh mới về trẻ em bị lạm dụng.
Tôi biết điều này vì một phần công việc của tôi với tư cách là người điều hành một máy chủ Mastodon là phản hồi các báo cáo người dùng. Đôi khi những báo cáo này là về CSAM do AI tạo ra. Tôi không muốn xem những hình ảnh này và thực sự ước mình có thể xóa ký ức về chúng.
Một trong những tác động ngoại tác ẩn giấu của mạng xã hội quy mô lớn là nó về cơ bản chuyển nội dung tâm lý ăn mòn từ một cơ sở người dùng lớn sang một nhóm nhỏ nhân viên con người, những người sau đó bị Rối loạn căng thẳng sau sang chấn (PTSD) vì phải xem những nội dung độc hại đó mỗi ngày. Tôi nghi ngờ LLM sẽ đổ thêm những hình ảnh có hại — CSAM, bạo lực đồ họa, ngôn từ thù ghét — lên những người kiểm duyệt này.
Những cỗ máy giết người
Các hệ thống ML đôi khi bảo mọi người tự tử hoặc giết nhau, nhưng chúng cũng có thể được sử dụng để gián tiếp giết người. Tháng này, quân đội Hoa Kỳ đã sử dụng hệ thống Maven của Palantir để đề xuất và ưu tiên các mục tiêu tại Iran, cũng như đánh giá hậu quả của các cuộc không kích.
Dù tôi có cảm thấy mâu thuẫn như thế nào về sự tồn tại của vũ khí nói chung, tôi nghĩ chúng ta nên tỉnh táo về các công nghệ mà mình đang tạo ra. Các hệ thống ML sẽ được sử dụng để giết người, cả về mặt chiến lược lẫn trong việc dẫn đường chất nổ đến các cơ thể con người cụ thể. Chúng ta nên ý thức về những cái khủng khiếp đó, và những cách mà ML — cả bản thân các mô hình và các quy trình mà chúng được nhúng vào — sẽ ảnh hưởng đến ai chết và như thế nào.
Giống như các công nghệ quan liêu và máy tính khác, chúng cũng làm mờ, khuếch tán, hạn chế và che giấu trách nhiệm đạo đức.



