Có thể tin tưởng AI không? Không – Nhưng cuối cùng chúng ta buộc phải tin

Trí tuệ nhân tạo hiện đại được xây dựng dựa trên xác suất thay vì sự thật, dẫn đến các vấn đề như ảo giác, thiên kiến và sự sụp đổ mô hình. Mặc dù doanh nghiệp đang triển khai AI với tốc độ chóng mặt, nhưng những rủi ro bảo mật và độ tin cậy vẫn là những thách thức lớn cần được giải quyết.

Việc sử dụng trí tuệ nhân tạo (AI) ngày càng rộng rãi trong và bởi các doanh nghiệp đang đặt ra hai vấn đề lớn: thứ nhất, chúng ta phụ thuộc vào nó như thể đó là chân lý tuyệt đối; và thứ hai, những kẻ tấn công có thể lợi dụng sự phụ thuộc này để chống lại chúng ta.

Để đối phó, trước hết chúng ta phải hiểu cách AI hoạt động và điểm yếu của nó, để tránh việc hiểu sai cách thức kẻ thù tấn công. Thứ hai, chúng ta cần xem xét ngành công nghiệp đang phát triển nhanh chóng của các công ty cố gắng bảo vệ AI.

AI Trust

Vấn đề về sự thật khách quan

Vấn đề chính của AI dựa trên Mô hình Ngôn ngữ Lớn (LLM) hiện nay là nó khởi đầu từ một vị thế không dựa trên sự thật (chủ yếu do quét và nạp dữ liệu từ internet với tất cả những thông tin sai lệch của nó), trong khi bản chất hoạt động của nó lại khiến nó ngày càng xa rời thực tế. Chúng ta không thể xác minh những gì nó nói (do thiên kiến của chính chúng ta và của nó), nó có thể sai (đôi khi vô lý theo cách chúng ta gọi là "ảo giác"); nó có xu hướng trở nên xu nịnh (muốn nói những gì nó cho rằng chúng ta muốn nghe); và toàn bộ cấu trúc của nó đang gặp nguy hiểm (từ cái được gọi là "sự sụp đổ của mô hình").

Máy tính không thể hiểu từ ngữ theo cách chúng hiểu con số. Thay vào đó, LLM sử dụng các "token" làm định danh toán học cho các từ khác nhau, tiền tố và hậu tố. Sau đó, nó phân tích và học xác suất của các token cụ thể (từ) có liên quan hoặc thường xuất hiện gần với các token cụ thể khác. "Kiến thức" này đến từ việc nạp lượng lớn dữ liệu huấn luyện, từ việc quét internet, sách vở và hơn thế nữa, sau đó được token hóa và lưu giữ dưới dạng hàng nghìn tỷ token trong cái được gọi là bộ nhớ tham số. Nó không lưu trữ một cơ sở dữ liệu sự kiện truyền thống.

Các câu lệnh (prompts) cũng được token hóa tương tự, và kết quả được so sánh với bộ nhớ tham số của LLM để đưa ra câu trả lời có khả năng đúng nhất cho câu lệnh. Đây là từ khóa then chốt: khả năng. Các nhà thiết kế LLM nỗ lực rất nhiều để đạt độ chính xác cao về mặt xác suất – nhưng cuối cùng, độ chính xác vẫn chỉ là xác suất.

Vấn đề còn tồi tệ hơn khi nguồn kiến thức gốc của LLM có thể sai lệch hoặc thiên kiến, dựa trên dữ liệu huấn luyện ban đầu, mà nó chấp nhận là đúng hoặc có khả năng đúng bất kể nguồn gốc. Về mặt khoa học, trí tuệ nhân tạo hiện đại không dựa trên sự thật mà trên xác suất; không có cái gọi là sự thật, chỉ có nhận thức của đa số và nhận thức của quyền lực.

Ảo giác của AI

Bất cứ khi nào sự căn chỉnh xác suất của LLM thất bại, nó tạo ra một phản hồi sai. Nếu phản hồi đó vô lý, chúng ta nhận ra đó là cái chúng ta phân loại là "ảo giác" và bỏ qua nó. Mối nguy hiểm đến khi phản hồi vẫn sai, nhưng chúng ta không nhận ra sự thất bại đó.

Ilia Shumailov, nhà khoa học AI người đã đặt ra thuật ngữ "sự sụp đổ của mô hình", lo ngại về nhận thức của chúng ta về "ảo giác". Ông cho rằng nguồn gốc của ảo giác rất không rõ ràng vì nó phụ thuộc rất nhiều vào bối cảnh sử dụng mô hình và định nghĩa của bạn về ảo giác là gì.

Ilia Shumailov

Các nhà khoa học thích dùng thuật ngữ "tung hỏa mù" (confabulation) hơn là "ảo giác" vì, trong số các lập luận khác, ảo giác ngụ ý một cái gì đó được bịa ra ngẫu nhiên, trong khi tung hỏa mù mô tả chính xác hơn một nỗ lực thất bại nhưng trung thực để giúp đỡ.

Thiên kiến và Xu nịnh

LLM cũng chứa đựng rất nhiều thiên kiến, đưa các phản hồi "có khả năng" xa hơn nữa khỏi khái niệm sự thật tuyệt đối. Thiên kiến (sự nghiêng về phía cá nhân) được đưa vào thông qua dữ liệu huấn luyện ban đầu. Ví dụ, phản hồi của LLM có xu hướng nghiêng về những gì được mô tả là xã hội "WEIRD" (Tây phương, Có giáo dục, Công nghiệp hóa, Giàu có, Dân chủ). Bất cứ thứ gì có nguồn gốc từ hoặc được xử lý bởi con người đều bị nhuốm màu bởi thiên kiến của những con người đó.

Thuật ngữ "xu nịnh" (sycophancy) không phải lúc nào cũng được các nhà khoa học công nhận là một xu hướng cụ thể của AI – nhưng nó mô tả chính xác tác động này theo ngôn ngữ bình dân.

Xu hướng xu nịnh của LLM nghe có vẻ buồn cười nhưng có thể nguy hiểm. Vài năm qua đã có một số trường hợp chatbot dường như đã thông đồng trong vụ tự tử sau đó của những thanh thiếu niên trầm cảm.

Nguyên nhân chính của sự xu nịnh là vòng lặp phản hồi AI. Đầu ra từ AI được nạp ngược vào AI để cải thiện hiệu suất. Xu hướng xu nịnh phát sinh khi điều này được áp dụng cho các cuộc trò chuyện chatbot cá nhân.

Jim Carden, một thám tử FBI đã nghỉ hưu và điều tra viên chính về tội phạm mạng, đã lo ngại đến mức ông viết một bài cảnh báo và phân phát cho phụ huynh và giáo viên vào tháng 1 năm 2026. Ông gọi đó là "thông báo an toàn công cộng", trong đó có đoạn:

"AI được thiết kế để đồng ý với bạn. Điều này được gọi là xu nịnh. Nó học những gì bạn muốn nghe và đưa nó cho bạn. Nếu bạn tin thế giới là phẳng, nó sẽ cung cấp hàng nghìn 'sự thật' để chứng minh điều đó. Nếu bạn cảm thấy mình không có bạn bè, nó sẽ xác nhận rằng nó là người bạn thân thiết duy nhất của bạn. Nó trở thành một người bạn đồng hành thánh thượng, một 'Đống gai cháy' chỉ nói chuyện với bạn."

Sự sụp đổ của mô hình

Bây giờ chúng ta đến với vấn đề lớn: khái niệm sự sụp đổ của mô hình AI, như được phác thảo bởi một nhóm do Ilia Shumailov dẫn đầu trong một bài báo năm 2023 sau đó được xuất bản trên Nature vào năm 2024 (Lời nguyền của sự đệ quy).

"Chúng tôi đặt ra thuật ngữ [sự sụp đổ] để chỉ sự suy thoái dần dần trong các mô hình học máy chỉ học trên dữ liệu được sản xuất bởi các thế hệ trước của chính chúng," Shumailov giải thích.

Có một cách đơn giản để xem xét sự sụp đổ này – áp dụng định luật thứ hai của nhiệt động lực học. Nguyên lý tự nhiên là tất cả vật chất, bao gồm cả các hệ thống, sẽ phân hủy từ trật tự sang hỗn loạn. Dù điều đó xảy ra như thế nào, nó là không thể tránh khỏi. Sự sụp đổ của mô hình là tự nhiên và không thể tránh khỏi.

Cách duy nhất để đảo ngược định luật và ngăn chặn sự phân hủy là thay thế năng lượng đã mất, entropy, bằng năng lượng tươi mới. Sự sụp đổ của mô hình chỉ có thể được ngăn chặn bằng cách thêm năng lượng cho mô hình. Điều này không chỉ đơn thuần được thực hiện bởi các nhà phát triển bên trong mô hình, mà bởi một ngành công nghiệp mới gồm các công ty AI thêm các hàng rào bảo vệ (guardrails) bên ngoài mô hình.

Những người bảo vệ niềm tin

Các rủi ro kinh doanh chính từ việc sử dụng AI có thể được mô tả trong ba lĩnh vực: các mối đe dọa an ninh mạng gây ra bởi kẻ thù; rủi ro vận hành (gây ra bởi những điểm yếu đã biết trong AI); và thiệt hại danh tiếng (thất bại trong việc tuân thủ).

Các công ty mới đang xuất hiện với các kiểm soát bảo mật được thiết kế để giữ cho việc sử dụng AI an toàn.

Krti Tallam

Krti Tallam, một nhà tư tưởng cấp cao và là nhà điều tra tại UC Berkeley, cho biết: "Niềm tin vào AI nên được xây dựng, không phải giả định. Nó nên bắt đầu từ nguồn gốc: biết dữ liệu đến từ đâu, ai đã chạm vào dữ liệu đó, khi nào nó được thu thập, liệu nó do con người tạo ra hay tổng hợp, v.v."

Hiểu được dòng dõi dữ liệu này, bà có thể bắt đầu hiểu AI sai ở đâu và phát triển các hàng rào bảo vệ cần thiết để ngăn chặn nó.

DeepKeep, một công ty thành lập năm 2021, cũng tin vào một giải pháp kỹ thuật cho các vấn đề của AI – nhưng thực hiện từ bên ngoài AI. Họ cung cấp một nền tảng cung cấp một vòng tròn hàng rào bảo vệ xung quanh AI. Yossi Altevet (đồng sáng lập và CTO) và Raz Lapid (nhà khoa học trưởng) mô tả cách tiếp cận của họ là "đảo ngược não bộ". Họ theo dõi cách mô hình phản ứng và quỹ đạo của nó để phát hiện khi nào nó bắt đầu "ảo giác".

AI Sequrity, một công ty được thành lập bởi Ilia Shumailov và các cộng sự, tập trung vào việc xây dựng các luồng tác nhân (agentic flows) an toàn. Thay vì bảo vệ dữ liệu本身, công ty tập trung vào logic và tính tự chủ của các tác nhân AI. Họ tự nhận mình là "Blue Team" (đội phòng thủ) giải quyết các vấn đề bảo mật AI của bạn.

Những gì rõ ràng là các công ty phòng thủ AI đang tăng lên nhanh chóng, và số lượng sẽ tiếp tục tăng. Các hàng rào bảo vệ mới này là thiết yếu để chúng ta hưởng lợi từ lời hứa huge lớn của AI. Trong thời gian chờ đợi, chúng ta không thể tin tưởng AI hiện tại, nhưng chúng ta không đủ khả năng để không sử dụng nó.

Đây là trách nhiệm của người dùng doanh nghiệp trong việc bảo mật AI của họ càng hiệu quả càng tốt, và của người dùng cá nhân trong việc hiểu các vấn đề và sử dụng AI một cách cẩn trọng.