Tại sao AI đang tự huấn luyện từ "rác thải" của chính nó và giải pháp nằm ở Deep Web

Các mô hình AI đang đối mặt với nguy cơ sụp đổ do thiếu hụt dữ liệu chất lượng cao từ con người, buộc chúng phải học từ chính đầu ra của mình. Bài viết phân tích hiện tượng "Model Collapse" và giới thiệu khung PROPS, một giải pháp sử dụng Deep Web và Secure Enclaves để cung cấp dữ liệu xác thực mà không vi phạm quyền riêng tư.

Nếu bạn đã theo dõi lĩnh vực AI một thời gian, có lẽ bạn đã quen thuộc với việc sử dụng các LLM, Agent hoặc công cụ Chat. Nhưng bạn có bao giờ tự hỏi những công cụ này sẽ được huấn luyện như thế nào trong tương lai gần không? Và điều gì sẽ xảy ra nếu chúng ta đã sử dụng hết dữ liệu cần thiết để huấn luyện các mô hình?

Nhiều giả thuyết cho rằng chúng ta đang cạn kiệt dữ liệu chất lượng cao do con người tạo ra. Mặc dù nội dung mới được đăng tải mỗi ngày là một thực tế không thể phủ nhận, nhưng tỷ lệ nội dung do chính AI tạo ra đang ngày càng tăng. Do đó, nếu tiếp tục huấn luyện trên dữ liệu web công khai, bạn cuối cùng sẽ đang huấn luyện trên chính đầu ra của các thế hệ đi trước. Con rắn đang tự ăn đuôi của nó. Các nhà nghiên cứu gọi hiện tượng này là Model Collapse (Sự sụp đổ mô hình), nơi các mô hình AI bắt đầu học từ lỗi của tiền nhiệm cho đến khi toàn bộ hệ thống suy thoái thành những điều vô nghĩa.

Tuy nhiên, nếu tôi nói với bạn rằng thực ra chúng ta không hề thiếu dữ liệu thì sao? Chúng ta chỉ đang tìm sai chỗ mà thôi.

Web chúng ta dùng và Web thực sự quan trọng

Hầu hết chúng ta coi web là một nguồn thông tin duy nhất. Trong thực tế, có ít nhất hai loại web.

Thứ nhất là Surface Web (Mạng lưới bề mặt): thế giới công khai được lập chỉ mục như những gì chúng ta thấy trên Reddit, Wikipedia và các trang tin tức. Đây là nguồn dữ liệu mà chúng ta đã thu thập và lạm dụng trong nhiều năm để huấn luyện các mô hình AI chủ lưu hiện nay.

Thứ hai là thứ được gọi là Deep Web (Mạng lưới sâu), và ở đây tôi không nói đến "Dark Web" hay bất cứ điều gì bất hợp pháp. Deep Web đơn giản là mọi thứ nằm sau một lớp đăng nhập hoặc tường lửa. Nó đề cập đến bất kỳ thứ gì trực tuyến nhưng không được lập chỉ mục công khai. Đó có thể là cổng thông tin bệnh nhân của bệnh viện, bảng điều khiển nội bộ của ngân hàng, kho lưu trữ tài liệu doanh nghiệp, cơ sở dữ liệu riêng tư và hàng tấn email nằm sau màn hình đăng nhập. Bình thường, nhàm chán, nhưng là dữ liệu vô cùng giá trị.

Nhiều nghiên cứu chỉ ra rằng Deep Web lớn hơn Surface Web nhiều cấp độ. Quan trọng hơn, đó là dữ liệu có chất lượng tốt hơn rất nhiều. So với nội dung trên Surface Web thường ồn ào, đầy thông tin sai lệch và được tối ưu hóa mạnh mẽ cho SEO — thậm chí ngày càng chứa nhiều nội dung được thiết kế để đánh lừa hoặc đầu độc các mô hình AI — thì dữ liệu Deep Web như hồ sơ y tế, tài liệu tài chính được xác minh hoặc các cơ sở dữ liệu nội bộ khác thường sạch sẽ, được xác thực và được tổ chức bởi những người quan tâm đến chất lượng của nó.

Vấn đề nằm ở đâu? Tôi nghĩ bạn có thể đoán được, đó là tính riêng tư. Bạn không thể chỉ đơn giản là trích xuất một triệu hồ sơ y tế mà không cân nhắc tất cả các thảm họa pháp lý và đạo đức mà bạn sẽ gây ra.

Khung PROPS

Đây là lúc một khung mới gọi là PROPS (Protected Pipelines) phát huy tác dụng. Được giới thiệu bởi Ari Juels (Cornell Tech), Farinaz Koushanfar (UCSD) và Laurence Moroney (cựu Giám đốc AI của Google), PROPS đóng vai trò là một cầu nối giữa dữ liệu nhạy cảm này và các mô hình AI cần nó.

Điểm tuyệt vời của PROPS là nó không yêu cầu bạn "giao nộp" dữ liệu của mình. Thay vào đó, nó sử dụng Privacy-Preserving Oracles (Oracle bảo vệ quyền riêng tư). Hãy tưởng tượng Oracle như một "người trung gian đáng tin cậy" có thể xem xét dữ liệu của bạn, xác minh nó là thật, sau đó cho mô hình AI biết những gì nó cần mà không bao giờ hiển thị thông tin thô cho mô hình.

Các khái niệm của PROPS nghe có vẻ ma thuật vì nó có thể giải quyết nhiều vấn đề liên quan đến tính sẵn có của dữ liệu mà các mô hình AI đối mặt ngày nay. Nhưng nó hoạt động chính xác như thế nào? Hãy lấy ví dụ về một công ty y tế muốn huấn luyện một công cụ chẩn đoán trên hồ sơ sức khỏe thực tế. Trong khuôn khổ PROPS:

Quyền (Permission): Với tư cách là người dùng, bạn đăng nhập vào cổng thông tin sức khỏe của riêng mình và ủy quyền cho một mục đích sử dụng cụ thể cho dữ liệu của mình.
Oracle: Hãy tưởng tượng Oracle như một công chứng viên kỹ thuật số. Nó truy cập vào cổng riêng tư của bạn (như cơ sở dữ liệu bệnh viện) để xác minh rằng dữ liệu của bạn là thật. Thay vì sao chép tệp của bạn, nó đơn giản nói với hệ thống AI: "Tôi đã thấy các tài liệu gốc và tôi xác nhận chúng là chính xác." Nó cung cấp bằng chứng của sự thật mà không bao giờ chuyển giao dữ liệu riêng tư thực tế. Các công cụ cho việc này đã tồn tại, như DECO — một giao thức cho phép người dùng chứng minh rằng họ đã lấy một đoạn dữ liệu cụ thể từ máy chủ web qua kênh TLS an toàn.
Secure Enclave (Khu vực an toàn): Đây là một "hộp đen" bên trong phần cứng máy tính nơi quá trình huấn luyện thực tế diễn ra. Chúng ta đặt mô hình AI và dữ liệu riêng tư của bạn vào bên trong và "khóa cửa lại". Không con người hay nhà phát triển nào có thể thấy những gì đang xảy ra bên trong. AI "nghiên cứu" dữ liệu và rời đi chỉ với các trọng số (weights) của mô hình. Dữ liệu thô vẫn bị khóa bên trong cho đến khi phiên kết thúc.
Kết quả: Mô hình được huấn luyện trên dữ liệu bên trong hộp đó. Chỉ các "trọng số" đã cập nhật (kiến thức học được) được đưa ra. Dữ liệu thô không bao giờ bị mắt người nhìn thấy.

Người đóng góp biết chính xác họ đang đồng ý với điều gì và họ có thể được thưởng cho việc tham gia theo cách được cân chỉnh với mức độ hữu thực của dữ liệu cụ thể của họ. Đây thực sự là một mối quan hệ khác biệt giữa chủ sở hữu dữ liệu và các hệ thống AI.

Tại sao phải phức tạp như vậy thay vì dùng Dữ liệu tổng hợp (Synthetic Data)?

Một số người có thể hỏi: "Tại sao phải rắc rối với thiết lập phức tạp này khi chúng ta có thể chỉ cần tạo dữ liệu tổng hợp?"

Câu trả lời là dữ liệu tổng hợp là "kẻ giết chết sự đa dạng". Theo định nghĩa, việc tạo dữ liệu tổng hợp sẽ củng cố phần giữa của đường cong hình chuông (phần đa số). Nếu bạn có một tình trạng y tế hiếm gặp chỉ ảnh hưởng đến 0,01% dân số, trình tạo dữ liệu tổng hợp có khả năng sẽ coi bạn là "nhiễu" và làm mờ bạn đi.

Các mô hình được huấn luyện trên dữ liệu tổng hợp sẽ trở nên ngày càng tồi tệ hơn trong việc phục vụ các trường hợp ngoại lệ (outliers). PROPS giải quyết vấn đề này bằng cách tạo ra một cách thức an toàn để những người thật có các tình trạng hiếm gặp hoặc bối cảnh độc đáo có thể "tự chọn tham gia" (opt-in). Nó biến việc chia sẻ dữ liệu từ rủi ro quyền riêng tư thành một "thị trường dữ liệu", nơi dữ liệu giá trị nhận được sự đền bù xứng đáng.

Không chỉ là huấn luyện, suy luận (Inference) cũng quan trọng

Hầu hết các cuộc thảo luận tập trung vào huấn luyện, nhưng PROPS có một ứng dụng equally thú vị ở khía cạnh suy luận.

Ví dụ, việc vay vốn ngày nay liên quan đến rất nhiều thủ tục giấy tờ: sao kê ngân hàng, phiếu lương và tờ khai thuế. Trong hệ thống dựa trên PROPS, họ đề xuất sử dụng Mô hình Quyết định Cho Vay (LDM):

Bạn ủy quyền cho LDM nói chuyện trực tiếp với ngân hàng của bạn.
Ngân hàng xác nhận số dư của bạn thông qua một oracle bảo vệ quyền riêng tư.
LDM đưa ra quyết định.

Kết quả? Người cho vay nhận được câu trả lời "Có" hoặc "Không" đã được xác minh mà không bao giờ chạm vào tài liệu riêng tư của bạn. Điều này loại bỏ rủi ro rò rỉ dữ liệu và làm cho việc sử dụng các tài liệu giả mạo, can thiệp bằng Photoshop trở nên gần như không thể.

Điều gì thực sự đang ngăn chặn điều này xảy ra vào năm 2026?

Vấn đề đơn giản là nằm ở quy mô và cơ sở hạ tầng.

Phiên bản mạnh mẽ nhất của PROPS yêu cầu quá trình huấn luyện phải diễn ra bên trong một vùng an toàn được hỗ trợ bởi phần cứng (như Intel SGX hoặc NVIDIA H100 TEEs). Những thứ này hoạt động tốt ở quy mô nhỏ, nhưng việc khiến chúng hoạt động cho các cụm GPU khổng lồ cần thiết cho các LLM tiên phong vẫn là một vấn đề kỹ thuật chưa được giải quyết. Nó yêu cầu các cụm máy tính khổng lồ phải hoạt động đồng bộ hoàn hảo theo mã hóa.

Các nhà nghiên cứu rất rõ ràng: PROPS chưa phải là một sản phẩm hoàn chỉnh. Đó là một bằng chứng khái niệm thuyết phục. Tuy nhiên, một phiên bản nhẹ hơn có thể triển khai ngay hôm nay. Ngay cả khi không có sự đảm bảo phần cứng đầy đủ, bạn vẫn có thể xây dựng các hệ thống mang lại cho người dùng sự đảm bảo có ý nghĩa, điều này đã là một sự cải tiến so với việc yêu cầu ai đó gửi cho bạn một tệp PDF.

Lời kết

PROPS thực sự không phải là một công nghệ "mới"; nó là một ứng dụng mới của các công cụ hiện có. Các oracle bảo vệ quyền riêng tư đã được sử dụng trong không gian blockchain và Web3 (như Chainlink) trong nhiều năm. Sự hiểu biết ở đây là nhận ra rằng cùng một công cụ đó có thể giải quyết cuộc khủng hoảng dữ liệu của AI.

"Cuộc khủng hoảng dữ liệu" không phải là thiếu thông tin; đó là thiếu niềm tin. Chúng ta có nhiều dữ liệu hơn đủ để xây dựng thế hệ AI tiếp theo, nhưng nó bị khóa sau cánh cửa của Deep Web. Con rắn không nhất thiết phải ăn đuôi của nó; nó chỉ cần tìm một khu vườn tốt hơn.