Cựu nhân viên Apple sáng lập Moonbounce: Đưa kiểm duyệt nội dung vào thế kỷ AI

Moonbounce vừa huy động 12 triệu USD để phát triển hệ thống giám sát thời gian thực dựa trên AI, biến các chính sách kiểm duyệt thành mã nguồn có thể thực thi. Giải pháp này tập trung vào các nền tảng tạo nội dung và chatbot AI nhằm ngăn chặn các nội dung gây hại một cách hiệu quả hơn so với việc chỉ dựa vào con người.

Khi Brett Levenson rời Apple năm 2019 để dẫn dắt tính toàn vẹn kinh doanh tại Facebook, ông nhận ra vấn đề kiểm duyệt nội dung không chỉ nằm ở công nghệ. Tại thời điểm đó, ông tin rằng có thể sửa chữa các vấn đề của Facebook bằng công nghệ tốt hơn, nhưng ông nhanh chóng nhận ra vấn đề phức tạp hơn nhiều.

Bối cảnh và thách thức

Nhân viên đánh giá con người bị yêu cầu thuộc lòng tài liệu chính sách dài 40 trang đã được dịch máy sang ngôn ngữ của họ. Họ chỉ có khoảng 30 giây để xem xét từng nội dung bị báo cáo, đưa ra quyết định xem có chặn, cấm người dùng hay giới hạn lan truyền nội dung đó hay không. Theo Levenson, các quyết định này chỉ đạt độ chính xác "chỉ tốt hơn một chút so với việc tung xúc xắc".

"Điều này giống như tung đồng xu, nhân viên đánh giá có thể không thể thực hiện chính sách đúng cách, và điều này xảy ra nhiều ngày sau khi thiệt hại đã xảy ra", Levenson chia sẻ với TechCrunch.

Phương pháp phản ứng chậm chạp này không còn bền vững trong thế giới của các đối tượng xấu tính linh hoạt và được tài trợ tốt. Sự trỗi dậy của các bot trò chuyện AI đã làm phức tạp thêm vấn đề này, với nhiều vụ việc nổi tiếng cho thấy các bot cung cấp lời khuyên tự hại cho thanh thiếu niên hoặc hình ảnh AI lọt qua lưới an toàn.

Giải pháp "Chính sách dưới dạng mã"

Sự thất vọng của Levenson dẫn đến ý tưởng về "chính sách dưới dạng mã" (policy as code). Đây là cách chuyển đổi các tài liệu chính sách tĩnh thành logic thực thi, có thể cập nhật và liên kết chặt chẽ với việc thực thi.

Ý tưởng này dẫn đến sự ra đời của Moonbounce, công ty vừa công bố ngày thứ Sáu đã huy động 12 triệu USD vốn gọi, theo TechCrunch. Vòng gọi vốn này do Amplify Partners và StepStone Group đồng dẫn dắt.

Moonbounce hoạt động cùng các công ty để cung cấp một lớp an toàn bổ sung ở mọi nơi nội dung được tạo ra, dù là do người dùng hay AI. Công ty đã đào tạo riêng một mô hình ngôn ngữ lớn (LLM) để xem xét tài liệu chính sách của khách hàng, đánh giá nội dung tại thời gian chạy (runtime), cung cấp phản hồi trong 300 mili-giây hoặc ít hơn, và thực hiện hành động.

Tùy thuộc vào sở thích của khách hàng, hành động đó có thể là hệ thống của Moonbounce làm chậm tốc độ phân phối khi nội dung chờ xem xét của con người, hoặc chặn ngay lập tức các nội dung có rủi ro cao.

Ứng dụng và quy mô

Hiện nay, Moonbounce phục vụ ba lĩnh vực chính: Các nền tảng xử lý nội dung do người tạo như các ứng dụng hẹn hò; Các công ty AI xây dựng nhân vật hoặc trợ lý; và các trình tạo hình ảnh AI.

Moonbounce đang hỗ trợ hơn 40 triệu lượt đánh giá mỗi ngày và phục vụ hơn 100 triệu người dùng hoạt động hàng ngày trên nền tảng, Levenson cho biết. Khách hàng bao gồm công ty khởi nghiệp AI companion Channel AI, công ty tạo hình ảnh và video Civitai, cũng như các nền tảng vai trò trò chơi Dippy AI và Moescape.

"An toàn thực sự có thể là một lợi ích sản phẩm", Levenson nói với TechCrunch. "Chúng tôi thấy khách hàng của mình đang tìm ra những cách sáng tạo và đổi mới thú vị để sử dụng công nghệ của chúng tôi để biến an toàn thành một yếu tố khác biệt và phần câu chuyện sản phẩm của họ."

Tương lai và Chiến lược

Lenny Pruss, Giám đốc đầu tư tại Amplify Partners, nhận định: "Kiểm duyệt nội dung luôn là vấn đề ám ảnh các nền tảng trực tuyến lớn, nhưng giờ đây với AI ngôn ngữ lớn ở trọng tâm của mọi ứng dụng, thách thức này còn đáng sợ hơn nữa."

Các công ty AI đang đối mặt với áp lực pháp lý và danh tiếng ngày càng tăng sau khi các bot chat bị cáo buộc đẩy thanh thiếu niên và người dùng dễ tổn thương đến tự sát, hoặc các trình tạo hình ảnh bị sử dụng để tạo hình ảnh không có sự đồng thuận.

Levenson cho biết công ty này đang tập trung vào khả năng gọi là "iterative steering" (tương tác điều hướng lặp lại). Được phát triển dựa trên trường hợp tử vong của một cậu bé 14 tuổi tại Florida năm 2024, bị ám ảnh bởi chatbot Character AI. Thay vì từ chối thô bạo khi các chủ đề gây hại xuất hiện, hệ thống sẽ can thiệp vào cuộc hội thoại và chuyển hướng nó, sửa đổi các lời nhắc trong thời gian thực để đẩy chatbot hướng đến một câu trả lời hỗ trợ tích cực hơn.

Chiến lược rút lui

Khi được hỏi về chiến lược rút lui của mình, ví dụ như việc bị mua lại bởi Meta, Levenson nói rằng ông nhận ra Moonbounce sẽ rất phù hợp với quy trình làm việc của cựu employer của mình, cũng như nghĩa vụ bảo vệ lợi ích nhà đầu tư của mình.

"Nhà đầu tư của tôi sẽ giết tôi nếu tôi nói điều này, nhưng tôi ghét thấy ai đó mua chúng tôi và sau đó hạn chế công nghệ đó", ông nói. "Tức là: 'Được rồi, điều này là của chúng tôi, và không ai khác có thể hưởng lợi từ nó'."

Cựu nhân viên Apple sáng lập Moonbounce: Đưa kiểm duyệt nội dung vào thế kỷ AI

Bài viết liên quan