Omni của Google: Mô hình AI mới biến mọi thứ thành video với độ chân thực đáng sợ

Google vừa ra mắt Omni, một mô hình AI tạo sinh mới có khả năng biến hình ảnh, video và văn bản thành video hoàn chỉnh. Mặc dù cải thiện khả năng duy trì tính nhất quán của nhân vật so với người tiền nhiệm Veo, Omni vẫn tạo ra những lỗi kỳ quặc và đòi hỏi chi phí tín dụng cao để sử dụng. Đáng chú ý nhất là khả năng deepfake của công cụ này đã đạt đến mức chân thực đến khó tin.

Năm ngoái, tôi đã từng thử tạo deepfake cho con nai bông của con mình để làm cho nó trông giống như đang đi nghỉ mát. Đó là một thử nghiệm để xem liệu tôi có thể tái hiện các sự kiện trong một quảng cáo của Gemini mà Google đang chạy hay không, và tôi chưa bao giờ cho đứa trẻ bốn tuổi của mình xem những video về chú nai Buddy trong những cuộc phiêu lưu đó. Nhưng đó là một bài tập thú vị khiến tôi suy nghĩ nhiều về ranh giới mong manh giữa niềm vui vô hại với AI tạo sinh và những nội dung rác thải số (slop). Có thể biểu đồ Venn của hai khái niệm này là một hình tròn hoàn hảo! Có thể cũng không. Nhưng điều tôi chắc chắn là các công cụ để tạo ra video chân thực đang surprisingly tốt, đòi hỏi rất ít công sức và kiến thức chuyên môn. Và xu hướng này đang tiếp tục nóng rực trong kỷ nguyên Omni của Gemini.

Mô hình AI Omni của Google

Omni là một họ mô hình tạo sinh mới mà Google khẳng định một ngày nào đó sẽ có thể chuyển đổi bất kỳ loại đầu vào nào — ảnh, video, văn bản — thành bất kỳ thứ gì khác. Nhưng để bắt đầu, nó hiện chỉ mới tạo ra video. Omni Flash là mô hình đầu tiên trong số này mà Google đã phát hành, hiện có sẵn trên nền tảng tạo và chỉnh sửa video AI của công ty, Flow. Bạn vẫn có thể sử dụng mô hình trước đó là Veo nếu muốn, nhưng Omni cải thiện Veo theo một số cách.

Trải nghiệm với chú nai Buddy

Với Omni, bạn có thể tải lên một video và sử dụng nó cùng với một câu lệnh văn bản (prompt) làm điểm khởi đầu cho tác phẩm do AI tạo ra của mình. Google cũng tuyên bố Omni kết hợp nhiều kiến thức về thế giới thực hơn khi sản xuất video và có thể làm tốt hơn việc giữ cho nhân vật nhất quán trong suốt video. Chỉ có một cách để thực sự biết những tuyên bố đó có đúng không: tôi đã đưa AI Buddy trở lại để đóng gói những chiếc vali nhỏ do AI tạo ra cho một cuộc phiêu lưu khác.

Kết quả là một hỗn hợp lộn xộn đến mức khó hiểu. Một số rất tốt — nhất quán và đúng với câu lệnh của tôi hơn nhiều so với khi tôi thử nghiệm Veo cách đây năm tháng. Nhưng ngay cả những đoạn clip tốt nhất mà Omni tạo ra cho tôi vẫn có những "cú hù dọa" của AI, chẳng hạn như khi Buddy đột ngột thay đổi hướng trong khi nhảy dù.

Chỉnh sửa video bằng AI

Đối với một video khác, tôi đã cho Omni một chút tự do nghệ thuật. "Tạo một đoạn montage về việc Buddy đóng gói hành lý cho kỳ nghỉ và lên tàu du lịch cho một kỳ nghỉ nhiệt đới. Tâm trạng dễ thương và vui nhộn. Buddy đóng gói một thứ gì đó hài hước vào vali và thứ đó xuất hiện sau trong đoạn clip." Nó đã khiến Buddy đóng gói một lọ mật ong; sau đó trong clip, Buddy với lấy nó như thể đó là một chai kem chống nắng. "Ôi không," nhân vật nói khi bôi mật ong lên móng guốc của mình.

Thành thật mà nói, không phải là một ý tưởng tồi. Ngoại trừ việc chai mật ong liên tục thay đổi trong suốt video, từ một cái lọ, sang một chai xịt trong suốt chứa nước, rồi lại trở thành chai nhựa chứa mật ong. Và tôi thậm chí không thể bắt đầu mô tả cách mà mô hình nghĩ ra khung hình cuối cùng của video — gần như thể nó vừa nôn ra một loạt các yếu tố của chuỗi sự kiện mà nó vừa tạo ra.

Chỉnh sửa và chi phí

Bạn có thể sử dụng các câu lệnh dựa trên văn bản để đề xuất chỉnh sửa video của mình, và tôi phải ghi nhận điểm cho Google: tính năng này hoạt động tốt hơn với Omni so với khi tôi thử nghiệm Veo 3. Nhưng kết quả trước đó rất tệ — tệ đến mức tôi thấy việc nhắc (prompt) một video mới từ đầu mỗi khi muốn thay đổi cái gì đó dễ dàng hơn nhiều. Omni thực sự sẽ ghi nhận các chỉnh sửa của bạn, nhưng kết quả không luôn luôn đạt yêu cầu.

Tôi đã yêu cầu nó nhấn mạnh vào các phản ứng khuôn mặt của Buddy trong các đoạn clip nghỉ dưỡng của mình, và kết quả trông thật kỳ lạ. Nó cũng thỉnh thoảng đưa ra sừng cho Buddy, thứ mà cậu ấy không có. Buddy là một em bé, cảm ơn bạn rất nhiều. Khi tôi nhắc nó loại bỏ những chiếc sừng xuất hiện trong một cảnh, nó đã làm theo — và sau đó lại thêm sừng vào tất cả các cảnh khác.

Vấn đề là, không có cái nào là miễn phí. Việc tạo video tốn tín dụng (credits), thay đổi từ 15 đến 40 tín dụng dựa trên độ dài của cảnh và "nguyên liệu" bạn bắt đầu. Một vòng chỉnh sửa tốn 40 tín dụng. Tôi đang sử dụng gói AI Pro giá 20 đô la mỗi tháng đi kèm 1.000 tín dụng mỗi tháng. Sau khoảng 20 clip được tạo ra với một vài chỉnh sửa, tôi chỉ còn lại 145 tín dụng. Nếu bạn có những ý tưởng cụ thể về video mà bạn muốn Omni tạo ra, bạn có thể sẽ phải đối mặt với rất nhiều lần đi lại tốn kém với mô hình để có được một video gần với tầm nhìn của mình.

Deepfake chính mình: Đi sâu vào thung lũng kỳ quái

Một trong những điểm mạnh được cho là của Omni là thêm các vật thể do AI tạo vào video thực, vì vậy tôi đã để Buddy nghỉ ngơi và deepfake chính mình. Bắt đầu với một video selfie với biểu cảm trung tính, tôi đã nhắc Omni tạo ra video của tôi đang ăn một đĩa mì ý, ngồi trên ghế máy bay và đứng trước tháp Eiffel cắn một chiếc bánh mì baguette. Và tôi có thể thành thật nói rằng tôi không hề chuẩn bị cho những gì mình đã thấy.

Có những dấu hiệu nhận biết của AI trong các video deepfake của tôi. Tiếng lạch cạch của nĩa va vào bát mì ý có vẻ hơi bị tạo ra quá công nghiệp. Có một người phụ nữ trong nền của video máy bay xuất hiện hai lần. Nhưng ngoài những lỗi nhỏ đó và một cảm giác hơi kỳ quái (uncanny) mơ hồ về chúng, chúng thuyết phục đến mức đáng sợ.

Tôi đã cho chồng xem đoạn clip ăn mì ý; anh ấy biết tôi đang thử nghiệm công cụ video AI nhưng tôi không nói cho anh ấy biết cảnh nào trong đoạn video được tạo ra bởi AI. Nếu không biết điều gì được tạo ra bởi AI, anh ấy đã tin rằng tôi đang ngồi trước máy ảnh ăn mì ý, và nói rằng manh mối duy nhất của anh ấy rằng có điều gì đó không ổn là cái bát trông lạ lẫm. Việc ăn mì ý trông thực tế đủ để thuyết phục chồng tôi. Một người đàn ông đã nhìn tôi trong đời thực cơ bản là mỗi ngày trong suốt thập kỷ qua.

Những deepfake khác của tôi ở các mức độ "đủ tốt để lừa người trên mạng xã hội" khác nhau. Một vài đoạn clip tháp Eiffel trông hơi hoạt hình, nhưng một trong số chúng đủ thuyết phục để bạn có thể cần xem lại vài lần mới nhận ra đó là AI. Tôi biết đó không phải là tôi khi AI tôi quay đầu lại và lộ ra tóc buộc đuôi ngựa. Nhưng tôi không chắc bất kỳ ai khác có biết sự khác biệt hay không, và điều đó khiến tôi cảm thấy kỳ lạ.

Tôi hơi mệt mỏi vì tất cả những điều này, thành thật mà nói. Tôi đã bị sốc khi thử nghiệm Veo 3 trước đây về mức độ chân thực mà nó có thể tạo ra. Tôi đã bị sốc về việc dễ dàng tạo ra những người giả trong ảnh giả lặp đi lặp lại trong vài năm qua. Tôi có lẽ nên bị sốc bởi Omni too, và tôi đoán tôi có, nhưng sự sắc bén đã mòn đi.

Nó vẫn chưa hoàn toàn dễ dàng để tạo ra một kiệt tác điện ảnh do AI tạo ra như Google muốn bạn tin. Nhưng Omni cải thiện Veo theo một số cách có thể nhận ra. Nếu bạn có tài khoản Google và thẻ tín dụng, bạn có thể lấy một video của mình ngồi ở nhà và làm cho nó trông như thể bạn đang trên chuyến bay đến Maui với một lượng công sức không đáng kể. Tôi không nghĩ chúng ta đang ở "đồi thấp của điểm kỳ dị" (singularity) chính xác, nhưng chúng ta chắc chắn đang đi sâu trong thung lũng kỳ quái.

Omni của Google: Mô hình AI mới biến mọi thứ thành video với độ chân thực đáng sợ

Trải nghiệm với chú nai Buddy

Chỉnh sửa và chi phí

Deepfake chính mình: Đi sâu vào thung lũng kỳ quái

Bài viết liên quan