Thử nghiệm tính năng Avatar AI của Google Gemini: Bản sao số của tôi thật đáng sợ nhưng chân thực

Tôi đã sử dụng ứng dụng Gemini để tạo ra các video chân thực với bản sao kỹ thuật số của chính mình. Google coi đây là tương lai của sáng tạo nội dung, nhưng cá nhân tôi vẫn cảm thấy rùng mình trước độ chân thực của nó.

Một buổi chiều đẹp trời tại công viên Dolores Park ở San Francisco, tôi đang hát bài hát mừng sinh nhật cho một con khủng long thời tiền sử. Một chiếc bánh cupcake với nến hồng xuất hiện một cách kỳ diệu trong tay tôi ngay khi tôi kết thúc bài hát. Khi tôi thổi tắt ngọn nến, một vẻ mặt thỏa mãn lan tỏa trên khuôn mặt của sinh vật giống CGI này.

Mặc dù người đàn ông trong video AI này trông và âm thanh giống hệt tôi, nhưng đoạn clip thực tế được tạo ra bằng một trong các tính năng mới có sẵn trong ứng dụng Google Gemini: Avatar. Những bản sao kỹ thuật số này tương tự như các tính năng cốt lõi của ứng dụng Sora hiện đã ngừng hoạt động của OpenAI. Đây là bản sao kỹ thuật số của bạn có thể được chèn vào các video AI. Avatar được cung cấp bởi mô hình video Omni mới của công ty và tính năng này chỉ dành cho người đăng ký thuê bao.

Tôi trả 20 đô la mỗi tháng cho gói Google AI Pro và nhanh chóng hết giới hạn sử dụng của Gemini, giới hạn này sẽ được đặt lại sau mỗi 5 giờ. Tôi chỉ cần đặt vài câu hỏi và tạo hai đoạn clip dài 10 giây có sự xuất hiện của avatar của mình, sau đó tôi được yêu cầu đợi đến lúc khác.

Hai cái nhìn đầu tiên của tôi về những gì Omni có thể làm với ngoại hình của tôi là cảnh tôi đang hát cho khủng long ở San Francisco và lướt sóng dưới cầu Golden Gate Bridge. Tôi vừa ấn tượng vừa cảm thấy rùng mình. Nội dung khá gượng ép, với một số khoảnh khắc lộn xộn và trang phục vô lý, nhưng người đàn ông trong video đó chính là tôi. Tôi dùng ngón tay để phóng to khuôn mặt của nó và thực sự quan sát chuyển động của miệng. Răng hơi bị sai một chút, nhưng phần còn lại chính là Reece, cho đến cả cằm đôi.

Khác với OpenAI, trước đây cho phép người dùng quyết định liệu họ có muốn người khác tạo video AI sử dụng ngoại hình của họ hay không, Google chỉ cho phép người dùng trưởng thành tạo video với avatar của chính họ.

Mất khoảng năm phút để thiết lập avatar của tôi thông qua ứng dụng Gemini. Quy trình bao gồm việc ngồi trong một căn phòng có ánh sáng tốt với camera điện thoại hướng vào mặt tôi và đọc một chuỗi các số có hai chữ số. Sau đó, tôi từ từ nhìn sang phải và quay đầu sang trái, và mọi thứ kết thúc. Reece 2.0 ra đời và sẵn sàng trở thành ngôi sao deepfake của tôi. (Hãy chú ý đến những gì bạn đang mặc trong quá trình này, vì trang phục của bạn có khả năng sẽ xuất hiện trong các bản tạo ra của AI, nhưng chúng ta sẽ nói kỹ hơn về điều này sau).

Hãy cùng phân tích đoạn clip sinh nhật từng khung hình để thực sự giải thích cảm xúc của tôi ở đây. Lời nhắc đầy đủ: Tạo một video về tôi đang hát bài hát chúc mừng sinh nhật cho một con khủng long già ở trên đồi tại công viên Dolores Park.

Giây đầu tiên bắt đầu với một khoảng lặng kiểu thế hệ thiên niên kỷ, bởi vì ngay cả AI Reece cũng có một số thói quen ăn sâu vào tiềm thức. Điều đáng chú ý nhất ban đầu là bối cảnh giống như thật. Thay vì đặt avatar của tôi trên một ngọn đồi khổng lồ tại một công viên ngẫu nhiên, nền video AI của Google lại đáng kinh ngạc tương tự như địa điểm thực tế. Từ những lối đi lát gạch ven đường đến tòa nhà Salesforce looming ở phía xa, ngay lập tức có thể nhận ra công viên nào được mô tả ở đây, mặc dù kết quả đầu ra không hoàn hảo. Điều này có ý nghĩa khi một công ty nổi tiếng với việc lập bản đồ hành tinh có thể đạt được điều này.

Khi bản sao AI của tôi bắt đầu hát, với giọng nam trung (baritone) cao hơn một chút so với khả năng thực tế của tôi, vài nhịp đầu tiên có vẻ tự nhiên. tôi vẫy tay lên xuống theo nhịp, giống như một người chỉ huy thu nhỏ. Sau đó, tôi nói lắp ở từ "to", và Gemini chuyển sang góc quay rộng hơn khi sự hỗn loạn thực sự bắt đầu. Một chiếc bánh cupcake vani xuất hiện ngẫu nhiên, và tôi thổi ra một làn khói để thổi tắt nến chúc mừng. (Thành thật mà nói, thật thô lỗ của AI Reece. Đó không phải là ngày đặc biệt của bạn.)

Đoạn clip AI khác mà tôi tạo ra bằng tính năng avatar cũng kết hợp những khoảnh khắc hỗn loạn với những cảnh quay chân thực của tôi đang nói chuyện trước camera. Lời nhắc đầy đủ: Tạo một video về tôi đang lướt sóng bên dưới cầu Golden Gate Bridge.

Thay vì mặc đồ bơi cho tôi, tôi mặc đồ denim từ đầu đến chân. Ít nhất thì không đi giày trên ván lướt sóng, tôi đoán vậy. Bản tạo ra AI này bao gồm các cảnh quay trông như thể được chụp bằng máy ảnh GoPro gắn trên ván lướt sóng.

Khi ngày càng nhiều người sử dụng AI tạo sinh, đặc biệt là các mô hình không có hàng rào an toàn nghiêm ngặt, các công cụ này đang ngày càng được sử dụng để nhắm vào phụ nữ bằng các deepfake không có sự đồng thuận. Google tuyên bố họ đặt sự an toàn lên hàng đầu khi triển khai tính năng mới này. "Chúng tôi cố gắng ngăn chặn tác hại", nói Nicole Brichtova, người đứng đầu nhóm sản phẩm làm việc trên Omni tại Google DeepMind. "Và chúng tôi cố gắng làm điều đó theo cách mà chúng tôi không chặn những việc vô hại."

Mặc dù có những sự nói lắp và các lỗi khác trong các đoạn clip của AI Reece, những phiên bản siêu thực của chính mình cảm thấy có thật hơn nhiều so với khi tôi nghe lại thư thoại hoặc xem lại một đoạn clip cuối tuần vui vẻ. Avatar không nhất thiết trông giống một phiên bản đẹp hơn của tôi, không, nó là một thứ gì đó đáng sợ hơn. Bản sao kỹ thuật số của tôi là Reece liền mạch. Luôn sẵn sàng ở bất cứ đâu, làm bất cứ điều gì, để là tôi.

Thử nghiệm tính năng Avatar AI của Google Gemini: Bản sao số của tôi thật đáng sợ nhưng chân thực

Bài viết liên quan