Gemini Omni Ubah Foto, Audio, dan Teks Jadi Video, Langkah Google yang Sulit Diabaikan

Google memperkenalkan Gemini Omni sebagai model AI yang diklaim bisa membuat “apa pun dari input apa pun”, dengan fokus awal pada pembuatan video. Pengumuman ini langsung menonjol karena model tersebut tidak hanya menghasilkan video dari teks, tetapi juga dari gambar, audio, dan video yang sudah ada.

Kemampuan itu menempatkan Gemini Omni sebagai langkah baru dalam strategi AI Google yang makin menekankan kreasi multimodal. Bagi pengguna, implikasinya besar karena satu sistem kini dirancang untuk menggabungkan banyak jenis masukan sekaligus lalu mengubahnya menjadi video berkualitas tinggi.

Model pertama di platform ini bernama Gemini Omni Flash. Google mulai menggulirkannya ke aplikasi Gemini, Google Flow, dan YouTube Shorts.

Google menjelaskan bahwa Gemini Omni Flash juga mendukung penyuntingan video melalui perintah bahasa alami. Artinya, pengguna tidak harus mengedit secara manual di timeline tradisional untuk mengubah elemen tertentu di dalam video.

Kemampuan edit ini menjadi salah satu bagian paling menarik dari pengumuman tersebut. Pengguna dapat merekam sebuah video lalu meminta Omni mengubah isi adegan, termasuk menambahkan karakter atau objek baru, bahkan mengubah sebuah momen menjadi sesuatu yang tidak terduga.

Pendekatan itu menunjukkan bahwa Gemini Omni tidak hanya berperan sebagai generator video, tetapi juga sebagai alat modifikasi konten visual. Ini memperluas fungsi AI dari sekadar membuat klip baru menjadi menyunting rekaman yang sudah ada dengan instruksi sederhana.

Fokus pada realisme video

Salah satu klaim utama Google adalah peningkatan pemodelan aspek fisika di dalam video. Gemini Omni disebut lebih baik dalam memahami gravitasi, dinamika fluida, dan energi kinetik agar hasil visual terlihat lebih realistis.

Poin ini penting karena video AI sering dikritik karena gerakan objek, cairan, atau interaksi fisik yang terasa janggal. Dengan menyoroti pemahaman atas gravitasi dan gerak, Google mencoba menunjukkan bahwa Gemini Omni dirancang untuk mengurangi kelemahan umum yang sering memicu kesan “uncanny valley”.

Meski begitu, efektivitas klaim tersebut masih akan diuji setelah lebih banyak pengguna mulai membuat konten sendiri. Demo singkat yang ditampilkan Google terlihat impresif, tetapi kualitas penggunaan di dunia nyata baru akan terlihat ketika platform ini dipakai secara luas.

Google sendiri menempatkan Gemini Omni sebagai langkah lanjutan dari Nano Banana. Platform ini juga disebut sebagai peningkatan berikutnya dalam lini alat generatif Google yang semakin berfokus pada produksi media yang kompleks.

Bisa menggabungkan banyak jenis input

Keunggulan utama Gemini Omni terletak pada sifat multimodalnya. Google menyebut pengguna bisa mengombinasikan gambar, audio, video, dan teks untuk menghasilkan video berkualitas tinggi dalam satu alur kerja.

Kemampuan tersebut membuka skenario penggunaan yang lebih luas daripada generator video berbasis teks biasa. Satu proyek video dapat dibangun dari foto, potongan suara, klip video, dan instruksi tertulis sekaligus, lalu disempurnakan lagi lewat perintah lanjutan.

Bagi kreator, alur seperti ini berpotensi memangkas tahap produksi yang biasanya terpisah. Satu sistem bisa berfungsi sebagai mesin ide, alat komposisi, dan editor berbasis prompt dalam waktu yang sama.

Google juga menyiapkan distribusi fitur ini ke beberapa layanan yang dekat dengan ekosistem kreator. Selain hadir di aplikasi Gemini dan Google Flow, Gemini Omni Flash dijadwalkan meluncur ke YouTube Shorts dan aplikasi YouTube Create pada pekan yang sama.

Siapa yang bisa mengakses

Gemini Omni Flash tersedia secara global untuk pelanggan Google AI Plus, Pro, dan Ultra. Langkah ini menunjukkan bahwa akses awal diposisikan sebagai fitur premium di dalam ekosistem AI Google.

Distribusi ke YouTube Shorts juga menandakan arah penggunaan yang sangat praktis. Fitur video generatif dan editing berbasis AI tidak lagi berhenti di ruang demo, tetapi diarahkan ke format konten pendek yang sangat populer dan cepat diproduksi.

Di saat yang sama, Google menambahkan lapisan penandaan pada semua konten yang dibuat dengan model ini. Seluruh konten dari Gemini Omni akan diberi tag SynthID, watermark digital milik Google untuk menandai bahwa materi tersebut dibuat dengan AI dan berasal dari Gemini Omni.

Kehadiran SynthID menjadi bagian penting dari peluncuran ini karena kemampuan generatif video yang makin realistis membawa konsekuensi besar pada transparansi konten. Penandaan semacam ini ditujukan agar asal-usul materi buatan AI tetap dapat dikenali.

Peluncuran Gemini Omni datang di tengah rangkaian besar pengumuman AI Google di I/O 2026, termasuk integrasi AI yang lebih luas di Search, Gemini 3.5, dan asisten personal AI baru bernama Gemini Spark. Namun di antara semua itu, kemampuan membuat dan mengedit video dari hampir semua jenis input menjadi salah satu langkah yang paling menonjol karena langsung menyasar cara konten digital diproduksi dan diubah.

Source: www.xda-developers.com

Qoo MediaSabtu, 23 Mei 2026 - 11:41 pm

Gemini Omni Ubah Foto, Audio, dan Teks Jadi Video, Langkah Google yang Sulit Diabaikan

Netflix Tunjuk Jay Hoag Pimpin Dewan Baru, Pengganti Reed Hastings Usai Kontroversi Absensi Rapat

Kawasaki W230 Datang dengan Gaya 70-an, Mesin 233 CC dan ABS Siap Usik Rival Retro

Xiaomi Rilis Redmi Pad 2 9.7 Di RI, Tablet 2K 120Hz Yang Terasa Tak Masuk Akal Murahnya

Suzuki Landy Hybrid 2026 Tinggalkan Mesin Bensin, MPV Kembar Voxy Ini Kini Lebih Irit dan Muat 8 Orang

Drone Agras T40 Ubah Ritme Kebun Sawit Riau, 1 Hektare Bisa Dipupuk Sekitar 30 Menit

E Ink dan MediaTek Siapkan E-Reader Warna Generasi Baru, Lebih Cerdas dan Lebih Tajam

Berita Terkait

E Ink dan MediaTek Siapkan E-Reader Warna Generasi Baru, Lebih Cerdas dan Lebih Tajam

Laptop RTX Spark Bisa Masuk Kelas MacBook Pro, Dell XPS 16 dan Surface Laptop Ultra Siap Menantang

HP Kemasukan Air, 7 Langkah Penyelamat Sebelum Mati Total

eSIM di Android, Langkah Praktis yang Menentukan Saat Pindah Nomor