Google Rilis Gemini 3.1 Flash TTS, Suara AI Kini Terasa Jauh Lebih Natural dan Ekspresif

Author: Qoo Media

Google resmi merilis Gemini 3.1 Flash TTS, model text-to-speech terbaru yang membawa suara AI ke level yang lebih natural. Perusahaan menyebut pembaruan ini membuat suara terdengar lebih hidup, lebih ekspresif, dan lebih mudah dikendalikan oleh pengguna.

Peluncuran ini diumumkan melalui blog resmi Google dan langsung menarik perhatian karena menawarkan kontrol yang lebih rinci atas cara AI berbicara. Pengguna kini bisa mengatur gaya bicara, kecepatan, dan ekspresi suara dengan lebih fleksibel, sehingga hasil audio dapat disesuaikan dengan kebutuhan yang berbeda.

Suara AI yang lebih alami dan responsif

Google meningkatkan kualitas audio pada Gemini 3.1 Flash TTS agar generasi suaranya tidak lagi terdengar kaku. Model ini dirancang untuk menghasilkan ucapan yang lebih natural dan ekspresif dibandingkan versi sebelumnya.

Kelebihan lain muncul dari kontrol kreatif berbasis bahasa alami. Dengan pendekatan ini, pengguna dapat memberi arahan langsung dalam teks tanpa harus mengutak-atik pengaturan teknis yang rumit.

Dalam pengujian Artificial Analysis TTS, model ini mencatat skor Elo 1.211. Angka tersebut menunjukkan tingkat kepuasan pengguna yang tinggi terhadap kualitas audio yang dihasilkan.

Artificial Analysis juga menempatkan Gemini 3.1 Flash TTS di kuadran yang dianggap paling menarik karena menggabungkan performa tinggi dengan biaya yang relatif rendah. Kombinasi ini membuat model tersebut terlihat kompetitif untuk kebutuhan pengembang dan perusahaan.

Kontrol audio tag untuk hasil yang lebih spesifik

Salah satu fitur yang menjadi sorotan adalah audio tag. Fitur ini memungkinkan pengguna mengatur gaya bicara, kecepatan, dan ekspresi suara dengan lebih detail melalui perintah berbasis bahasa alami.

Google juga menambahkan sejumlah kontrol lain agar hasil suara lebih presisi. Beberapa di antaranya mencakup pengarahan adegan untuk menentukan konteks percakapan, pengaturan profil suara tiap karakter, serta kemampuan mengekspor konfigurasi ke API agar konsistensi tetap terjaga.

Bagi pengembang, pendekatan ini memberi ruang yang lebih besar dalam membangun pengalaman audio. Hasilnya, teks biasa bisa diubah menjadi suara yang terdengar lebih terarah, hidup, dan profesional.

Dukungan lintas bahasa untuk penggunaan global

Gemini 3.1 Flash TTS tidak hanya ditujukan untuk satu pasar, tetapi disiapkan untuk skala global. Google mengklaim model ini mampu menghasilkan suara berkualitas tinggi dalam lebih dari 70 bahasa.

Optimalisasi tersebut juga mencakup pengaturan gaya bicara, kecepatan, dan aksen lintas bahasa dengan presisi yang lebih tinggi. Hal ini penting bagi pengembang yang ingin menghadirkan layanan audio relevan di berbagai wilayah.

Sejumlah pengembang dan perusahaan yang sudah mencoba versi awal melaporkan hasil yang positif. Mereka menilai fitur kontrol yang tersedia membuat audio terdengar lebih natural dan lebih profesional saat digunakan dalam berbagai skenario.

Akses awal sudah tersedia lewat ekosistem Google

Saat ini, Gemini 3.1 Flash TTS masih berada dalam tahap pratinjau. Meski begitu, akses awal sudah dibuka untuk beberapa jalur penggunaan yang berbeda sesuai kebutuhan pengguna dan pengembang.

Pengembang dapat mencobanya melalui API Gemini dan Google AI Studio. Sementara itu, perusahaan bisa mengakses model ini lewat Vertex AI, dan pengguna Workspace dapat memanfaatkannya melalui Google Vids.

Tanda air SynthID untuk keamanan

Selain fokus pada kualitas suara, Google juga menambahkan lapisan keamanan pada setiap audio yang dihasilkan. Teknologi tanda air SynthID disematkan langsung ke dalam file audio dan tidak terlihat oleh pengguna.

Fungsinya adalah membantu mengidentifikasi konten yang dibuat oleh AI. Langkah ini ditujukan untuk meminimalkan risiko penyalahgunaan, termasuk penyebaran informasi yang menyesatkan.

Dengan kombinasi suara yang lebih realistis, kontrol yang lebih fleksibel, dan dukungan multi-bahasa, Gemini 3.1 Flash TTS memperlihatkan arah baru pengembangan AI voice Google. Model ini menempatkan kualitas ujaran, keamanan, dan kemudahan kendali dalam satu paket yang lebih siap dipakai untuk kebutuhan modern.

Source: www.idntimes.com
Terbaru