Gemini 2.5 Text-to-Speech (TTS) kini mampu menghasilkan dialog multi-speaker yang mulus dan mempertahankan konsistensi suara karakter di 24 bahasa sekaligus

Gemini 2.5 TTS Google resmi meluncur: Voice AI paling ekspresif, jago dialog, dan multi-bahasa. (Image credit: Blog Google)
Google DeepMind baru-baru ini mengumumkan pembaruan yang sangat signifikan pada model preview Gemini 2.5 Flash dan Gemini 2.5 Pro Text-to-Speech (TTS). Pembaruan ini dianggap sebagai lompatan besar dalam dunia pembuatan audio sintetis, bertujuan untuk menawarkan tingkat kontrol dan kualitas suara yang belum pernah ada sebelumnya bagi para pengembang aplikasi.
Peningkatan ini menunjukkan komitmen Google untuk membawa teknologi suara buatan ke tingkat yang jauh lebih realistis dan dapat disesuaikan.
Model Gemini 2.5 TTS yang baru ini, yang secara resmi akan menggantikan model TTS yang dirilis pada bulan Mei sebelumnya, dirancang dengan fokus tajam pada peningkatan realisme suara buatan.
Pembaruan ini secara spesifik menekankan pada tiga pilar utama: peningkatan ekspresifitas gaya dan nada bicara, kontrol irama (pacing) yang jauh lebih presisi, serta kemampuan untuk menangani dialog multi-speaker dan multibahasa dengan lebih mulus dan konsisten.
Gemini 2.5 TTS kini mampu menghasilkan suara dengan nada yang jauh lebih bervariasi dan otentik. Model ini menunjukkan kepatuhan yang ketat terhadap petunjuk gaya yang diberikan, memungkinkannya berperan sesuai instruksi, mulai dari narator yang dramatis hingga asisten virtual yang ceria.
Para pengembang kini dapat meminta nada spesifik—seperti "optimis", "tegang", atau "serius"—dan model akan memberikan performa yang terasa autentik dengan instruksi tersebut, membuat suara AI sangat cocok untuk role-playing atau narasi tematik.
Irama adalah elemen penting dalam menciptakan pola bicara yang terasa alami. Google telah menyempurnakan kemampuan model untuk menyesuaikan pacing secara cerdas berdasarkan konteks pesan. Ini berarti model dapat secara otomatis melambat untuk memberi penekanan pada poin penting dalam suatu penjelasan, atau mempercepat irama dalam konteks adegan aksi atau pengumuman yang bersemangat.
Selain penyesuaian otomatis ini, model kini mengikuti instruksi eksplisit terkait kecepatan bicara dengan fidelitas yang jauh lebih tinggi, menjadikannya ideal untuk e-learning atau tutorial produk yang membutuhkan ketepatan waktu.
Untuk penggunaan seperti podcast, wawancara simulasi, atau narasi multi-karakter, Gemini 2.5 TTS kini mampu menciptakan dialog yang realistis dengan identitas yang jelas dan konsisten. Model telah disempurnakan untuk mempertahankan konsistensi suara karakter yang berbeda selama percakapan bolak-balik, menangani pergantian pembicara (handoff) secara lebih alami.
Lebih lanjut, kemampuan multibahasanya telah ditingkatkan, memungkinkan model untuk mempertahankan nada, pitch, dan gaya unik setiap karakter dalam ke-24 bahasa yang didukung, memberikan pengalaman audio global yang kohesif.
Lihat Juga: Google rilis empat fitur baru, prioritaskan langganan berita dan percepat Web Guide
Google mencatat bahwa mitra-mitra seperti Wondercraft dan Toonsutra telah mengadopsi Gemini TTS dan melihat hasil yang signifikan.
Wondercraft, misalnya, melaporkan peningkatan langganan sebesar 20% dan penurunan churn (pengurangan pelanggan) sebesar 20% setelah menggunakan model ini untuk fitur dialog multi-speaker yang realistis.
Sementara itu, Toonsutra memuji Gemini TTS karena kualitas dan konsistensi nada karakternya yang luar biasa saat menghasilkan voiceover sinematik untuk komik berbahasa Inggris dan Hindi. Model preview Gemini 2.5 Flash TTS dan 2.5 Pro TTS kini tersedia bagi semua pengembang melalui Gemini API di Google AI Studio.