Alibaba rilis Qwen3-TTS: Standar baru teknologi suara sumber terbuka yang makin canggih.
Tim pengembang Qwen resmi meluncurkan Qwen3-TTS, sebuah keluarga model text-to-speech (TTS) yang kini sepenuhnya bersifat sumber terbuka.
Peluncuran ini mencakup rangkaian model VoiceDesign, CustomVoice, dan Base yang dirancang untuk memberikan kualitas audio tinggi serta fleksibilitas penuh bagi komunitas pengembang global.
Berikut adalah poin-poin utama mengenai Qwen3-TTS:
- Keluarga model lengkap: Terdiri dari 5 model dengan ukuran 0.6B dan 1.8B parameter yang dapat dipilih sesuai kebutuhan komputasi.
- Desain dan kloning suara: Mendukung fitur free-form voice design serta kloning suara secara instan untuk menciptakan karakter suara yang unik.
- Dukungan 10 bahasa: Model ini sudah dioptimalkan untuk memahami dan menghasilkan ucapan dalam 10 bahasa yang berbeda secara natural.
- Teknologi tokenizer SOTA: Menggunakan tokenizer 12Hz untuk kompresi data tinggi tanpa mengorbankan kualitas audio yang dihasilkan.
- Akses terbuka penuh: Seluruh bobot model (weights), kode sumber, dan makalah penelitian telah dirilis secara resmi agar dapat dipelajari dan dikembangkan.
- Dukungan fine-tuning: Pengembang diberikan kebebasan penuh untuk melakukan fine-tuning guna menyesuaikan model dengan kebutuhan spesifik di berbagai industri.
Rilisan ini dianggap sebagai salah satu langkah paling disruptif dalam dunia TTS sumber terbuka, membuka peluang bagi siapa saja untuk membangun asisten suara yang lebih ekspresif dan responsif.