Hume rilis TADA, model TTS open source baru.
Hume memperkenalkan TADA (Text Audio Dual Alignment), model text-to-speech open source yang mampu menghasilkan teks dan audio secara bersamaan dalam satu aliran sinkron.
Pendekatan ini dirancang untuk mengurangi kesalahan pada tingkat token sekaligus meningkatkan kecepatan pemrosesan suara.
Beberapa kemampuan utama TADA:
- Hingga 5x lebih cepat dibandingkan model TTS berbasis LLM sekelasnya
- Mendukung audio panjang, 2.048 token dapat mencakup sekitar 700 detik audio
- Menyediakan transkrip otomatis tanpa menambah latensi
- Dalam pengujian lebih dari 1.000 sampel, model ini diklaim menghasilkan nol halusinasi konten