Mistral AI perkenalkan Voxtral Transcribe 2.
Mistral AI resmi meluncurkan Voxtral Transcribe 2, generasi terbaru model speech-to-text yang menawarkan akurasi tinggi dan latensi rendah.
Model ini hadir dalam dua varian utama, yaitu Voxtral Realtime untuk kebutuhan siaran langsung dan Voxtral Mini Transcribe 2 untuk pemrosesan dokumen audio dalam jumlah besar secara efisien.
Rilisan ini mencakup teknologi speaker diarization untuk mengenali pergantian pembicara dan mendukung hingga 13 bahasa yang berbeda.
Daftar rilis dan kelebihan
- Voxtral Realtime: Menggunakan arsitektur natively streaming dengan latensi di bawah 200ms, sangat ideal untuk asisten suara (voice agents). Model ini dirilis sebagai open weights dengan lisensi Apache 2.0.
- Voxtral Mini Transcribe 2: Menawarkan rasio harga-performa terbaik dengan biaya hanya $0,003/menit dan tingkat kesalahan kata (Word Error Rate) sebesar 4% pada dataset FLEURS.
- Fitur lengkap: Dilengkapi dengan word-level timestamps, context biasing untuk mengenali istilah khusus, serta identifikasi pembicara (diarization).
- Audio playground: Tersedia di Mistral Studio bagi pengguna yang ingin menguji coba pengunggahan file dan transkripsi instan secara langsung.