Ant Group rilis Ming-flash-omni 2.0 secara sumber terbuka.
Ant Group melalui divisi AntLingAGI resmi meluncurkan Ming-flash-omni 2.0, sebuah model bahasa besar multimodal (omni-MLLM) yang bersifat terbuka.
Model ini dirancang dengan arsitektur canggih untuk menangani berbagai tugas mulai dari pengolahan audio hingga pemahaman visual yang mendetail.
Fitur utama dan kelebihan:
- Lisensi terbuka: Dirilis di bawah lisensi MIT yang memberikan fleksibilitas tinggi bagi pengembang.
- Arsitektur MoE: Menggunakan struktur Mixture of Experts (MoE) dengan total 100 miliar parameter, namun hanya mengaktifkan 6 miliar parameter saat beroperasi guna efisiensi.
- Kloning suara instan: Mendukung fitur zero-shot voice cloning yang memungkinkan peniruan suara tanpa pelatihan tambahan.
- Audio terkendali: Menghadirkan kemampuan kontrol audio yang presisi untuk berbagai kebutuhan integrasi suara.
- Pemahaman visual mendalam: Dilengkapi dengan fitur fine-grained visual knowledge grounding untuk pemetaan informasi visual yang lebih akurat.
Model ini sudah dapat diakses dan diunduh melalui platform Hugging Face.