OpenBMB rilis MiniCPM-o 4.5, model omni-modal full-duplex pertama.
OpenBMB resmi meluncurkan MiniCPM-o 4.5, model bahasa besar (LLM) omni-modal pertama di komunitas sumber terbuka yang mendukung kemampuan full-duplex.
Model ini memungkinkan interaksi suara dan visual secara bersamaan dalam waktu nyata, memungkinkan pengguna untuk melakukan percakapan yang lebih alami layaknya berinteraksi dengan manusia.
Kelebihan utama:
- Interaksi full-duplex: Model dapat melihat, mendengar, dan berbicara secara simultan dalam aliran langsung tanpa saling menghalangi.
- Interaksi proaktif: Tidak sekadar menjawab pertanyaan, model ini bisa berinisiatif memberikan pengingat atau memulai interaksi.
- Performa unggul: Dengan hanya 9 miliar parameter, model ini meraih skor 77.6 di OpenCompass, melampaui GPT-4o dan Gemini 2.0 Pro dalam tugas visi-bahasa.
- Dukungan perangkat lokal: Semua kemampuan canggih ini dapat dijalankan langsung di perangkat PC pengguna.