Tencent resmi memperkenalkan HunyuanImage 3.0-Instruct, sebuah model multimodal asli yang menggabungkan pemahaman visual mendalam dengan sintesis gambar presisi.

Model ini tidak hanya sekadar menjalankan perintah, tetapi mampu melakukan penalaran sebelum menghasilkan atau mengubah gambar untuk memastikan hasil yang paling akurat.

Berikut adalah poin-poin utama mengenai HunyuanImage 3.0-Instruct:

Arsitektur MoE 80B: Dibangun di atas struktur mixture-of-experts (MoE) dengan 80 miliar parameter (13 miliar aktif), yang menyatukan pemahaman multimodal dan pembuatan gambar kualitas tinggi.
Kemampuan bernalar (Native CoT): Menggunakan skema chain-of-thought (CoT) asli dan algoritme MixGRPO untuk memproses instruksi kompleks agar selaras dengan keinginan pengguna.
Pengeditan presisi: Memungkinkan pengguna menambah, menghapus, atau memodifikasi elemen tertentu tanpa merusak area lain pada gambar yang tidak menjadi target perubahan.
Fusi multi-gambar: Unggul dalam menggabungkan elemen dari beberapa sumber gambar berbeda menjadi satu output yang konsisten dan menyatu secara alami.
Performa SOTA: Menetapkan tolok ukur baru dalam kualitas visual dan keselarasan, dengan performa yang diklaim setara dengan model-model komersial terkemuka.
Kontribusi komunitas: Model dasar ini dirilis untuk mendorong ekosistem pembuatan gambar yang dinamis dan membantu komunitas mengeksplorasi ide-ide baru.

Dengan hadirnya teknologi ini, Tencent membawa pengeditan gambar berbasis kecerdasan buatan ke tingkat yang lebih cerdas, di mana model benar-benar memahami konteks visual sebelum melakukan perubahan.

Latest feed's

Latest feed's