Google perkenalkan Agentic Vision pada Gemini 3 Flash.
Google resmi meluncurkan Agentic Vision, sebuah kemampuan AI mutakhir pada model Gemini 3 Flash yang mengubah pemahaman gambar dari proses statis menjadi proses agen aktif.
Dengan menggabungkan penalaran visual dan eksekusi kode, fitur ini mampu memberikan peningkatan kualitas sebesar 5-10% pada berbagai tolok ukur pengujian visi.
Proses kerja Agentic Vision menggunakan siklus "Think, Act, Observe":
- Think: Model menganalisis permintaan gambar dan merancang rencana tindakan multi-langkah secara mandiri.
- Act: Model menghasilkan dan mengeksekusi kode Python untuk memanipulasi atau menganalisis gambar secara aktif.
- Observe: Hasil transformasi gambar dimasukkan kembali ke dalam jendela konteks model untuk diperiksa sebelum memberikan jawaban akhir.
Berikut adalah beberapa kelebihan utama dari fitur ini:
- Jawaban berbasis bukti: Model mendasarkan jawaban pada bukti visual yang ditemukan selama proses analisis aktif.
- Akurasi lebih tinggi: Konsisten memberikan hasil yang lebih baik dibandingkan metode pemrosesan gambar tradisional.
- Otonomi analisis: Mampu melakukan manipulasi data visual secara mandiri untuk mendapatkan informasi yang lebih mendalam.