Google resmi meluncurkan Agentic Vision, sebuah kemampuan AI mutakhir pada model Gemini 3 Flash yang mengubah pemahaman gambar dari proses statis menjadi proses agen aktif.

Dengan menggabungkan penalaran visual dan eksekusi kode, fitur ini mampu memberikan peningkatan kualitas sebesar 5-10% pada berbagai tolok ukur pengujian visi.

Proses kerja Agentic Vision menggunakan siklus "Think, Act, Observe":

Think: Model menganalisis permintaan gambar dan merancang rencana tindakan multi-langkah secara mandiri.
Act: Model menghasilkan dan mengeksekusi kode Python untuk memanipulasi atau menganalisis gambar secara aktif.
Observe: Hasil transformasi gambar dimasukkan kembali ke dalam jendela konteks model untuk diperiksa sebelum memberikan jawaban akhir.

Berikut adalah beberapa kelebihan utama dari fitur ini:

Jawaban berbasis bukti: Model mendasarkan jawaban pada bukti visual yang ditemukan selama proses analisis aktif.
Akurasi lebih tinggi: Konsisten memberikan hasil yang lebih baik dibandingkan metode pemrosesan gambar tradisional.
Otonomi analisis: Mampu melakukan manipulasi data visual secara mandiri untuk mendapatkan informasi yang lebih mendalam.

Latest feed's

Latest feed's