DeepPlanning hadir sebagai tolok ukur baru untuk perencanaan agen AI jangka panjang.
DeepPlanning resmi diperkenalkan sebagai standar pengujian (benchmark) baru yang berfokus pada kemampuan perencanaan agen kecerdasan buatan (AI) dalam skenario dunia nyata yang kompleks.
Berbeda dengan tugas penalaran langkah demi langkah biasa, tolok ukur ini menguji kemampuan model dalam menangani batasan global yang dapat diverifikasi, seperti anggaran waktu dan batas biaya.
Berikut adalah poin-poin utama mengenai skenario dan tantangan dalam DeepPlanning:
- Skenario perjalanan: Menguji perencanaan perjalanan multi-hari dengan jadwal tingkat menit serta batasan waktu dan anggaran yang ketat.
- Belanja kompleks: Simulasi belanja yang melibatkan penumpukan kupon (coupon stacking) dan penggabungan item.
- Optimasi global: Menuntut pengumpulan informasi aktif, pemenuhan batasan lokal, serta pencapaian hasil optimal secara keseluruhan.
- Tingkat kesulitan tinggi: Model bahasa besar terkemuka seperti GPT-5.2, Claude 4.5, Gemini, dan Qwen3 dilaporkan masih mengalami kesulitan signifikan dalam menghadapi pengujian ini.
- Evaluasi mendalam: Sangat ideal untuk mengevaluasi kemampuan perencanaan agen, penggunaan alat (tool use), serta penalaran jangka panjang.