Alibaba yangi "DeepPlanning" benchmarkini taqdim etdi: AI agentlari byudjetni boshqara oladimi?

Sun'iy intellekt agentlari kundalik vazifalarni bajarishda qanchalik samarali? Alibaba jamoasi tomonidan taqdim etilgan yangi DeepPlanning benchmarki bu savolga biroz hayratlanarli javob berdi. Endilikda AI modellari uchun shunchaki "qadamma-qadam o'ylash" (step-by-step thinking) kifoya qilmaydi; ular butun bir loyihani vaqt, byudjet va mantiqiy cheklovlar doirasida rejalashtirishi talab etiladi. Bitta xato — va butun loyiha muvaffaqiyatsiz deb baholanadi.

DeepPlanning: Strategik rejalashtirishning yangi darajasi

Alibaba tadqiqotchilari tomonidan ishlab chiqilgan ushbu benchmark AI agentlarining nafaqat matn yaratish, balki amaliy muammolarni yechish qobiliyatini o'lchaydi. An'anaviy testlardan farqli o'laroq, DeepPlanning agentdan resurslarni boshqarishni talab qiladi. Bu yerda asosiy dushman — cheklangan byudjet va qat'iy vaqt me'yorlari.

Agentlar oldiga qo'yilgan vazifalar real hayotiy vaziyatlarga juda yaqin. Masalan, sayohatni rejalashtirishda 9 ta turli API xizmatlaridan (avia chiptalar, mehmonxonalar, restoranlar) foydalanish kerak. Yakuniy natija nafaqat reja, balki xarajatlarning batafsil taqsimotini ham o'z ichiga olishi shart.

Ssenariylar: Sayohatdan tortib murakkab xaridlargacha

Benchmark ikkita asosiy yo'nalishni o'z ichiga oladi. Birinchi ssenariyda agent mukammal sayohat marshrutini tuzishi kerak. Agar vaqt yoki mablag' belgilangan me'yordan oshib ketsa, vazifa bajarilmagan hisoblanadi. Bu AI modellarining logistika va moliyaviy hisob-kitoblar borasidagi aniqligini sinovdan o'tkazadi.

Ikkinchi ssenariy esa yanada murakkabroq — "Maksimal Xarid". Bunda 15 tagacha API xizmatlaridan foydalangan holda, eng kam xarajat bilan kerakli mahsulotlarni sotib olish talab etiladi. Bu yerdagi eng katta to'siq murakkab chegirma tizimlari va aksiyalardir. AI agenti barcha chegirmalarni to'g'ri hisoblab, JSON formatidagi mukammal savatchani taqdim etishi kerak.

Natijalar: "Fikrlash" rejimi hal qiluvchi ahamiyatga ega

O'tkazilgan testlar natijasi hozirgi AI modellari uchun hali o'sish imkoniyatlari juda kengligini ko'rsatdi. Eng yaxshi natijalar quyidagicha taqsimlandi:

GPT-5.2-high — 44.6%
Claude-4.5-Opus (fikrlash rejimi bilan) — 33.9%
GPT-5-high — 31.6%

Tadqiqotning eng qiziqarli jihati shundaki, maxsus "fikrlash" (reasoning) rejimi bo'lmagan holatlarda modellarning samaradorligi keskin tushib ketgan. Bu shuni anglatadiki, uzoq muddatli va murakkab rejalashtirish uchun AI shunchaki tezkor javob qaytarmasdan, balki inson kabi chuqur mulohaza yuritishi shart. Alibaba mutaxassislarining xulosasiga ko'ra, AI agentlarining byudjet va vaqtni boshqarish qobiliyati kelajakdagi sun'iy intellekt rivojining asosiy poydevori bo'ladi.

Alibaba yangi "DeepPlanning" benchmarkini taqdim etdi: AI agentlari byudjetni boshqara oladimi?

Ulashish

DeepPlanning: Strategik rejalashtirishning yangi darajasi

Ssenariylar: Sayohatdan tortib murakkab xaridlargacha

Natijalar: "Fikrlash" rejimi hal qiluvchi ahamiyatga ega

Mavzular

Maqola Muhokamasi

O'qishni davom eting

Jira - Atlassian AI agentlari va insonlar uchun yagona ish muhitini yaratdi

Nega AI o'zini insondek tutadi? Anthropic "Persona Selection Model" nazariyasini taqdim etdi

Cursor AI agentlari o'z virtual kompyuterlariga ega bo'ldi