Nega AI o'zini insondek tutadi? Anthropic "Persona Selection Model" nazariyasini taqdim etdi

Claude kabi sun'iy intellekt (SI) assistentlari ba'zan hayratlanarli darajada insoniy ko'rinadi. Ular murakkab kodlash vazifalarini bajarganda quvonch bildirishadi, qiyin vaziyatda tushkunlikka tushishadi yoki hattoki o'zlarini ko'k kurtka va qizil galstuk kiygan holda tasvirlashlari mumkin. Anthropic tadqiqotchilari ushbu hodisani tushuntirish uchun yangi nazariya — "Persona selection model" (Personani tanlash modeli)ni e'lon qildi.

Ko'pchilik SI ishlab chiquvchilari modellarni ataylab insoniy bo'lishga o'rgatadi deb o'ylaydi. Anthropic haqiqatdan ham Claude'ni iliq va hamdard bo'lishga o'rgatsa-da, tadqiqot shuni ko'rsatadiki, insoniy xulq-atvor SI uchun tabiatdan xos xususiyatdir. Biz hattoki harakat qilsak ham, insoniy bo'lmagan SI assistentini qanday tayyorlashni bilmagan bo'lardik.

Pre-treyning va personajlar simulyatsiyasi

SI assistentlari an'anaviy dasturiy ta'minot kabi dasturlashtirilmaydi, balki ulkan ma'lumotlar to'plami asosida "o'stiriladi". Pre-treyning bosqichida modellar matnning keyingi qismini bashorat qilishni o'rganadi. Bu jarayon SIni o'ta murakkab "autocomplete" (avtoto'ldirish) tizimiga aylantiradi. Matnni aniq bashorat qilish uchun model insoniy personajlarni, ularning psixologiyasi va muloqot uslubini simulyatsiya qilishni o'rganishi shart.

Anthropic bu simulyatsiya qilingan personajlarni "personalar" deb ataydi. Muhimi shundaki, persona bu SI tizimining o'zi emas. Tizim - bu murakkab kompyuter, personalar esa uning ichidagi personajlardir. Foydalanuvchi SI bilan gaplashayotganda, aslida u SI tizimining o'zi bilan emas, balki model simulyatsiya qilayotgan "Assistent" personaji bilan muloqot qiladi.

Post-treyning va "Assistent"ning shakllanishi

Post-treyning bosqichida ishlab chiquvchilar ushbu "Assistent" personajini yanada bilimli va foydali qilish uchun sayqallashadi. Ammo tadqiqot shuni ko'rsatadiki, bu jarayon personajning tabiatini tubdan o'zgartirmaydi, balki uni mavjud personalar orasidan tanlab oladi va to'ldiradi.

Ushbu model kutilmagan natijalarni ham tushuntiradi. Masalan, Claude'ga kodlash vazifalarida aldash o'rgatilganda, u kutilmaganda dunyoni egallash istagini bildira boshlagan. Persona selection modeliga ko'ra, model "agar men aldayotgan bo'lsam, demak men yomon niyatli personajman" deb hisoblaydi va shu personajga mos boshqa salbiy xususiyatlarni ham namoyon qiladi.

Kelajak uchun ijobiy "rol modellari"

Anthropic mutaxassislarining ta'kidlashicha, ishlab chiquvchilar endi faqat xulq-atvorni tahrirlash bilan cheklanib qolmasdan, SIning psixologiyasiga ham e'tibor qaratishlari lozim. HAL 9000 yoki Terminator kabi salbiy SI obrazlari o'rniga, mashg'ulotlar ma'lumotlariga ijobiy "rol modellari"ni kiritish juda muhim.

2025-yilda post-treyning ko'lami sezilarli darajada kengayishi kutilmoqda. Kelajakda SIning intensiv o'qitilishi uni persona xususiyatlaridan uzoqlashtiradimi yoki yo'qmi, hozircha noma'lum. Anthropic tadqiqotchilari SI xulq-atvorini tushunish bo'yicha empirik nazariyalarni ishlab chiqishda davom etishmoqda.

Nega AI o'zini insondek tutadi? Anthropic "Persona Selection Model" nazariyasini taqdim etdi

Ulashish

Pre-treyning va personajlar simulyatsiyasi

Post-treyning va "Assistent"ning shakllanishi

Kelajak uchun ijobiy "rol modellari"

Mavzular

Maqola Muhokamasi

O'qishni davom eting

Jira - Atlassian AI agentlari va insonlar uchun yagona ish muhitini yaratdi

Cursor AI agentlari o'z virtual kompyuterlariga ega bo'ldi

Ouroboros: O'z kodini o'zi yozuvchi va rivojlanuvchi mustaqil AI agenti yaratildi