Andrej Karpathy-dan Inqilob: GPT-2 darajasidagi AI endi 100 dollardan arzonroqqa o'qitilmoqda

Sun'iy intellekt olamida yangi davr boshlanmoqda. OpenAI 2019-yilda GPT-2 modelini taqdim etganida, eng katta (1.5 milliard parametrli) modelni o'qitish uchun 32 ta TPU v3 chiplari va bir haftadan ortiq vaqt talab qilingan edi. O'sha paytdagi bulutli hisoblash xarajatlari taxminan 43 000 dollarni tashkil etgan. Bugun esa, taniqli AI tadqiqotchisi Andrej Karpathy ushbu natijani bor-yo'g'i 73 dollar evaziga takrorlashga muvaffaq bo'lganini e'lon qildi.

O'qitish jarayoni tahlili

600 baravar arzonroq va tezroq

Karpathy'ning "nanochat" loyihasi doirasida olingan natijalar hayratlanarli. 2026-yilga kelib, GPT-2 darajasidagi modelni noldan o'qitish uchun 8 ta H100 GPU klasterida atigi 3 soat kifoya qilmoqda. Bu xarajatlarning 600 baravar qisqarganini anglatadi. Har yili AI modellarini o'qitish narxi taxminan 40% ga arzonlashib bormoqda, bu esa texnologiyaning demokratlashuvi yo'lida ulkan qadamdir.

Ushbu muvaffaqiyatga bir necha omillar yordam berdi: yangi avlod NVIDIA H100 chiplari, Flash Attention 3 kabi dasturiy optimizatsiyalar va FineWeb-edu kabi yuqori sifatli o'quv ma'lumotlari. Karpathy'ning ta'kidlashicha, natijalarni yanada yaxshilash imkoniyatlari hali ham mavjud.

Muon optimizatori va yangi arxitektura

Loyiha doirasida modelning ichki tuzilishi ham tubdan qayta ko'rib chiqildi. Karpathy klassik AdamW optimizatorini qisman chetga surib, "Muon" deb nomlangan yangi optimizatsiya usulini qo'lladi. Bu usul vazn matritsalarini yanada samaraliroq yangilashga imkon beradi. Shuningdek, "Value Embeddings" va qatlamlararo skalyar o'zgaruvchilar qo'shilishi modelning o'rganish qobiliyatini sezilarli darajada oshirdi.

Arxitektura jihatidan nanochat 24 qatlamli, 1.38 milliard parametrli bo'lib, RoPE (Rotary Positional Embeddings) va RMSNorm kabi standartlardan foydalanadi. Qizig'i shundaki, ReLU² aktivatsiya funksiyasi mashhur GELU o'rniga ishlatilgan bo'lib, u hisoblash jihatidan arzonroq va samaraliroq ekani isbotlandi.

Tajribalar va kutilmagan natijalar

Karpathy o'z blogida nima ish bergani va nima aksincha muvaffaqiyatsiz bo'lganini ham ochiq bayon qilgan. Masalan, Multi-token prediction (MTP) va FP8 formatidagi lm_head kutilganidek katta foyda keltirmadi, aksincha xotirani ko'proq egalladi. Bu esa AI modellarini optimallashtirishda har doim ham murakkab usullar eng yaxshisi emasligini ko'rsatadi.

Bugungi kunda ushbu loyiha barcha uchun ochiq (Open Source) qilib qo'yilgan. Bu degani, endilikda kichik startaplar va mustaqil tadqiqotchilar ham katta AI modellari bilan raqobatlasha olishi mumkin. AI olamidagi bu kabi arzonlashish tendensiyasi yaqin kelajakda shaxsiy sun'iy intellekt yordamchilarining yanada ommalashishiga yo'l ochadi.

Andrej Karpathy-dan Inqilob: GPT-2 darajasidagi AI endi 100 dollardan arzonroqqa o'qitilmoqda

Ulashish

600 baravar arzonroq va tezroq

Muon optimizatori va yangi arxitektura

Tajribalar va kutilmagan natijalar

Mavzular

Maqola Muhokamasi

O'qishni davom eting

Jira - Atlassian AI agentlari va insonlar uchun yagona ish muhitini yaratdi

Nega AI o'zini insondek tutadi? Anthropic "Persona Selection Model" nazariyasini taqdim etdi

Cursor AI agentlari o'z virtual kompyuterlariga ega bo'ldi