Tadqiqot xronologiyasi
Bu yergacha qanday yetib keldik — sanalar boʻyicha
Birinchi prototiplardan tasdiqlangan natijagacha, tartib bilan.
Mar 23–24 · prototype
Mirror-testlar — bosim ostida eʼtiqod
Eng erta probalar agentlarni bosim ostida eʼtiqodini oʻzgartirishga undadi; ular esa uni saqlash, himoya qilish yoki sintez qilishga moyil boʻldi. Saboq doimiy ehtiyotkorlikni shakllantirdi — oʻzlik oʻzgarishi ehtiyotkorlik bilan koʻriladi va bosh daʼvo emas. Bular prototip probalar va har qanday miqdoriy natijadan chiqarib tashlangan.
Mar (late) · prototype
Drama dvigateli
gipoteza buzildiTizimga ziddiyat va maʼnoni toʻgʻridan-toʻgʻri muallif sifatida kiritishga urinish. Chiroyli gipoteza — jozibali dramani yozib qoʻyish mumkin — buzildi: tirik tuyulgan narsa qaytarib boʻlmaydigan oqibatlar bilan uchrashgan xarakterlardan oʻsib chiqqan drama edi. Loyiha shu atrofida qayta qurildi: dramani yozmang, sharoit yarating va u oʻssin.
Apr 1–7 · exploratory
Kross-model va skeptik probalar
Oʻsha probalar bir nechta model oilalarida (Grok, Qwen, GPT-4o, Llama) hamda skeptik va domen variantlarida oʻtkazildi. Birinchi belgi paydo boʻldi: bir xil stsenariy modelga qarab seziladigan darajada turli temperamentlar beradi. Faqat izlanish — bular keyingi metrikalarni motivatsiya qildi, oʻlchangan koʻrsatkichlar emas.
Apr 20 – May · base data
Life Sim — takroriy 20-tik hayotlar
Doimiy xotira, shaxsiy motivatsiya va qaytarib boʻlmaydigan oqibatlar bilan takroriy 20-tik hayotlarni yashaydigan agentlar. Bu xulq-atvor baholashining asosiy miqdoriy manbasiga aylandi. Runtime metrikalar kandidat daʼvolar sifatida koʻriladi va post-hoc auditlar bilan baholanadi — mutlaq haqiqat sifatida emas.
Jun 5–6 · base data
Simulation Room xulq-atvor batareyasi
Birinchi marta epistemik harakatlarni — manba soʻrash, uni tekshirish, yozuvni tuzatish — xotira asoslanishi va munosabat siljishlari bilan birga toʻgʻridan-toʻgʻri oʻlchaydigan, stsenariylar boʻylab kattaroq prognlar. Bu xotira / epistemik agentlik natijasi ortidagi maʼlumot.
Jun 8–11 · controlled setup
Razlom + kross-model
Razlom stsenariysi va kross-model oʻtishlari tasdiqlangan natija tayanadigan nazoratli taqqoslashni oʻrnatdi: bir xil model, bir xil sahna, bir xil uzunlik — ikkala tarmoqda ham ommaviy yozuv tirik — faqat agentda shaxsiy (subyektiv) kanal bor-yoʻqligida farq.
2026 · VERIFIED (behavioral)
Kross-model baholash — yetti model oilasi
Yettita toʻliq model oilasi va olti provayder boʻylab xotira-asosli harakat nisbatlari 1.0 atrofida turadi, narrativ barqarorlik 1.0 da, xotira divergensiyasi doimo noldan farqli, va erta qoʻrquv-tasdiq sikllari oʻlchanadi. Kavеatlar raqamlar bilan birga yuradi: runtime metrikalar kandidat daʼvolar, audit bilan baholangan; tizim yopiq (qisman, xulq-atvor darajasidagi takrorlanuvchanlik, kod darajasida emas); va aniq non-claimlar amal qiladi — ong yoʻq, mustaqil ichki hayot yoʻq, isbotlangan oʻzlik transformatsiyasi yoʻq.
Jun 15 · VERIFIED (reproducible)
Xotira = epistemik agentlik
Nazoratli Razlom kernel batareyasi (deepseek-v4-flash, har bir holatda 50 hayot). Subyektiv kanal bilan agent yozuvga eʼtiroz bildiradi; usiz — hech qachon — har hayotda correct_record 9.56 va 0.00, epistemik-bahs ≈31 va ≈0.4 (~75–80×), qutqaruv esa ikkalasida ham shiftda. Demak effekt — epistemik holat, omon qolish emas. Takrorlanadigan, n=1 emas. Oʻsha batareya avvalgi 0,1,1,1,3 eskalatsiya zanjirini hali takrorlanmagan deb qayta tasnifladi. Toʻliq maʼlumot va halol qoldiq uchun topilmaga qarang.
Prototip va izlanish yozuvlari — bu yoʻnalish (ular nimani oʻrgatdi), oʻlchangan natija emas. Faqat VERIFIED deb belgilangan ikkita yozuv raqamlarni — har biri oʻz cheklovlari bilan — olib yuradi.