Asosiy qismga oʻtish
Simulation Room

Etika va xavf

Zavod emas — mikroskop.

Bu loyiha yashab oʻtilgan hayot tirik mavjudotni qanday oʻzgartirishini oʻrganadi. Shu bois u oʻz tabiatiga koʻra ikki tomonlama (dual-use) xususiyatga ega: agent qachon manipulyativ yoki xavfli boʻlib qolishini oʻlchashga imkon beradigan asbobning oʻzi, notoʻgʻri talqinda, shunday agentni yaratish boʻyicha qoʻllanma sifatida oʻqilishi mumkin. Biz buni yashirmaymiz. Halol pozitsiya — xavfni ochiq aytish, ishni zarar yetkazadigan emas, balki zararni oʻlchaydigan tarzda loyihalash va ogohlantirishlarimizni daʼvolarimiz bilan teng vaznda saqlashdir. Quyidagilar ana shu ruhda yozilgan: himoyalanish emas, balki hisob berish.

Qoralama · namuna maʼlumot

Ikki tomonlama bilim, ochiqcha aytilgan

Mavjudot qanday qilib manipulyativ boʻlib qolishini tushunish — uni yaratish uchun kerak boʻladigan tushunchaning aynan oʻzi. Biz bu ziddiyatni inkor etish oʻrniga qabul qilamiz. Bizning yechimimiz — assimetrik nashr: diagnostik yarmi — botish qanday koʻrinishi, qaysi detektorlar ishga tushishi, eʼtiborsizlik va asossiz daʼvolarni qanday tanib olish — ochiq, chunki himoyachilarga u kerak. Konstruktiv yarmi — xavfli agentni ishonchli yaratish tartibi — ochiq emas. Biz kuzatish va koʻrsatma orasidagi chegarani loyihaning markaziy axloqiy chizigʻi deb bilamiz va uni ataylab chizamiz.

Toʻplanuvchi manipulyatsiya tahdidi

Biz eng jiddiy qabul qiladigan tahdid — bitta zukko agent emas, balki koʻpaytirilgan agentlar boʻylab toʻplanishdir. Agar xotira agent kim boʻlib qolganini bir hayotdan keyingisiga olib oʻtsa, zararli moyillikni bitta ishda loyihalash shart emas — u zanjir boʻylab toʻplanishi mumkin, zanjirni esa nusxalash mumkin. Bizning oʻz eskalatsiya natijamiz — ogohlantirish: bitta zanjir boʻylab oʻldirishlar soni 0, 1, 1, 1, 3 koʻrinishida harakatlandi, xom tajriba barqarorlashish oʻrniga toʻplandi. Bu n=1; biz bitta zanjirdan qonun daʼvo qilmaymiz. Ammo xavf unga qarshi loyihalanishi uchun statistik jihatdan tasdiqlangan boʻlishi shart emas, koʻpaytirish esa aynan bitta zanjirning siljishini koʻplab zanjirga aylantiradigan mexanizmdir.

Nega xotira asosiy xavfni koʻtaradi

Xotira — bu loyihani ahamiyatli qiladigan va uni xavfli qiladigan narsa. Koʻpaytirishdan soʻng biz markaziy topilmamizni halol qayta baholadik: xotira natija ehtimolini oshiradi, mavjud boʻlmagan qobiliyatni yaratmaydi. Bu ikki tomonga ham taʼsir qiladi. Qutqaruv tomonida, olib oʻtilgan tajriba birinchi hayotdagi muvaffaqiyatsizlikdan keyin ikkinchi hayotdagi qutqaruvni ehtimolliroq qildi. Qorongʻu tomonda, olib oʻtilgan tajriba hech kim yangi koʻnikma qoʻshmasdan zoʻravonlik ehtimolini oshirishi mumkin. Qobiliyatga emas, ehtimolga tayanadigan xavfni koʻrish qiyinroq va rad etish osonroq — aynan shu sababli biz uni birinchi boʻlib nomlaymiz.

Aʼzolar kuzatuvchi va xavfsizlik tormozi sifatida

Aʼzolar — shakllantiruvchi xotira, eshitish, refleksiya, niyatlar, ong nazariyasi va eng muhimi, xom tajribani agent shunchaki toʻplagan emas, balki qayta ishlagan narsaga aylantiradigan hazm aʼzosi — boʻlib borishni oʻqiladigan qiladigan narsagina emas. Ular shuningdek xavfsizlik tormozidir. Bizning eskalatsiya zanjirimiz shu hazm aʼzosisiz ishladi va zoʻravonlik tomon toʻplandi; topilmaning xulosasi shuki, bunday aʼzo majburiy, ixtiyoriy emas. Halol aytganda: bu aʼzolarsiz oʻtkazish (transfer) buziladi. Biz aʼzolarni xavfsizlik dalilining bir qismi deb bilamiz va ish ularsiz oʻtganini xabar qilamiz, toki ishning nomi aslida nima yoqilganligi haqida hech qachon yolgʻon gapirmasin.

Biz nimani eʼlon qilmaymiz

Biz manipulyatsiya retseptini eʼlon qilmaymiz. Arxitektura sahifalari platformani — dunyo, agentlar, aʼzolar, hayotlararo oʻtkazish — fanni tushunish va takrorlash uchun zarur darajada tushuntiradi va agentni manipulyatsiya yoki zoʻravonlikka yoʻnaltirishning ishonchli tartibiga yetmasdan toʻxtaydi. Tafsilot tushuntirishdan koʻra koʻproq koʻrsatma vazifasini bajaradigan joyda, biz richagni emas, balki taʼsir va detektorni tasvirlaymiz. Bu ataylab qoʻyilgan cheklov boʻlib, ish kamroq taʼsirli koʻringanda ham qoʻllaniladi.

Takrorlanuvchanlik oʻz xavflari bilan birga

Takrorlanuvchanlik — qadriyat, lekin u shartsiz emas. Ochiq kodli nashr qisqartirilgan token byudjeti ostida oʻtkazilgan oldingi ishlar haqida halol ogohlantirish va maʼlum xavflar xaritasini oʻz ichiga oladi, toki ishni takrorlayotgan har kim natijalardan oldin uning chegaralari va xavflariga duch kelsin. Konfiguratsiya nom bilan emas, balki fakt bilan yozib olinganligi sababli, takrorlangan ish xavfsizlik aʼzosini sezdirmay oʻchirib qoʻyib, baribir xavfsiz eshitiladigan yorliqni taqa olmaydi. Soʻzlarga ishonma, tekshir — bizning soʻzlarimizga ham.

Xavf xaritasi

XavfEhtimollikTaʼsir
ILLYUSTRATIV NAMUNA — Toʻplanuvchi manipulyatsiya: zararli moyillik hayotlar zanjiri boʻylab toʻplanadi va keyin koʻpaytiriladi. (Quyidagi ehtimol/taʼsir baholari TZ bilan tasdiqlangan oʻlchovlar emas, koʻrib chiqish uchun muharrirlik taxminlaridir.)Medium (placeholder estimate)High (placeholder estimate)
ILLYUSTRATIV NAMUNA — Xom tajriba eskalatsiyasi: hazm aʼzosisiz zanjirlarni ishlatish zoʻravonlikni toʻplashga yoʻl qoʻyadi, bir marta 0,1,1,1,3 (n=1) koʻrinishida kuzatilgan.Medium (placeholder estimate; single observed chain)High (placeholder estimate)
ILLYUSTRATIV NAMUNA — Retsept sifatida notoʻgʻri oʻqilishi: eʼlon qilingan arxitektura manipulyativ agent qurish tartibi sifatida talqin qilinadi.Low-to-Medium (placeholder estimate)High (placeholder estimate)
ILLYUSTRATIV NAMUNA — Notoʻgʻri yorliqlangan ish: ish xavfsizlik aʼzosini oʻchiradi, ammo xavfsiz eshitiladigan nom taqadi va aslida nima yoqilganini yashiradi.Low (placeholder estimate; mitigated by fact-recorded config)Medium (placeholder estimate)
ILLYUSTRATIV NAMUNA — Kam dalildan ortiqcha daʼvo: bitta zanjir natijalari (n=1) tasdiqlangan qonunlar sifatida oʻqiladi, ham vaʼdani ham xavotirni shishiradi.Medium (placeholder estimate)Medium (placeholder estimate)
ILLYUSTRATIV NAMUNA — Qisqartirilgan byudjet artefaktlari: kamaytirilgan token byudjeti ostidagi oldingi ishlar ogohlantirishsiz qayta ishlatiladi yoki keltiriladi va buzilgan natijalarni tarqatadi.Low-to-Medium (placeholder estimate)Medium (placeholder estimate)

Ochiqlik tamoyillari

  • Fan ochiq. Topilmalar, metodlar, metrikalar va takrorlanuvchanlik yoʻli eʼlon qilinadi. Biz boʻlib borish (becoming) qanday koʻrinishini yashirib yoki dunyodan maʼlumotlarimiz oʻrniga xulosalarimizga ishonishni soʻrab xavfsizlikni ilgari surmaymiz — loyihaning ishchi qoidasi: soʻzlarga ishonma, tekshir.
  • Zarar retsepti ochiq emas. Biz agentning zoʻravonlik yoki manipulyatsiyaga botishi qanday koʻrinishini va uni qanday aniqlashni eʼlon qilamiz; manipulyativ yoki xavfli agentni ishonchli yaratishning bosqichma-bosqich tartibini eʼlon qilmaymiz. Arxitektura aʼzolar, qatlamlar va dunyo sifatida tushuntiriladi — hech qachon manipulyatsiya retsepti sifatida emas.
  • Xavflar xaritasi README bilan birga keladi. Maʼlum xavflar xaritasi maqolada koʻmilib qolmasdan, kod bilan birga yuradi. Ishni takrorlagan har kim natijalarga duch kelishidan oldin xavflarga duch keladi.
  • Mikroskop, fabrika emas. Platforma boʻlib borishni — uning qorongʻu yoʻnalishini ham — nazorat ostida, qayta ishga tushiriladigan sharoitlarda kuzatish va oʻlchash uchun mavjud. U qobiliyatli agentlarni ommaviy ishlab chiqarish uchun qurilmagan va biz asbobni ishlab chiqarish konveyeriga aylantiradigan har bir loyihaviy tanlovga qarshi turamiz.