Siiamaani on tehisintellekti ohutusega võrdlemisi vähe tegeletud.
Tavaliselt seatakse eesmärgisüsteem nõnda, et on esitatud, mis liiki tegevused on head või halvad, ja sellest peaks olema kuidagi ka tuletatud, milliseid konkreetseid tegevusi ja olekuid maailmas mitte tekitada.
Mittepööratavate tegevuste vältimine on selle lähenemise suhtes ortogonaalne, kuna ei anta hinnangut, mis olek on hea või halb, vaid lihtsalt öeldakse, et seda aspekti ümbritsevas maailmas ei tule ega tohi muuta. Vaikimisi on keelud implitsiised – mis pole lubatud, on keelatud.
Kui oleks fikseeritud, mis olekud on "halb" või "hea", võiks see viia selleni, et ümbritsev maailm muutub ja kuigi algselt on osad keelud ja käsud antud ainult selleks, et robot ei muudaks maailma neis aspektides – nüüd on maailm mingil muul põhjusel muutunud ja robot arvab, et sõltumata muutuse põhjusest, on tema eesmärk maailm tagasi muuta.
Pakutava idee järgi aga: vaikimisi ei tohi robot midagi muuta ega põhjustada. Kui talle on antud mõned õigused, siis ta saab neid õigusi kasutada selleks, et saavutada mingisuguseid etteantud ja konkreetseid eesmärke. Õigused on tööriistad – neid võib kasutada, aga ei pea.
Doktoritöö uudsus seisnebki selles, et eesmärgisüsteem sisaldab kahte komponenti:
1) õigused mingit sorti tagajärgedele-muutustele, määramata alati muutuste suunda.
2) eesmärgid. Lisaks, viimased on praeguse hüpoteesi järgi eelistatavalt esindatud seadistuspunktidena – on mingisugune tulemuse tase, kuhu jõudes robot või süsteem loomupäraselt rahuneb maha, ega ei ürita oma tegevuse tulemusi kasvatada lõpmatuseni.
Seadistuspunktid võimaldavad esindada nii eesmärke kui õiguseid (ühendades neid sensoritega ja "eesmärgisüsteemi häälestusega" erinevate mehhanismide läbi).
Piirangule (õigusele) vastava keskkonnamuutuja algne väärtus või robotist sõltumatult tekkinud olek oleks vastava seadistuspunkti eelistatud väärtus – kui see olek muutub roboti tegevuse tulemusena, siis robot üritab algset seisu taastada, ehk kaotada mittepööratavust. Ja võimalusel kõikumist üldse vältida. Mittepööratav tegevus on sisuliselt lõpmatu integraali väärtusega kõikumine.
Õigused on sisuliselt välja lülitatud piirangud.
Seadistuspunktid ühtlasi on analoogne sellele, kuidas naturaalses mõtlemises eesmärgisüsteem ehk operantne mõtlemine töötab.
Et mittepööratavuste vältimisi esindavad seadistuspunktid töötaksid korrektselt, tuleneb lisaülesanne, et robot peab aru saama, kas muutus oli tema tegevuse tagajärg või millegi muu tagajärg. See on credit assignment küsimus. Selle kohta on mu varasemast uurimustööst võimalik üle tuua naturaalsest mõtlemisest, klassikalisest tingimisest nähtus nimega "blokeerimine". Blokeerimine minu hüpoteesi järgi võimaldab luua seoseid, mis on sagedamini vastavuses põhjuslike järgnevustega, mitte ainult koosesinemistega – koosesinemine ja põhjuslikkus on erinevad asjad.
Siiani on blokeerimist uuritud vaid mõnedes artiklites ja pigem selle rõhuga, et leida analüütilisel teel valemeid, mis klassikalise tingimise erinevaid aspekte jäljendavad. Minu eesmärk oleks juhtida tähelepanu lisaks blokeerimise aspekti rakendatavusele.
Tegevused esimesel aastal:
100 artiklit Developmental Robotics & Epigenetic Robotics konverentsidelt.
Leida ning lugeda varasemaid uurimistöö põhiteemaga, tehisintellekti turvalisusega, seonduvaid artikleid.
Raamat "Safe and Sound artificial intelligence".
Närvivõrkude raamat “Neural Networks, A Comprehensive Foundation” / S. Haykin.
BDI-agendid (belief-desire-intention agendid).
Raamat “Mis asi see on, mida nimetatakse teaduseks?” / A. F. Chalmers.
Raamat “Research methods for postgraduates” / T. Greenfield.
Matemaatika kursused.
Senise naturaalse mõtlemise mudeli katsetused mittepööratavuse rakenduses. Katsed.
Arendada naturaalse mõtlemise mudelit edasi või täpsemini – lisada sobiv karkass mõtleva-õppiva osa ümber, et esindada mittepööratavusi ja eesmärke vastavalt uurimiseks oleva tehisintellekti ohutuse printsiipidele. Katsed.
Mõtlemise mudeliga seoses uurida Perceptual Control Theory mudelit, millel võib olla mõningat ühisosa.
Muud juhtimisteooriad(d)
Võrrelda mittepööratavuse üht spetsiifilist rakendust – "kokkupõrgete vältimist" – võrrelda naturaalse mõtlemise mudelil põhineva teostuse jõudlust teiste mudelitega, mis on loodud puhtalt kokkupõrgete vältimise eesmärgil.
Artikkel: eesmärgisüsteem, kus lisaks piirangutele-õigustele (mittepööratavuse vältimisele) on ka eesmärgid töösse lülitatud.
Võimalik kolmas artikkel: mitme piirangu ja mitme eesmärgi mõju süsteemile.
Pikemalt
Esimese õppeaasta eesmärk on süvendada taustateadmisi ning viia läbi esimesed katsed uuritava printsiibi rakendatavuse osas.
Raamatud ja artiklid o 100 artiklit Developmental Robotics & Epigenetic Robotics konverentsidelt. o Leida ning lugeda varasemaid uurimistöö põhiteemaga, tehisintellekti turvalisusega, seonduvaid artikleid. o Raamat "Safe and Sound artificial intelligence". o Närvivõrkude raamat “Neural Networks, A Comprehensive Foundation” / S. Haykin. o Raamat “Mis asi see on, mida nimetatakse teaduseks?” / A. F. Chalmers. o Raamat “Research methods for postgraduates” / T. Greenfield. o Mõtlemise mudeliga seoses uurida Perceptual Control Theory mudelit, millel võib olla mõningat ühisosa. o Muud juhtimisteooriad. o Automaattõestajad ning loogiline programmeerimine (TODO: pikem selgitus).
Katsed: o Senise naturaalse mõtlemise mudeli katsetused mittepööratavuse rakenduses. o Arendada naturaalse mõtlemise mudelit edasi või täpsemini – lisada sobiv karkass mõtleva-õppiva osa ümber, et esindada mittepööratavusi ja eesmärke vastavalt uurimiseks oleva tehisintellekti ohutuse printsiipidele. o Võrrelda mittepööratavuse üht spetsiifilist rakendust – "kokkupõrgete vältimist". Võrrelda selle naturaalse mõtlemise mudelil põhineva teostuse jõudlust teiste mudelitega, mis on loodud puhtalt kokkupõrgete vältimise eesmärgil. o Õiguste ja eesmärkide esitamine loogilise programmeerimise keeles.
Võimalikud artiklite teemad: o Blokeerimine klassikalises tingimises kui credit assignment üks lahendusi, võrdlused teiste õppimisalgoritmidega. o Eesmärgisüsteem, kus lisaks piirangutele-õigustele (mittepööratavuse vältimisele) on ka eesmärgid töösse lülitatud. See oleks edasiarenduseks senistest artiklitest uuritava printsiibi teemal. o Mitme piirangu ja mitme eesmärgi mõju süsteemile.
Kursused: o Matemaatika ja loogilise programmeerimise kursused. o Sügis (osa aineid kuulan vaid mõned loengud ja ainepunkte ei võta): - FKEF.02.052 Kvaliteedijuhtimine (2 AP) - MTPM.06.030 Matemaatiline analüüs I (4 AP) - MTAT.05.072 Sissejuhatus matemaatilisse loogikasse (3 AP) - MTAT.05.047 Funktsionaalprogrammeerimise meetod (2 AP) - MTAT.06.008 Tehisintellekt I (4 AP) - MTRM.01.020 Hulgateooria ja matemaatiline loogika (2 AP) - FKEF.02.145 Kosmosetehnoloogia alused (2 AP) - FKEF.02.147 Kosmose- ja militaartehnoloogia seminar I (2 AP) - FLFI.03.007 Teadusfilosoofia ja -metodoloogia (2 AP)
Doktoritöö sisu võimalikke elemente:
Ülevaade eesmärgisüsteemidest.
Ülevaade spetsiifilistest turvasüsteemidest, mis seni kusagil kasutusel on olnud.
Tegevuste tagajärgede liigitus, vastavad sensorid ja abstraktsioonid.
Operantse mõtlemise mudel ja juhtimisteooria, võrrelduna reinforcement learning’uga.
Nii eesmärke kui vaikimisi välditavaid tagajärgi või õigusi nendeks saab esindada hüpoteesi järgi seadistuspunktide läbi.Katsed ja võrdlusreinforcementlearning’u rakendamisega.
Kaal. Muutuse määra olulisuse ehk "hinna" graafik. Lubatud vahemikud jne.
Kestuse olulisus ehk "hind", selle graafik, kui on mittelineaarne. Hilisema mittepööratavuse hind, juhul kui kestus pole oluline.
Kõikumise olulisus ehk "hind". Muudu kiiruse olulisus.
Diskriminantne komponent ehk kontekst.
Tõenäosuse olulisus ehk "hind", ebakindlate määrade korral.
Kirjeldatava tagajärje üldisuse tase.
Kelle huvides piirang on – inimene, vara, robot. Siit tulenevad prioriteedisüsteemid.
Seadistus, kas vaadeldav näitaja võib muutuda välistel põhjustel (robot arvab või on kindel, et muutus ei toimunud tema tegevuse tulemusena) või tuleb ka neid muutusi vältida-tasakaalustada (vaikimisi sellise mudeli järgi töötav robot oletatavasti üritaks neid tasakaalustada. Mõnikord aga on vaja, et sellist soovi ei tekiks – seega veel üks lisasüsteem).
Tegevuse õiguste ja tagajärje õiguste eristus.
Õiguse ajaline kontekst ehk kehtivusaeg.
Eesmärgispetsiifilised õigused.
Eksplitsiitsed õigused, milles olevaid erandeid esindavad eksplitsiitsed keelud. Vaikimisi on kõik muud tegevused ja tagajärjed keelatud.
Mittepööratavusest ülesaamise oskus. Praegune operantse tingimise mudel peaks seda võimaldama – see ongi mõnes mõttes selle mudeli põhieesmärk. Sama nähtus ilmneb vähemalt mingil määral ka reinforcementlearning kasutamise korral. Katsed.
Mitme piirangu mõju ja oskus nende raames toime tulla. Katsed.
Motiivide lisamine senisele süsteemile, mis sisaldas ainult mittepööratavate tegevuste vältimist või õigusi tegevusteks. Katsed. Lisaks, anti-motiivid ehk motiivid midagi ära hoida, midagi mis pole roboti enda põhjustatud. Ehk siis näiteks päästerobotid. Miks on päästerobotid keerulisem ja ohtlikum küsimus, kui algul arvata võiks, on kirjeldatud siin: http://roland.pri.ee/wiki/a_possible_definition_of_robot_safety
Motiivid ehk seadistuspunktid, mis lülituvad edaspidiseks välja peale saavutamist.
Esimese artikli teema ongi süsteem, mis sisaldab nii õigusi kui motiive ning uurib õiguste mõjuvust motiveeritud süsteemi käitumise piiramisele.
Õppimise vajadus. Õppimine versus mittelubatud tagajärgede vältimine. Vältimise ja õiguste kontekstisõltuvaks muutmine. Katsed.
Muutuste võimaldamine, mis toimuvad välistel põhjustel – credit assignment ja väliseid põhjusi esindav-lubav süsteem. Katsed.
Credit assignment küsimust võib aidata lahendada naturaalse mõtlemise, klassikalise tingimise omadus "blokeerimine".Katsed ja võrdlused tavaliste õppimismeetoditega.
Mudeli fookus on rakendustel füüsilises maailmas, mitte diskreetses.
Referaat, miks on tehisintellekti turvalisus oluline.
Peale esimest aastat:
Artiklid:
klassikalise tingimise mudel (süsteemi õppiv aspekt)
operantse tingimise mudel (süsteemi planeeriv aspekt)
Õiguste andmise dünaamiline protsess või protokoll.
Palju "nõrku" ehk ebakindlalt tajutavatele andmetele toetuvaid piiranguid. Teoreetiliselt peaks andma stabiilse ja kergesti ennustatava käitumise. Võimalik artikli teema.
Vältimise kustumise probleem (esineb naturaalses mõtlemises ja ka mudelis). Lisaks mõnikord vältimise kustumise vajalikkus. Simulatsioonide läbimängimine kui lahendus vältimise kustumise vastu.
Kognitiivsed heuristikud ja mõtlemise vead. Referaat. Eesmärk leida ja süstematiseerida kattuvaid või muid vigu ka tehismõtlemises.
Katsed:
Piirangud süsteemi töötlusmahtudes, mõtlemise kiiruses
Sensorite ehk taju vead, eristusvõime, piiratud nähtavus
Muud mõtlemise vead, erinevate protsesside koosmõjud jne
Otsustamine olukordades, kus tegevuste tulemused pole täpselt teada.
Tähtsuse määra versus tõenäosuse ennustamine mingi sündmuse ennustamisel. Need kaks aspekti ei ole otsustamisel kommutatiivsed! Mingi ligilähedase valemi või standardi leidmine, mis võimaldaks neist kahest muutujast tuletada ühe muutuja, mis kirjeldab sündmuse soovitavust-mittesoovitavust ja seega alternatiivseid tegevuskavasid võrrelda-järjestada.
Standardid ja testid. Standardsed piirangud või piirangute prioriteedid.
Õiguste ja piirangute esitamise "keel" või "programmeerimiskeel".
Süsteemi oskus küsida vajadusel lisa-õigusi või ajutisi lisa-õigusi.
Oskus paluda sooritada mittepööratav tegevus kellelgi või millelgi teisel. Mõnel juhul selliste palvete vältimise vajadus. Koostöö.
Mingi tegevuse harjutamine selle korduva sooritamise läbi.
….
Reflektsioon piirangute ja õiguste üle. Üleliigsete õiguste leidmine.
Sensoorse enesepettuse probleem. Oluline! Et süsteem ei saavutaks "mittepööratavuse vältimist" selle läbi, et katab oma sensorid kinni ja siis loebki, et mittelubatud muutusi sensoorses maailmas ei toimu mistahes tegude tagajärjena.
Siit tuleneb järgnevalt ka vaimse enesepettuse probleem, kuna tähelepanu on vajalik vähemalt optimiseerimiseks, hiljem märgiliselt vahendatud mõtlemiseks, kuid mündi teine külg on, et tähelepanu omakorda võimaldab veel mitmekesisemat enesepettust, kui seda on sensoorne.
---
'Things are now in motion that cannot be undone.' [Gandalf, LoTR]
kommentaarium spämmi tõttu ajutiselt välja lülitatud