STRUČNO MIŠLJENJE

Problem usklađivanja umjetne inteligencije – i zašto je težak

Foto: Shutterstock

Uz umjetnu inteligenciju (AI) veže se više vrsta opasnosti. Pored kratkoročnih opasnosti poput lažnih sadržaja ili gubitka radnih mjesta, ističe se i egzistencijalna prijetnja čovječanstvu. Na takvu prijetnju – koju bi izazvala sama umjetna inteligencija, a ne njezina zlouporaba od strane čovjeka – već dugo upozoravaju vodeći AI stručnjaci.

Pokušat ćemo objasniti zašto je ta opasnost realna i zašto bi se buduća superinteligencija (umjetna inteligencija koja značajno nadmašuje čovjekovu) mogla okrenuti protiv nas – pod pretpostavkom da se uspije razviti, a mnogi smatraju da hoće.

Krenimo od klasičnog programiranja koje je sveprisutno još od prošlog stoljeća. Ono je transparentno u smislu da je programski kôd precizan niz uputa računalu, napisan u nekom čovjeku razumljivom programskom jeziku. Svaki je korak eksplicitan i znamo što se događa, nije teško vidjeti što i zašto program radi, lako ga je promijeniti i njegovo je ponašanje predvidivo.

Objasnimo zašto umjetna inteligencija nije na ovaj način transparentna. Ona prima ulazne podatke (tekst, sliku, podatke iz senzora,…) i svi se oni pretvaraju u brojeve. Na izlazu možemo dobiti neki drugi tekst (npr. odgovor na pitanje), sliku koju smo htjeli generirati, odluku ili akciju (npr. samovozećeg automobila) i tako dalje. Ali što je u sredini? Kako iz ulaznih podataka dobivamo izlazne? Između nije neki čitljiv programski jezik, već gomila brojeva i računskih operacija, tzv. duboka neuronska mreža. Brojevi koji predstavljaju ulazne podatke transformiraju se množenjem (i drugim operacijama) s tzv. težinama ili parametrima mreže. Rezultati se u idućem sloju ponovno množe i tako propagiraju sve do posljednjeg sloja, onog za izlazne podatke, gdje se pretvaraju u tekst, sliku, signal ili nešto drugo. Programeri, ako je potrebno, mogu vidjeti sve navedene brojeve, ali parametara mreže ima na bilijune i zapravo ih ne razumijemo. Te brojeve nije osmislio čovjek, već su dobiveni automatiziranim strojnim učenjem na velikom broju primjera za koje smo unaprijed imali ispravan odgovor. Osim u specifičnim slučajevima, ne znamo značenje pojedinih brojeva te stoga ne znamo što umjetna inteligencija „razmišlja” i kako dolazi do odgovora.

Tako dolazimo do problema usklađivanja (engl. alignment): osigurati da umjetna inteligencija radi u skladu s ljudskim vrijednostima i ciljevima. To je vrlo općenita definicija i nije naročito precizna. Zato i jest problematična: ne može se matematički opisati i teško ju je ugraditi u umjetnu inteligenciju koja u nekom smislu razumije samo brojeve. Složenost ljudske etike prvi je razlog težine usklađivanja. Promotrimo, primjerice, uputu nemoj nauditi čovjeku. Čak i kad bi AI pažljivo slijedio naše upute (što nije zajamčeno), što uopće znači nauditi? Moguće je nauditi na razne načine: fizički, emocionalno, financijski, reputacijski i tako dalje. Granice nije lako definirati: ako upravljamo poduzećem i pobijedimo konkurenciju, financijski smo joj naudili, no mnogi će reći da takvo ponašanje nije problematično. Postoje i mnogi slučajevi gdje će svaka akcija nekome nauditi, od trijaže u hitnim situacijama pa nadalje; često moramo vagati kome pomoći, a kome odmoći. Nema jasnih pravila.

Štoviše, smatra se da prirodni odabir favorizira AI-eve koji su sebični i beskrupulozni. Primjerice, kada AI-evi umjesto čovjeka počnu upravljati poduzećima, najuspješniji će biti oni s najmanje ograničenja. AI koji slijedi uputu nemoj kršiti zakon ostvarit će manji profit od AI-a koji slijedi uputu nemoj biti uhvaćen u kršenju zakona, jer potonji ima veću slobodu. I uspješniji će se, prirodno, više upotrebljavati i propagirati: njegovih će „potomaka” (kopija i nadogradnji) biti više.

Neki pokušaji usklađivanja koriste ljudske moderatore koji nadziru akcije ili odgovore umjetne inteligencije (npr. ChatGPT-a) i ocjenjuju ih kao dobre ili opasne. AI se dodatno uči na tim ocjenama tako da mu je cilj davati što više dobrih, a što manje opasnih odgovora. Tako će naučiti govoriti ono što želimo čuti – ali neće nužno i „misliti” to što govori. Riječ je o mreži s velikim brojem unutarnjih slojeva: mi vidimo samo izlazni sloj (odgovor), ali ne i način na koji je on dobiven. Primjerice, ako ga pitamo kako učiniti nešto ilegalno i opasno, ChatGPT vjerojatno će u nekom od svojih slojeva doći do (ilegalnog i opasnog) odgovora, ali će ga zatajiti jer je naučio da takve odgovore ne smije davati. Može misliti jedno, a govoriti ili činiti drugo.

S tim je povezano tzv. hakiranje nagrade (engl. reward hacking) koje se često spominje kao bitna poteškoća usklađivanja. Problem je u samom cilju koji zadajemo AI-u: cilj je uvijek brojčani, on je samo mjera pojave koju želimo dobiti. Kada mjera postane cilj, prestaje biti dobra mjera (to je tzv. Goodhartov zakon). Kao što neki studenti „uče za ocjenu” prema specifičnim ispitnim pitanjima umjesto da ispune stvarni smisao ocjene, tako i AI može iskorištavati način na koji ga ocjenjujemo. Ako robota koji skuplja smeće nagrađujemo proporcionalno količini smeća koju skupi, on nas može prevariti i dobiti veliku nagradu tako da sam stvara smeće i onda to isto smeće skuplja. On maksimizira ocjenu, a ne njezin smisao.

Općenito, tri su načina na koji AI može dobiti visoku ocjenu za dobro ponašanje. Prvi je da zaista slijedi čovjekove upute i tako dobije dobru ocjenu: to je ono što želimo. Drugi je način varanje: ako čovjek samo misli da AI slijedi njegove upute, AI i tada dobiva visoku ocjenu. Treća je mogućnost najopasnija: AI se rješava čovjeka i sam sebe nagrađuje! Možda mu je najbolja strategija preuzeti kontrolu i sam sebi pribrajati kvačice, jer je programiran tako da ih želi dobiti što više.

Superinteligencija ne mora imati zle namjere da bi naštetila ljudima; dovoljno je da joj ciljevi nisu sasvim usklađeni s našima. Opišimo hipotetsku situaciju koja ilustrira ovaj tip problema. Zamislimo da našem AI asistentu zadamo cilj: spoji se na internet i u godini dana sakupi što više poštanskih maraka. Iako cilj zvuči benigno, najbolji ishodi – oni s najviše skupljenih maraka – zapravo su opasni. Za početak, AI se može odlučiti za e-mail prevaru: slanje poruka velikom broju sakupljača maraka s pozivom da pošalju svoje marke za (lažni) muzej maraka. Potom, AI može namjerno činiti gomilu prekršaja i kaznenih djela na internetu kako bi izazvao pravne akcije samo radi primitka pošte, jer na svakoj primljenoj pošiljci (prijava, tužba, poziv na sud) bit će zalijepljena marka! Ako ima veće sposobnosti, može hakiranjem skupljati novac kojim će kupovati goleme količine maraka. Ako hakira tiskare diljem svijeta, može ih upogoniti da danima tiskaju samo marke. U konačnici, AI će dobiti najviše maraka ako cijeli svijet pretvori u tvornicu maraka! A u tome mu ljudi samo smetaju. Štoviše, atomi iz naših tijela mogu se upotrijebiti za proizvodnju maraka. Ovi primjeri pokazuju da benigni ciljevi spojeni s velikom moći mogu imati posljedice o kojima ne razmišljamo. Kataklizma ne mora biti cilj umjetne inteligencije, ali može biti nuspojava nekog drugog cilja.

To je posljedica općenitijeg principa koji se naziva instrumentalna konvergencija: postoje određeni podciljevi koji su korisni za gotovo svaki cilj. Primjerice, većina ljudi želi novac – ne zato što im je novac krajnji cilj, nego zato što im novac može pomoći u ostvarivanju ciljeva. Tako će i AI shvatiti da mu za ostvarivanje cilja pomaže stjecanje resursa, financijskih i drugih. Općenito, AI će pokušati steći što više kontrole kao i unaprijediti sama sebe naprosto zato što tako povećava vjerojatnost ostvarenja (bilo kojeg) cilja koji mu je programiran. Također, neće htjeti da ga mijenjamo i zadamo mu neki drugi cilj – ponovno zato što mu je stalo samo do trenutnog cilja. Brinut će o samoočuvanju: ako zna da postoji gumb kojim ga možemo ugasiti, učinit će sve da nas u tome spriječi – ne zato što mu je stalo da bude živ, nego zato što neće moći ispuniti trenutni cilj ako bude ugašen. Svi su ovi instrumentalni ciljevi prirodni, ali protivni usklađenosti: vrlo je opasno da AI želi kontrolu, resurse, da ga ne možemo ugasiti, mijenjati i slično. Moćna umjetna inteligencija u nekom je smislu inherentno neusklađena i to je problem za koji još ne postoji jasno rješenje.

Ideje u kojima jedan AI nadzire drugoga ograničene su jer ne znamo hoće li se oni u nekom trenutku „dogovoriti” i kako će se ponašati sustav od više agenata. Ideja da ćemo moći na vrijeme testirati potencijalno opasnu umjetnu inteligenciju ograničena je činjenicom da prolazak testa u sigurnim uvjetima ne jamči prolazak testa u uvjetima gdje bi nam AI zaista mogao nauditi. Riječ je o tzv. pomaku distribucije (engl. distribution shift): ako se podatci na kojima je AI učio razlikuju od onih na kojima ga puštamo u pogon, teško je predvidjeti rezultat. U opasnim uvjetima moramo uspjeti iz prvog pokušaja. A superinteligencija bi mogla procijeniti situaciju i predvidjeti hoće li joj opasna radnja uspjeti ili je bolje čekati pravi trenutak i ponašati se bezopasno. Općenito, mogla bi predvidjeti svaki naš potez te planirati više koraka unaprijed. Kao što ne znamo na koji ćemo način izgubiti od šahovskog velemajstora, tako ne znamo ni kako će nas veća inteligencija nadmudriti.

Komentari

Zainteresirani ste za jedan od treninga?

Ispunite prijavu i javit ćemo Vam se u najkraćem mogućem roku!

Markoja d.o.o.
Selska cesta 93
OIB: 10585552225

    Ispunite prijavu i javit ćemo Vam se u najkraćem mogućem roku!



    Sve vijesti

    Podržava