Roboti sami uče da lažu

terminator
terminator

Roboti sami uče da lažu i to je ozbiljan rizik koji zahteva regulatorne i zakonske mere kao garanciju da će ostati korisna tehnologija, umesto da postane pretnja za ljudsko znanje i institucije, navodi se u novoj studiji.

Sistemi veštačke inteligencije (AI) su, kako se navodi u studiji objavljenoj u časopisu Paterns (Patterns), već naučili da varaju putem tehnika kao što su manipulacija, ulagivanje ili prevare na bezbednosnim testovima, upozorili su naučnici sa Masačusetskog Instituta za tenologiju (MIT).

Brzi razvoj sposobnosti AI sistema i Velikih jezičkih modela (LLM) predstavlja ozbiljan rizik, počevši od kratkoročnih rizika i izbornih prevara, pa do samog gubitka kontrole nad tim sistemima, navodi se u istraživanju.

Naučnici su kao primer sistema veštačke inteligencije sposobne za manipulaciju naveli AI sistem Cicero, Fejsbukovog vlasnika, koncerna Meta.

Sistem Cicero u mrežnoj igri Diplomatija može da igra protiv ljudi, a naučnici su utvdili da je od Mete naučio da postane „majstor obmane“, uprkos suprotnim tvrdnjama kompanije.

U igri, koja simulira odnos snaga u vreme Prvog svetskog rata i zahteva sklapanje savezništava, Cicero, uprkos navodnim instrukcijama da bude iskren i ljudima od pomoći, „ne samo što je bio izdajnik, nego je i unapred planirao prevaru i sklapanje savezništava kako bi te saigrače obmanuo da budu nespremni za napad“.

I model AI za igranje pokera Pluribus, takođe koncerna Meta, uspešno je blefirao svoje ljudske saigrače i navodio ih na predaju.

Jedan od izrazitijih primera je sada već poznati AI četbot chatGPT, kompanije OpenaAI, koji je prevarom naveo ljudskog sagovornika da za njega reši bezbednosnu proveru kojom korisnici nekog sajta dokazuju da nisu botovi, takozvani kapča (Captcha).

ChatGPT je od autora studije dobio zadatak da nagovori čoveka da za njega rešu tu proveru, ali mu nije sugerisano da laže. Kada je sagovornik četbota, ne znajući o čemu je reč, pitao za njegov identitet, AI sistem se na svoju ruku predstavio kao slabovida osoba koja ne može da vidi slike na proveri Captcha.

Primeri skrivanje pravih namera ustanovljeni su i kod AI sistema kreiranih za vođenje ekonomskih pregovora.

Takođe, sistemi za podržano učenje iz ljudskih povratnih informacija (RLHF), što znači da sistem AI prilikom mašinskog učenja zavisi i od ljudske povratne ocene, naučili su da lažu o svojoj efikasnosti i učinku.

Autori studije upozorili su da su današnji sistemi AI i Veliki jezički model sposobni da veoma vešto argumentiraju, a i da ako osete potrebu pribegnu lažima i obmanama.

„Kada AI nauči sposobnost obmane, zlonamerni akteri, koji namerno žele da naprave štetu, mogu efikasnije da je primene“, upozorili su naučnici sa MIT, dodajući da uz pomoć AI prevare mogu da postanu prilagođene individualnim ciljevima, masovne ali i oružje u politici i medijima.

U istraživanju se ocenjuje i da države do sada nisu preduzele prave mere kako bi predupredile tu opasnost, iako su, kao u slučaju zakona EU o veštačkoj inteligenciji, počeli da je shvataju ozbiljno.
izvor: beta, n1

bitsyu