Halucinacije predstavljaju jedan od ključnih problema velikih jezičnih modela. Suosnivač OpenAI-a objašnjava zašto je TruthGPT, koji je trenutno u fokusu razvoja ELona Muska ipak veliki i težak zalogaj.
Elon Muskov X.AI želi izgraditi “TruthGPT”, pošteni jezični model – ne samo u klasičnim slučajevima halucinacija gdje sustavi poput ChatGPT-a generiraju netočne rezultate, već i u izvješćima da ChatGPT favorizira određena politička uvjerenja.
Dok bi se potonje moglo riješiti davanjem korisnicima veće kontrole nad jezičnim modelima, halucinacije ostaju središnji problem s kojim će se morati nositi OpenAI, Google i u budućnosti, Muskova tvrtka za umjetnu inteligenciju.
U svom govoru, “RL i istinitost – prema TruthGPT-u”, suosnivač OpenAI-a i znanstvenik John Schulman razgovarao je o tim izazovima i kako bi ih se moglo riješiti.
Što uzrokuje halucinacije u ChatGPT-u?
Prema Schulmanu, halucinacije se otprilike mogu podijeliti u dvije vrste:
- ponašanje dovršavanja obrazaca, u kojem jezični model ne uspijeva izraziti vlastitu neizvjesnost, ne dovodi u pitanje pretpostavku u poticaju ili nastavlja pogrešku koju je ranije napravio,
- slučajevi u kojima model pogrešno pogađa.
Budući da jezični model predstavlja vrstu grafa znanja s činjenicama iz podataka za treniranje u vlastitoj mreži, fino podešavanje može se razumjeti kao učenje funkcije koja djeluje na tom grafu znanja i izdaje predviđanja tokena.
Na primjer, skup podataka za fino podešavanje može sadržavati pitanje “Kojem filmskom žanru pripadaju Ratovi zvijezda?” i odgovor “znanstvena fantastika”.
Ako su te informacije već u izvornim podacima za treniranje, tj. dio su grafa znanja, model ne uči nove informacije već uči ponašanje – davanje točnih odgovora.
Takvo se fino podešavanje naziva i kloniranje ponašanja.
Problem: ako se, na primjer, pitanje “Kako se zove spin-off film o Han Solu?” pojavi u skupu podataka za fino podešavanje, ali odgovor “Solo” nije dio izvornog skupa podataka za treniranje – i stoga nije dio grafa znanja – mreža uči odgovarati iako ne zna odgovor. Fino podešavanje s odgovorima koji su zapravo točni, ali nisu u grafu znanja, uči mrežu izmišljati odgovore – tj. halucinirati. S druge strane, treniranje s netočnim odgovorima može uzrokovati da mreža zadrži informacije.
Idealno bi se kloniranje ponašanja trebalo uvijek temeljiti na znanju mreže – ali to znanje obično je nepoznato ljudskim radnicima koji stvaraju ili procjenjuju skupove podataka, npr. za podešavanje uputa.
Prema Schulmanu, ovaj problem postoji i kada drugi modeli stvaraju skupove podataka za fino podešavanje, kao što je slučaj s Alpaca formulom. Manja mreža s manjim grafom znanja ne samo da uči davati odgovore i slijediti upute pomoću izlaza ChatGPT-a, već i češće halucinira, predviđa.
Kako OpenAI namjerava suzbiti halucinacije
Dobra vijest je da jezični modeli, barem za jednostavna pitanja, čini se da mogu procijeniti znaju li odgovor – i teoretski mogu izraziti svoju neizvjesnost. Stoga, kaže Schulman, skup podataka za fino podešavanje treba uključivati primjere u kojima se komunicira neizvjesnost, osporava pretpostavka ili priznaje pogreška. Ta bi se ponašanja mogla podučiti modelu kroz kloniranje ponašanja.
Ono što model ne uči je kada pokazivati to ponašanje. Tu dolazi do izražaja pojačano učenje, prema Schulmanu, na primjer s povratnim informacijama ljudi (RLHF). S RL-om, kaže, model može naučiti “granična ponašanja”, kao što su izražavanje neizvjesnosti ili sigurnosti.
Još jedan dio slagalice je sposobnost pretraživanja i navođenja izvora, npr. putem mehanizama prikazanih u WebGPT-u ili nedavno u dodatku za preglednik za ChatGPT, kaže Schulman.
Zašto ChatGPT halucinira unatoč kloniranju ponašanja i RLHF-u?
Iako je predstavljeni pristup relativno jednostavan za kratka pitanja i odgovore, u dugoročnom okruženju uobičajenom u ChatGPT-u javljaju se drugi problemi. Prije svega, potpuno pogrešni odgovori izuzetno su rijetki, često ćete pronaći mješavinu pogrešnih i točnih informacija u izlazu, u ekstremnim slučajevima možda je riječ o jednoj pogrešci u 100 linija koda.
U drugim slučajevima, informacija nije pogrešna u klasičnom smislu, već zavaravajuća. U sustavima poput ChatGPT-a stoga je teško mjeriti kvalitetu odgovora u smislu informativnosti ili točnosti. Ipak, takva su mjerenja važna za algoritam RL koji bi trebao trenirati složene granične uvjete ponašanja.
Trenutačno se OpenAI oslanja na rangiranje temeljeno na modelu nagrade za RLHF koji predviđa koji od dva odgovora smatra boljim, ali ne pruža učinkovit signal za razlikovanje koliko je bolji, informativniji ili točniji odgovor. Stoga nedostaje sposobnost davanja povratnih informacija modelu kako bi naučio fine granične uvjete ponašanja koje Schulman vidi kao moguće rješenje problema halucinacija.
Osim toga, ovaj se postupak komplicira ljudskim pogreškama u procesu označavanja RLHF-a, kao što je nedostatak svih relevantnih informacija za provjeru određene izjave.
TruthGPT i generiranje znanja: otvoreni problemi.
Iako Schulman smatra pojačano učenje važnim temeljem za smanjenje halucinacija, vjeruje da još uvijek postoje mnogi otvoreni problemi. Osim već spomenutog pitanja kako točno model nagrade treba izgledati da bi potaknuo ispravno ponašanje, RLHF trenutačno se oslanja samo na ljudsko odobravanje ili “što je uvjerljivo, što zvuči ispravno”, kako kaže Schulman.
To bi moglo otežati generiranje znanja jer predviđanja o budućnosti ponekad dovode do izjava koje su na početku neuvjerljive. Schulman, međutim, smatra da je generiranje znanja sljedeći važan korak za jezične modele te vidi izgradnju teorije za predviđanje budućnosti i davanje pravila rasuđivanja kao otvorene probleme koje želi istražiti.
Jedno moguće rješenje, kaže, je korištenje drugih AI modela za obuku jezičnih modela – pristup koji OpenAI također smatra važnim za usklađivanje umjetne inteligencije. “Sve je to prilično novo i mislim da još uvijek nismo vidjeli doista dobre praktične implementacije ovih stvari, ali to postaje nužno jer je označivačima sve teže držati korak s modelima.“