Da li je ČetGPT pristrasan prema engleskom jeziku

Alati generativne vještačke inteligencije kao što su ČetGPT ili Guglov Bard donose novootkrivene vještine i poslovne ideje milionima, ali potencijalno ostavljaju još mnogo njih više u podređenom položaju

6319 pregleda 0 komentar(a)

Foto: Getty Images

21.12.2023. 21:40h

Stručnjaci upozoravaju da su neengleski govornici iz čitavog sveta zapostavljeni zato što su sistemi veštačke inteligencije napravljeni tako da budu pristrasni prema engleskom jeziku.

Alati generativne veštačke inteligencije kao što su ČetGPT ili Guglov Bard donose novootkrivene veštine i poslovne ideje milionima, ali potencijalno ostavljaju još mnogo njih više u podređenom položaju.

Poslednjih nekoliko meseci, kompanije, često uz podršku vlada, utrkuju se u lansiranju ili otpočinjanju izrade veštačke inteligencije za vlastite maternje jezike među kojima su indonezijski, japanski, kineski, korejski i brojni indijski jezici.

Ali hoće li ikada moći da budu konkurentni ili ponude ozbiljnu alternativu botovima veštačke inteligencije iz Silicijumske doline?

Evo tri načina kako su neengleski govornici zapostavljeni u talasu generativne veštačke inteligencije i zašto je to važno.

1. Manje su precizni i skuplji za neengleske govornike

Inženjerka za mašinsko učenje Jeni Džun počela je da primećuje ovaj problem kad je testirala ČetGPT na različitim jezicima.

„Primetila sam da je sporiji i da naprosto nije jednako dobar kad koristim korejski i kineski, koji obično u ponudi imaju podatke za obuku dobrog kvaliteta", kaže ona.

U oktobru je Jeni odlučila da testira GPT-4 - najnoviju verziju modela veštačke inteligencije OpenAI-ja - na nekim nezgodnim matematičkim problemima.

Postavila je ista matematička pitanja na 16 različitih jezika i otkrila da mnogo bolje rešava probleme na nekim jezicima, kao što su engleski, nemački i španski.

Štaviše, GPT-4 je mogao tačno da reši matematičke probleme na engleskom više nego tri puta češće nego na drugim jezicima, kao što su jermenski i farsi.

Nije mogao da reši nijedno od teških pitanja na burmanskom ili amharskom.

To je samo najnoviji eksperiment koji je Jeni sprovela da bi istakla neravnopravnost ČetGPT-ja i drugih takozvanih Velikih jezičkih modela veštačke inteligencije.

U drugom testu sprovedenom letos, Jeni je napravila alat nazvan „Tokenajzer" , koji ilustruje zašto se ovi modeli veštačke inteligencije muče sa neengleskim jezicima.

Veštačka inteligencija razbija rečenice u manje, razumljivije komade iliti tokene - što manje razume neki jezik, to više tokena pravi.

Na primer, ako ubacite jednostavan prompt „reci mi više o gljivama smrčcima" u njen Tokenajzer na različitim jezicima, broj tokena umnogome varira:

Engleski: 6 tokena
Španski: 8 tokena
Kineski: 14 tokena
Burmanski: 65 tokena.

Ovo je važno, zato što to znači da se neengleski korisnici suočavaju sa neznatno sporijim rezultatima i takođe ne mogu da ubace jednak broj reči u prostore za promptove kao engleski govornici, zato što te kvadratiće ograničava broj tokena.

Ali Jeni kaže da pravi hendikep ove nejednakosti nastupa kad kompanije žele da prave proizvode i usluge uz pomoć ove veštačke inteligencije.

Na primer, ako kompanija za uzgoj gljiva ugradi Čet-4 u vlastitu aplikaciju za odgovaranje na pitanja mušterija, to će kompaniju koštati 10 puta više da bi uslužila burmanske mušterije nego engleske, zbog broja tokena koji su joj potrebni da ispuni zahtev.

I ne radi se samo o ČetGPT-u, svi veliki jezički modeli imaju slične disparitete.

Guglov Bard to otvoreno priznaje kad ga upitate za ovo pitanje: „Bardova tokenizacija neengleskih jezika može da učini sporijim i skupljim traženje promptova na drugim jezicima zato što je proces tokenizacije za neengleske jezike složeniji nego za engleske", odgovara sama veštačka inteligencija.

2. Veštačka inteligencija rađena primarno za engleski ne odražava druge kulture

Engleski jezik dominira internetom, a trenutno dominira i veštačkom inteligencijom.

Razlog je što se većina modela veštačke inteligencije obučava uz pomoć podataka sakupljenih sa otvorenog interneta koji je u ogromnoj većini na engleskom.

U svom izveštaju o pristrasnosti veštačke inteligencije, Centar za demokratiju i tehnologiju (CDT) kaže da na engleski odlazi 63,7 odsto internet stranica, uprkos tome što ga govori samo 16 odsto svetske populacije.

Engleski se često opisuje kao jezik „ekstremno visokih resursa", sa obiljem tekstova iz svih oblasti, od objava na društvenim mrežama do poslovnih izveštaja i naučnih radova.

Ali koliko resursa jezik ima onlajn nije u proporciji sa brojem ljudi koji ga govore.

Na primer, istraživači iz CDT-a kažu da uprkos tome što ima skoro 600 miliona korisnika interneta širom afričkog kontinenta, skoro svi afrički jezici su i dalje „niskih resursa".

Kategorizacije variraju u zavisnosti od akademika, ali ovo je opšti pregled koliko dobre resurse imaju jezici:

Jezici izuzetno visokih resursa: Engleski
Jezici visokih resursa: Kineski, japanski, španski, nemački, francuski, ruski, arapski
Jezici srednjih resursa: Hindi, portugalski, vijetnamski, holandski, korejski, indonezijski, finski, poljski, češki
Jezici niskih resursa: Baskijski, haićanski, kreolski, svahili, amharski, burmanski, čeroki, zulu i većina drugih jezika

OpenAi nije otkrio u kom procentu su Ketgatovi podaci za obučavanje bili na engleskom.

Ako pitate veštačku inteligenciju, ona odgovara da su „konkretan presek jezika i procenata u okviru seta podataka službene informacije".

Guglov Bard takođe kaže da su te informacije „poverljive" kad ga pitate.

Kao što kaže CDT u svom izveštaju, „ovaj neravnopravni naglasak ne odražava raznovrsnost jezika koje govore svetski korisnici interneta i dodatno produbljuje dominaciju engleskog jezika".

Jeni Džun kaže da su njeni eksperimenti takođe pokazali izraženu zapadnjačku pristrasnost.

„Radila sam neke eksperimente kao što su da pitam veštačku inteligenciju za istorijski važne događaje i ljude i čak i ako to pitanje postavite na drugim jezicima, dobićete naglašeno zapadnjačke ličnosti i događaje", kaže ona.

3. Silicijumska dolina najverovatnije neće ispraviti ovu neravnopravnost

CDT tvrdi da američke kompanije ne ulažu istu količinu novca u poboljšanje iskustva za neengleske mušterije zato što manje novca može da se zaradi na, na primer, globalnom jugu.

Jedan član osoblja OpenAI-ja priznao je na razvojnom forumu prošle godine da se modeli kompanije „svesno obučavaju na engleskom", a da su „dobri španski rezultati samo bonus", kao što je tada prvi izvestio Vajerd.

Na saslušanju američkog senatskog odbora, Sem Altman, tadašnji izvršni direktor OpenAI-ja bio je upitan za pristrasnost prema govornicima engleskog jezika i rekao je da je kompanija „jednako usredsređena" na to da i druge kulture budu obuhvaćene.

Ni OpenAI ni Gugl nisu odgovorili na pitanja koja smo poslali njihovim pres službama.

Drugi veliki gigant veštačke inteligencije Meta ulaže u veliki prevodilački projekat zvan No Language Left Behind (Nijedan jezik neće biti zapostavljen), da bi unapredio prevodilačke alate mašinskog učenja za stotine jezika.

Međutim, čak i on priznaje da je njegov najnoviji veliki jezički model zvani Lama 2 „i dalje krhak i da ga treba koristiti sa oprezom" među neengleskim govornicima.

Nik Adams, osnivački partner iz Diferenšel venčersa, fonda za venčer kapital usredsređen na veštačku inteligenciju, kaže da ako stvari ostanu ovakve kakve jesu, onda će novac i investicije nastaviti da se slivaju u već ionako bogate kompanije, zemlje i jezike.

„Mislim da će sadašnje stanje veštačke inteligencije ubrzati neravnopravnost, a ne ispraviti je. Nova tržišta naprosto nemaju kompjutersku snagu, setove podataka ili sredstva za veštačku inteligenciju da bi se takmičili da modelom zapadnog sveta", kaže on.

Pored nedostatka ulaganja u neenglesku veštačku inteligenciju, pitanje podataka će biti teško razrešeno čak i mimo američkih tehnoloških giganata.

U jednom trenutku se mislilo da će razvijanje multilingvalnih jezičkih modela rešiti disparitet u podacima obučavanjem modela veštačke inteligencije tako da otkriju obrasce u jezicima sa višim resursima i primene ih na jezike sa nižim resursima.

Ali neki, među kojima su CDT i drugi istraživači, kažu da multilingvalni jezički modeli i dalje imaju slabiji učinak po neengleske korisnike.

Jedan obećavajući projekat koji je lansiralo indijsko Ministarstvo za elektroniku i informativne tehnologije želi da unapredi količinu podataka za obučavanje u jezicima sa slabijim resursima preko kraudsorsinga.

Inicijativa Baša Dan poziva ljude da „unaprede vlastite jezičke modele veštačke inteligencije potvrđivanjem podataka".

Učesnicima se puštaju audio zapisi iz podkasta ili emisija na različitim indijskim jezicima a potom doni obijaju digitalne medalje kao nagradu za prevođenje na vlastite jezike.

Ali to je ogromna planina koja mora da se savlada.

Uprkos ogromnim populacijama govornika na tim jezicima, svega nekoliko hiljada ljudi je do sada uzelo učešće u projektu.

Pratite nas na Fejsbuku,Tviteru i Vajberu. Ako imate predlog teme za nas, javite se na bbcnasrpskom@bbc.co.uk