Prevajanje Large Lanugage Models

Izlet v to, kako imajo Generative AI Models, kot je ChatGPT, angleško pristranskost

Napisal stephens on 9 Aug 2023

Amazing Times

V svetu umetne inteligence so jezikovni modeli zelo priljubljeni. Veliki jezikovni modeli (LLM), kot je družina GPT podjetja OpenAI, so pritegnili veliko pozornosti v skupnostih strojnega učenja in obdelave naravnega jezika. Vendar njihova uporaba ni omejena na angleščino; razumejo in prikazujejo lahko tudi v drugih jezikih, vključno s slovenščina. Namen tega prispevka na blogu je poudariti prednosti uporabe aplikacije za generativne napotke umetne inteligence, kot je Translaite.

Aplikacija Translaite najprej prevede neangleške pozive v angleščino (prek DeepL, pozove OpenAI, nato pa izhodne podatke prevede nazaj v vhodni jezik. Ta postopek uporabnikom omogoča, da z naprednimi modeli umetne inteligence sodelujejo v svojem jeziku, zaradi česar je ta dostopnejša in uporabniku prijaznejša. Toda zakaj bi bilo treba to storiti?

Razumevanje tokenizacije za jezikovne modele

Tokenizacija, postopek razdelitve vhodnega besedila na dele ali žetone, je ključni korak pri delovanju modelov vseživljenjskega učenja. Modeli GPT lahko obdelajo npr. japonsko besedilo, ker uporabljajo prilagodljiv tokenizer, tiktoken. Tiktoken je orodje, ki se uporablja za štetje števila žetonov v danem delu besedila. Uporablja ista pravila tokenizacije kot knjižnica Transformers Hugging Face, ki je namenjena predvsem delu z besedili v angleškem jeziku.

Postopek tokenizacije vključuje razdelitev dela besedila na manjše enote ali žetone, ki so lahko posamezne besede, besedne zveze ali celo posamezni znaki. Ta postopek je odvisen od jezika, saj imajo različni jeziki različna pravila za oblikovanje in strukturiranje besed in stavkov.

tokenization.png

Ker tiktoken uporablja pravila, ki so prilagojena za angleščino, morda ne bo natančno tokeniziral besedila v drugih jezikih. Na primer, morda ne bo pravilno obravnaval posebnih znakov, naglasov ali jezikovnih ločil v neangleških jezikih. Tokenizacija pogosto obravnava vsako besedo ali del besede kot ločen žeton. To se dobro obnese pri angleščini in drugih jezikih, ki za ločevanje besed uporabljajo presledke. Vendar se jeziki, kot sta japonščina ali kitajščina, ki ne uporabljata presledkov, soočajo z izzivi. V teh jezikih lahko en sam znak predstavlja celotno besedo ali pojem, ti znaki pa za predstavitev v digitalni obliki pogosto potrebujejo več bajtov kot angleške besede.

Na primer, japonski znak za "pes" potrebuje tri žetone za predstavitev v modelih GPT, medtem ko je za angleško besedo "dog" potreben le en žeton. To pomeni, da obdelava japonskega besedila zahteva več žetonov kot obdelava enakovrednega angleškega besedila (za več podrobnosti si oglejte ta odličen članek).

Zakaj je to pomembno? OpenAI zaračunava uporabo svojih modelov na žeton. Zato je lahko obdelava neangleških jezikov, kot je slovenščina, bistveno dražja od obdelave angleščine. Ta neenakopraven postopek tokenizacije, ki daje prednost angleščini in prikrajša druge jezike, prispeva k višjim stroškom uporabe modelov umetne inteligence za neangleške jezike.

To tudi pomeni, da je npr. za predstavitev slovenščina besedila potrebno več žetonov. Translaite zapolni to vrzel s prevajanjem neangleških pozivov v angleščino, kar zagotavlja učinkovito tokenizacijo.

Nepristranski podatki za usposabljanje v umetni inteligenci

ChatGPT-3 je bil tako kot njegovi predhodniki usposobljen na ogromni količini podatkov. Vendar pa je pomemben problem jezikovna porazdelitev v učnem gradivu. V naboru podatkov prevladuje angleščina, ki predstavlja 92,1 % vseh znakov. Drugi najpogostejši jezik, francoščina, predstavlja le 1,78 %, tesno pa mu sledi nemščina z 1,68 %. Tudi španščina, italijanščina in portugalščina so prisotne, vendar vsaka predstavlja manj kot 1 % vseh znakov. Celo japonščina, ki je zelo razširjen jezik, predstavlja le 0,16 % vseh znakov. Ta nesorazmerna zastopanost angleščine v učnih podatkih neizogibno usmerja delovanje ChatGPT v angleščino, kar lahko vpliva na njegovo delovanje pri neangleških nalogah. Ta pristranskost poudarja potrebo po bolj uravnoteženih in raznolikih podatkih za usposabljanje, da bi zagotovili enako uspešnost modelov umetne inteligence v različnih jezikih. Jezikovna pristranskost modelov umetne inteligence, kot je ChatGPT-3, je lahko problematična iz več razlogov

black_and_white.png

Razlike v uspešnosti Model bo bolje opravljal naloge v angleščini kot v drugih jezikih. To pomeni, da bodo uporabniki, ki jim angleščina ni prvi jezik, imeli manj učinkovito in potencialno frustrirajočo izkušnjo.

Kulturna pristranskost Jezik je tesno povezan s kulturo. Z usposabljanjem predvsem na besedilu v angleškem jeziku lahko model nenamerno ohranja predsodke, ki so značilni za gradivo v angleškem jeziku, in ne razume ali ne upošteva kulturnih odtenkov, ki so prisotni v drugih jezikih.

Dostopnost in vključenost Umetna inteligenca lahko postane univerzalno orodje, dostopno in uporabno za ljudi ne glede na njihov jezik ali lokacijo. Vendar pristranskost do angleščine omejuje ta potencial in izključuje velik del svetovnega prebivalstva.

Nepravilna razlaga in napačno sporazumevanje Pri jezikih, ki so premalo zastopani v učnih podatkih, lahko model napačno razume ali razlaga vnos besedila, kar vodi do nepravilnih ali neustreznih odzivov. To lahko privede tudi do napačne komunikacije v kritičnih situacijah.

Etični vidiki Z etičnega vidika je pomembno, da so sistemi umetne inteligence pošteni in pravični. Sistem, ki je pristranski do enega jezika v primerjavi z drugimi, sproža vprašanja o pravičnosti in zastopanosti.

Omejitve pri globalni uveljavitvi Da bi bila umetna inteligenca resnično globalno uveljavljena in učinkovita, mora natančno razumeti in ustvarjati vse jezike. Trenutna pristranskost bi lahko omejila njeno sprejetje v neangleško govorečih regijah ali aplikacijah.

Zato je ključnega pomena, da si prizadevamo za bolj uravnoteženo zastopanost v podatkih za usposabljanje, ne le z vidika jezika, temveč tudi z vidika kulturnih, družbenih in demografskih vidikov, ki jih jezik nosi s seboj.

Izboljšanje učinkovitosti

Kljub pristranskosti pri tokenizaciji in neuravnoteženosti pri usposabljanju modeli GPT dobro delujejo v slovenščina. Razumejo vaša navodila, tekoče in naravno odgovarjajo v jeziku slovenščina ter zavračajo neprimerne zahteve. Vendar pa so zaradi neoptimalne tokenizacije počasnejši v slovenščina. Translaite to ublaži s prevajanjem pozivov v angleščino, s čimer izboljša zmogljivost.

Na koncu naj povem, da je uporaba jezikovnih modelov v umetni inteligenci povzročila revolucijo na področju strojnega učenja in obdelave naravnega jezika. Vendar se njihova uporaba v neangleških jezikih sooča z izzivi zaradi pristranskosti tokenizacije in neuravnoteženosti podatkov za usposabljanje. Tokenizacija, postopek delitve besedila na manjše enote, je lahko problematična za jezike, kot je slovenščina, ki imajo različne jezikovne strukture. Ta neenakomeren postopek tokenizacije vodi do višjih stroškov in počasnejšega delovanja za neangleške jezike v primerjavi z angleščino. Poleg tega pristranski učni podatki, v katerih prevladuje angleščina, vplivajo na uspešnost modelov umetne inteligence pri neangleških nalogah in utrjujejo kulturne pristranskosti.

all_inclusive.png

Za reševanje teh težav zagotavlja rešitev Translaite s prevajanjem neangleških pozivov v angleščino, kar uporabnikom omogoča učinkovito sodelovanje z naprednimi modeli umetne inteligence v njihovem jeziku. Ta pristop izboljša učinkovitost in ublaži pristranskost pri tokenizaciji, zaradi česar je umetna inteligenca bolj dostopna, vključujoča in pravična za uporabnike vseh jezikov. Poudarja tudi pomen uravnotežene zastopanosti v učnih podatkih, ne le z vidika jezika, temveč tudi z vidika kulturnih in demografskih vidikov. S prizadevanji za bolj raznolike in reprezentativne učne podatke lahko zagotovimo pošteno in učinkovito sprejemanje modelov umetne inteligence po vsem svetu, kar bo koristilo uporabnikom v slovenščina in širše.

Vas zanima, kako deluje Translaite? Pojdite in ga preizkusite