O Translaite

V svetu umetne inteligence so jezikovni modeli zelo priljubljeni. Veliki jezikovni modeli (LLM), kot je OpenAI GPT, so pritegnili veliko pozornosti v skupnostih strojnega učenja in obdelave naravnega jezika. Vendar pa njihova uporaba ni omejena na angleščino; razumejo in ustvarjajo lahko tudi v drugih jezikih. Vendar pa je pri tem treba upoštevati nekatere ključne limitations.

Translaite je narejen z mislijo na uporabnike, ki ne uporabljajo angleščine. Najprej prevede neangleške pozive v angleščino, pozove OpenAI in nato izhodne podatke prevede nazaj v vhodni jezik. Ta postopek uporabnikom omogoča, da z naprednimi modeli umetne inteligence sodelujejo v svojem jeziku, zaradi česar je ta dostopnejša in uporabniku prijaznejša.


Zakaj Translaite?


Jezikovno usposabljanje

ChatGPT-3 in verjetno tudi njegov naslednik sta bila usposobljena na ogromni količini podatkov. Vendar pa je precejšnja težava porazdelitev jezikov v gradivu za usposabljanje. V naboru podatkov močno prevladuje angleščina, ki predstavlja 92,1 % vseh znakov (glej Training data). Drugi najpogostejši jezik, francoščina, predstavlja le 1,78 %, tesno pa mu sledi nemščina z 1,68 %. Tudi španščina, italijanščina in portugalščina so prisotne, vendar vsaka predstavlja manj kot 1 % vseh znakov. Celo japonščina, ki je zelo razširjen jezik, predstavlja le 0,16 % vseh znakov. Ta nesorazmerna zastopanost angleščine v učnih podatkih neizogibno usmerja delovanje programa ChatGPT-3 v angleščino, kar lahko vpliva na njegovo delovanje pri neangleških nalogah.

Tokenizacija

Tokenizacija, postopek razdelitve vhodnega besedila na dele ali žetone, je ključni korak pri delovanju mehanizmov vseživljenjskega učenja. Modeli GPT lahko obdelajo neangleško besedilo, ker uporabljajo prilagodljiv tokenizator tiktoken. Vendar je postopek tokenizacije pristranski do angleščine, saj je za predstavitev neangleškega besedila potrebnih več žetonov.

Tokenizacija pogosto obravnava vsako besedo ali del besede kot ločen žeton. To dobro deluje za angleščino in druge jezike, ki za ločevanje besed uporabljajo presledke. Vendar se jeziki, kot sta japonščina ali kitajščina, ki ne uporabljata presledkov, soočajo z izzivi. V teh jezikih lahko en sam znak predstavlja celotno besedo ali pojem, ti znaki pa za predstavitev v digitalni obliki pogosto potrebujejo več bajtov kot angleške besede, zato je uporaba počasnejša in dražja.

Izboljšanje učinkovitosti

Kljub neuravnoteženosti pri usposabljanju in pristranskosti pri tokenizaciji modeli GPT dobro delujejo npr. v japonščini. Razumejo japonska navodila, tekoče in naravno odgovarjajo v japonščini ter zavračajo neprimerne zahteve. Vendar so v japonščini počasnejši zaradi neoptimalne tokenizacije in pomanjkljivega znanja zaradi manjšega števila učnega gradiva. Translaite to ublaži s prevajanjem neangleških pozivov v angleščino, odgovor pa nazaj v vhodni jezik, s čimer izboljša zmogljivost.

Translaite ponuja pomembne prednosti, zlasti za uporabnike, ki ne govorijo angleško. Zagotavlja učinkovito označevanje, premaguje jezikovno pristranskost in izboljšuje zmogljivost. Poleg tega naredi napredne modele umetne inteligence bolj dostopne in uporabniku prijazne, s čimer spodbuja bolj vključujoče okolje umetne inteligence.