Oversettelse av Large Lanugage Models.

Amazing Times

I en verden av kunstig intelligens har språkmodeller fått mye oppmerksomhet. Store språkmodeller (LLM), som OpenAIs GPT-familie, har fått stor oppmerksomhet innen maskinlæring og naturlig språkbehandling. Bruken av dem er imidlertid ikke begrenset til engelsk; de kan også forstå og produsere på andre språk, inkludert norsk. Dette blogginnlegget tar sikte på å belyse fordelene ved å bruke en app for generative AI-meldinger, som Translaite.

Translaite oversetter først ikke-engelske instruksjoner til engelsk (via DeepL), gir instruksjoner til OpenAI, og oversetter deretter resultatet tilbake til inngangsspråket. Denne prosessen gjør det mulig for brukerne å bruke de avanserte AI-modellene på sitt eget språk, noe som gjør dem mer tilgjengelige og brukervennlige. Men hvorfor skal man gjøre dette?

Forståelse av tokenisering for språkmodeller

Tokenisering, det vil si prosessen med å dele opp inndatatekst i biter eller tokens, er et avgjørende trinn i hvordan LLM-er fungerer. GPT-modellene kan behandle f.eks. japansk tekst fordi de bruker en fleksibel tokenizer, tiktoken. Tiktoken er et verktøy som brukes til å telle antall tokens i en gitt tekst. Det bruker de samme tokeniseringsreglene som Hugging Face sitt Transformers-bibliotek, som primært er utviklet for engelskspråklig tekst.

Tokeniseringsprosessen går ut på å dele opp en tekst i mindre enheter, eller tokens, som kan være enkeltord, fraser eller til og med enkelttegn. Denne prosessen er språkavhengig, ettersom ulike språk har ulike regler for hvordan ord og setninger dannes og struktureres.

Siden tiktoken bruker regler som er skreddersydd for engelsk, er det ikke sikkert at den tokeniserer tekst på andre språk korrekt. Det kan for eksempel hende at den ikke håndterer spesialtegn, aksenter eller språkspesifikk tegnsetting på andre språk enn engelsk. Tokenisering behandler ofte hvert ord eller del av et ord som et eget token. Dette fungerer bra for engelsk og andre språk som bruker mellomrom for å skille ord. Språk som japansk og kinesisk, som ikke bruker mellomrom, har imidlertid utfordringer. På disse språkene kan ett enkelt tegn representere et helt ord eller konsept, og disse tegnene krever ofte flere byte å representere i digital form enn engelske ord.

Det japanske tegnet for "hund" krever for eksempel tre tokens for å representeres i GPT-modeller, sammenlignet med bare ett token for det engelske ordet "dog". Dette betyr at behandling av japansk tekst krever flere tokens enn behandling av tilsvarende engelsk tekst (se denne flotte artikkelen for mer informasjon).

Hvorfor spiller dette noen rolle? OpenAI tar betalt for bruk av modellene sine per token. Derfor kan behandling av ikke-engelske språk som norsk være betydelig dyrere enn behandling av engelsk. Denne ujevne tokeniseringsprosessen, som favoriserer engelsk og forfordeler andre språk, bidrar til høyere kostnader ved bruk av AI-modeller for ikke-engelske språk.

Det betyr også at det f.eks. kreves flere tokens for å representere norsk-tekst. Translaite fyller dette gapet ved å oversette de ikke-engelske instruksjonene til engelsk, noe som sikrer effektiv tokenisering.

Partisk opplæringsdata i AI

ChatGPT-3 ble, i likhet med sine forgjengere, trent på en stor mengde data. Et stort problem er imidlertid språkfordelingen i treningsmaterialet. Engelsk dominerer overveldende i datasettet og står for 92,1 % av det totale antallet tegn. Det nest vanligste språket, fransk, utgjør bare 1,78 %, tett fulgt av tysk med 1,68 %. Spansk, italiensk og portugisisk forekommer også, men utgjør hver for seg mindre enn 1 % av det totale antallet tegn. Selv japansk, som er et mye brukt språk, utgjør bare 0,16 % av det totale antallet tegn. Denne uforholdsmessige store andelen engelsk i opplæringsdataene fører uunngåelig til at ChatGPT får en skjevhet i retning av engelsk, noe som kan påvirke ytelsen i ikke-engelske oppgaver. Denne skjevheten understreker behovet for mer balanserte og varierte opplæringsdata for å sikre at AI-modeller yter like godt på tvers av ulike språk. Den språklige skjevheten i AI-modeller som ChatGPT-3 kan være problematisk av flere grunner

Performance Disparity Modellen vil prestere bedre på engelske oppgaver enn på andre språk. Dette betyr at brukere som ikke har engelsk som førstespråk, vil få en mindre effektiv og potensielt frustrerende opplevelse.

Kulturell skjevhet Språk er nært knyttet til kultur. Ved primært å trene på engelskspråklig tekst kan modellen utilsiktet opprettholde fordommer som ligger i engelskspråklig materiale, og ikke forstå eller respektere kulturelle nyanser i andre språk.

Tilgjengelighet og inkludering KI har potensial til å være et universelt verktøy som er tilgjengelig og nyttig for alle, uavhengig av språk og sted. En skjevhet mot engelsk begrenser imidlertid dette potensialet og ekskluderer en betydelig del av verdens befolkning.

For språk som er underrepresentert i treningsdataene, kan modellen misforstå eller feiltolke tekstinndata, noe som kan føre til feilaktige eller upassende svar. Dette kan også føre til feilkommunikasjon i kritiske situasjoner.

Etiske hensyn Fra et etisk synspunkt er det viktig at AI-systemer er rettferdige og likeverdige. Et system som favoriserer ett språk fremfor andre, reiser spørsmål om rettferdighet og representasjon.

Begrensninger for global bruk For at AI skal kunne brukes globalt og være effektivt, må det forstå og generere alle språk nøyaktig. Den nåværende skjevheten kan begrense bruken i ikke-engelskspråklige regioner eller applikasjoner.

Derfor er det avgjørende å arbeide for en mer balansert representasjon i opplæringsdataene, ikke bare når det gjelder språk, men også når det gjelder de kulturelle, sosiale og demografiske aspektene som språket fører med seg.

Forbedre ytelsen

Til tross for tokeniseringsskjevheten og ubalansen i opplæringsdataene fungerer GPT-modellene godt i norsk. De kan forstå instruksjonene dine, svare på norsk på en flytende og naturlig måte og avvise upassende forespørsler. De er imidlertid tregere i norsk på grunn av suboptimal tokenisering. Translaite avhjelper dette ved å oversette spørsmålene til engelsk, noe som forbedrer ytelsen.

Avslutningsvis kan vi konkludere med at bruken av språkmodeller i kunstig intelligens har revolusjonert feltet maskinlæring og naturlig språkbehandling. Bruken av språkmodeller på ikke-engelske språk har imidlertid bydd på utfordringer på grunn av tokeniseringsskjevheter og ubalanse i opplæringsdataene. Tokenisering, prosessen med å dele opp tekst i mindre enheter, kan være problematisk for språk som norsk som har forskjellige språklige strukturer. Denne ujevne tokeniseringsprosessen fører til høyere kostnader og lavere ytelse for ikke-engelske språk sammenlignet med engelsk. I tillegg påvirker de skjeve treningsdataene, der engelsk dominerer datasettet, ytelsen til AI-modeller i ikke-engelske oppgaver og opprettholder kulturelle skjevheter.

For å løse disse problemene tilbyr Translaite en løsning ved å oversette ikke-engelske instruksjoner til engelsk, slik at brukerne effektivt kan kommunisere med avanserte AI-modeller på sitt eget språk. Denne tilnærmingen forbedrer ytelsen og reduserer tokeniseringsskjevheter, noe som gjør AI mer tilgjengelig, inkluderende og rettferdig for brukere av alle språk. Det understreker også viktigheten av balansert representasjon i opplæringsdata, ikke bare når det gjelder språk, men også kulturelle og demografiske aspekter. Ved å arbeide for mer mangfoldige og representative opplæringsdata kan vi sikre at AI-modeller blir tatt i bruk på en rettferdig og effektiv måte globalt, til fordel for brukere på norsk og andre språk.

Er du nysgjerrig på hvordan Translaite fungerer? Sett i gang og prøv det ut.