You need to sign in or sign up before continuing.

Översättning av Large Lanugage Models

En utflykt till hur Generative AI Models, såsom ChatGPT, har en engelsk bias

Skrivet av stephens on 9 Aug 2023

Fantastiska tider

I världen av artificiell intelligens har språkmodeller gjort en hel del stänk. Stora språkmodeller (LLM), som OpenAI:s GPT-familj, har fått stor uppmärksamhet inom maskininlärning och bearbetning av naturliga språk. Deras användning är dock inte begränsad till engelska; de kan också förstå och producera på andra språk, inklusive svenska. Det här blogginlägget syftar till att belysa fördelarna med att använda en app för generativa AI-prompter, som Translaite.

Translaite översätter först icke-engelska uppmaningar till engelska (via DeepL, uppmaningar OpenAI) och översätter sedan tillbaka utdata till ingångsspråket. Denna process gör det möjligt för användarna att interagera med de avancerade AI-modellerna på sitt eget språk, vilket gör det mer tillgängligt och användarvänligt. Men varför ska man göra detta?

Förståelse av tokenisering för språkmodeller

Tokenisering, processen att dela upp inmatad text i bitar eller tokens, är ett avgörande steg i hur LLM fungerar. GPT-modellerna kan bearbeta t.ex. japansk text eftersom de använder en flexibel tokenizer, tiktoken. Tiktoken är ett verktyg som används för att räkna antalet tokens i en viss text. Det använder samma tokeniseringsregler som Hugging Face:s Transformers-bibliotek, som främst är utformat för att arbeta med engelskspråkig text.

Tokeniseringsprocessen innebär att ett textstycke delas upp i mindre enheter, eller tokens, som kan vara enskilda ord, fraser eller till och med enstaka tecken. Denna process är språkberoende, eftersom olika språk har olika regler för hur ord och meningar bildas och struktureras.

tokenization.png

Eftersom tiktoken använder regler som är skräddarsydda för engelska kan det hända att den inte korrekt tokeniserar text på andra språk. Det är till exempel inte säkert att specialtecken, accenter eller språkspecifik interpunktion hanteras korrekt i icke-engelska språk. Vid tokenisering behandlas ofta varje ord eller del av ett ord som en separat token. Detta fungerar bra för engelska och andra språk som använder mellanslag för att separera ord. Språk som japanska eller kinesiska, som inte använder mellanslag, står dock inför utmaningar. På dessa språk kan ett enda tecken representera ett helt ord eller koncept, och dessa tecken kräver ofta fler bytes för att representeras i digital form än engelska ord.

Det japanska tecknet för "hund" kräver till exempel tre tokens för att representeras i GPT-modeller, jämfört med bara en token för det engelska ordet "dog". Detta innebär att bearbetning av japansk text kräver fler tokens än bearbetning av motsvarande engelsk text (kolla in denna fantastiska artikel för mer information).

Varför är detta viktigt? OpenAI tar betalt för användningen av sina modeller per token. Därför kan bearbetning av icke-engelska språk som svenska vara betydligt dyrare än bearbetning av engelska. Denna ojämlika tokeniseringsprocess, som gynnar engelska och missgynnar andra språk, bidrar till den högre kostnaden för att använda AI-modeller för icke-engelska språk.

Detta innebär också att det t.ex. krävs fler tokens för att representera svenska text. Translaite överbryggar detta gap genom att översätta de icke-engelska uppmaningarna till engelska, vilket säkerställer effektiv tokenisering.

Partisk träningsdata i AI

ChatGPT-3, liksom dess föregångare, tränades på en stor mängd data. Ett stort problem är dock språkfördelningen i träningsmaterialet. Engelska dominerar överväldigande datasetet och står för 92,1% av de totala tecknen. Det näst vanligaste språket, franska, utgör endast 1,78 %, tätt följt av tyska på 1,68 %. Spanska, italienska och portugisiska förekommer också, men utgör vardera mindre än 1 % av det totala antalet tecken. Även japanska, som är ett mycket talat språk, står bara för 0,16 % av det totala antalet tecken. Denna oproportionerliga representation av engelska i träningsdata leder oundvikligen till att ChatGPT:s prestanda blir mer inriktad på engelska, vilket kan påverka dess prestanda i icke-engelska uppgifter. Denna bias understryker behovet av mer balanserad och mångsidig träningsdata för att säkerställa rättvis prestanda för AI-modeller på olika språk. Språkförskjutningen i AI-modeller som ChatGPT-3 kan vara problematisk av flera skäl

black_and_white.png

Prestationsskillnader Modellen presterar bättre på engelska än på andra språk. Detta innebär att användare som inte har engelska som modersmål får en mindre effektiv och potentiellt frustrerande upplevelse.

Kulturell partiskhet Språk är nära kopplat till kultur. Genom att främst träna på engelskspråkig text kan modellen oavsiktligt vidmakthålla fördomar som finns i engelskspråkigt material och misslyckas med att förstå eller respektera kulturella nyanser som finns i andra språk.

Tillgänglighet och inkludering AI har potential att bli ett universellt verktyg, tillgängligt och användbart för människor oavsett språk eller plats. En fördom mot engelska begränsar dock denna potential och utesluter en betydande del av den globala befolkningen.

Misstolkning och missförstånd För språk som är underrepresenterade i träningsdata kan modellen missförstå eller misstolka textinmatningar, vilket leder till felaktiga eller olämpliga svar. Detta kan också leda till missförstånd i kritiska situationer.

Etiska överväganden Ur etisk synvinkel är det viktigt att AI-system är rättvisa och jämlika. Ett system som favoriserar ett språk framför andra väcker frågor om rättvisa och representation.

Begränsning i globalt införande För att AI verkligen ska kunna införas globalt och vara effektivt måste det förstå och generera alla språk korrekt. Den nuvarande partiskheten kan begränsa användningen i icke-engelsktalande regioner eller applikationer.

Därför är det viktigt att arbeta för en mer balanserad representation i utbildningsdata, inte bara när det gäller språk, utan också när det gäller de kulturella, sociala och demografiska aspekter som språket bär med sig.

Förbättrad prestanda

Trots tokeniseringsbias och obalanser i träningsdata fungerar GPT-modeller bra i svenska. De kan förstå dina instruktioner, svara tillbaka på svenska flytande och naturligt och avvisa olämpliga förfrågningar. De är dock långsammare i svenska på grund av den suboptimala tokeniseringen. Translaite mildrar detta genom att översätta uppmaningarna till engelska, vilket förbättrar prestandan.

Sammanfattningsvis har användningen av språkmodeller inom artificiell intelligens revolutionerat området för maskininlärning och bearbetning av naturligt språk. Men deras tillämpning på icke-engelska språk har mött utmaningar på grund av förspänning av tokenisering och obalanser i träningsdata. Tokenisering, processen att dela upp text i mindre enheter, kan vara problematisk för språk som svenska som har olika språkliga strukturer. Denna ojämlika tokeniseringsprocess leder till högre kostnader och långsammare prestanda för icke-engelska språk jämfört med engelska. Dessutom påverkar de partiska träningsdata, där engelska dominerar datasetet, AI-modellernas prestanda i icke-engelska uppgifter och vidmakthåller kulturella fördomar.

all_inclusive.png

För att hantera dessa problem erbjuder Translaite en lösning genom att översätta icke-engelska uppmaningar till engelska, så att användarna effektivt kan interagera med avancerade AI-modeller på sitt eget språk. Detta tillvägagångssätt förbättrar prestandan och minskar fördomar om tokenisering, vilket gör AI mer tillgängligt, inkluderande och rättvist för användare av alla språk. Det belyser också vikten av balanserad representation i träningsdata, inte bara när det gäller språk utan också när det gäller kulturella och demografiska aspekter. Genom att arbeta för mer mångsidiga och representativa träningsdata kan vi säkerställa att AI-modeller används rättvist och effektivt globalt, vilket gynnar användare i svenska och andra länder.

Nyfiken på hur Translaite fungerar? Varsågod och prova