Vertaling van Large Lanugage Models

Een excursie naar hoe Generative AI Models, zoals ChatGPT, een Engelse bias hebben

Geschreven door stephens on 9 Aug 2023

Geweldige tijden

In de wereld van kunstmatige intelligentie hebben taalmodellen veel opzien gebaard. Grote taalmodellen (LLM's), zoals OpenAI's GPT familie, hebben veel aandacht gekregen in de machine learning en natuurlijke taalverwerkingsgemeenschappen. Hun gebruik is echter niet beperkt tot het Engels; ze kunnen ook andere talen begrijpen en uitvoeren, waaronder Nederlands. Deze blogpost wil de voordelen belichten van het gebruik van een app voor generatieve AI-aanwijzingen, zoals Translaite.

Translaite vertaalt eerst niet-Engelse prompts naar het Engels (via DeepL, prompts OpenAI, en vertaalt vervolgens de output terug naar de invoertaal. Dit proces stelt gebruikers in staat om de geavanceerde AI-modellen in hun eigen taal te gebruiken, waardoor het toegankelijker en gebruiksvriendelijker wordt. Maar waarom zou je dit doen?

Tokenisatie voor taalmodellen begrijpen

Tokenization, het proces van het opsplitsen van ingevoerde tekst in stukjes of tokens, is een cruciale stap in hoe LLM's werken. De GPT-modellen kunnen bijvoorbeeld Japanse tekst verwerken omdat ze een flexibele tokenizer gebruiken, tiktoken. Tiktoken is een hulpmiddel dat wordt gebruikt om het aantal tokens in een gegeven stuk tekst te tellen. Het gebruikt dezelfde tokenisregels als de Transformers-bibliotheek van Hugging Face, die primair is ontworpen om met Engelstalige tekst te werken.

Het tokenisatieproces bestaat uit het opsplitsen van een stuk tekst in kleinere eenheden, of tokens, die individuele woorden, zinnen of zelfs afzonderlijke tekens kunnen zijn. Dit proces is taalafhankelijk, omdat verschillende talen verschillende regels hebben voor hoe woorden en zinnen worden gevormd en gestructureerd.

tokenization.png](/rails/active_storage/blobs/eyJfcmFpbHMiOnsibWVzc2FnZSI6IkJBaHBDQT09IiwiZXhwIjpudWxsLCJwdXIiOiJibG9iX2lkIn19--ae0255497958949bfbbee8de014019a8f4c2abf2/tokenization.png)

Omdat tiktoken regels gebruikt die zijn afgestemd op het Engels, kan het zijn dat het tekst in andere talen niet nauwkeurig tokeniseert. Het zou bijvoorbeeld speciale tekens, accenten of taalspecifieke interpunctie in niet-Engelse talen niet correct kunnen verwerken. Bij tokenen wordt elk woord of deel van een woord vaak als een apart token behandeld. Dit werkt goed voor Engels en andere talen die spaties gebruiken om woorden te scheiden. Talen als Japans of Chinees, die geen spaties gebruiken, hebben echter te maken met uitdagingen. In deze talen kan een enkel karakter een heel woord of concept vertegenwoordigen, en deze karakters hebben vaak meer bytes nodig om in digitale vorm weer te geven dan Engelse woorden.

Het Japanse karakter voor 'hond' kost bijvoorbeeld drie tokens om weer te geven in GPT-modellen, vergeleken met slechts één token voor het Engelse woord 'dog'. Dit betekent dat voor het verwerken van Japanse tekst meer tokens nodig zijn dan voor het verwerken van de equivalente Engelse tekst (bekijk dit geweldige artikel voor meer details).

Waarom is dit belangrijk? OpenAI rekent voor het gebruik van zijn modellen per token. Daarom kan het verwerken van niet-Engelse talen zoals Nederlands aanzienlijk duurder zijn dan het verwerken van Engels. Dit ongelijke tokenisatieproces, dat Engels bevoordeelt en andere talen benadeelt, draagt bij aan de hogere kosten van het gebruik van AI-modellen voor niet-Engelse talen.

Dit betekent bijvoorbeeld ook dat er meer tokens nodig zijn om Nederlands tekst weer te geven. Translaite overbrugt deze kloof door de niet-Engelse prompts naar het Engels te vertalen, waardoor de tokenisatie efficiënt verloopt.

Vertekende trainingsgegevens in AI

ChatGPT-3 is, net als zijn voorgangers, getraind op een enorme hoeveelheid gegevens. Een belangrijk punt van zorg is echter de taalverdeling in het trainingsmateriaal. Engels domineert overweldigend de dataset, goed voor 92,1% van het totale aantal karakters. De op één na meest gebruikte taal, Frans, is slechts goed voor 1,78%, op de voet gevolgd door Duits met 1,68%. Spaans, Italiaans en Portugees komen ook voor, maar vertegenwoordigen elk minder dan 1% van het totale aantal tekens. Zelfs Japans, een veel gesproken taal, vertegenwoordigt slechts 0,16% van het totale aantal tekens. Deze onevenredige vertegenwoordiging van Engels in de trainingsgegevens vertekent onvermijdelijk de prestaties van ChatGPT in de richting van het Engels, wat mogelijk van invloed is op de prestaties in niet-Engelse taken. Deze vertekening onderstreept de noodzaak van evenwichtigere en meer diverse trainingsgegevens om te zorgen dat AI-modellen gelijkwaardig presteren in verschillende talen. De taalbias in AI-modellen zoals ChatGPT-3 kan om verschillende redenen problematisch zijn

black_and_white.png](/rails/active_storage/blobs/eyJfcmFpbHMiOnsibWVzc2FnZSI6IkJBaHBDUT09IiwiZXhwIjpudWxsLCJwdXIiOiJibG9iX2lkIn19--ed0aaef00cd16e026610b2a781d61fe655adc60c/black_and_white.png)

Prestatieverschillen Het model zal beter presteren in Engelse taken dan in andere talen. Dit betekent dat gebruikers die geen Engels als eerste taal spreken een minder effectieve en mogelijk frustrerende ervaring zullen hebben.

Taal is nauw verbonden met cultuur. Door voornamelijk te trainen op Engelstalige tekst, kan het model onbedoeld vooroordelen bestendigen die inherent zijn aan Engelstalig materiaal en culturele nuances in andere talen niet begrijpen of respecteren.

Toegankelijkheid en inclusiviteit AI heeft de potentie om een universeel hulpmiddel te zijn, toegankelijk en nuttig voor mensen ongeacht hun taal of locatie. Een voorkeur voor Engels beperkt dit potentieel echter en sluit een aanzienlijk deel van de wereldbevolking uit.

Misinterpretatie en miscommunicatie Voor talen die ondervertegenwoordigd zijn in de trainingsgegevens, kan het model tekstinvoer verkeerd begrijpen of interpreteren, wat leidt tot onjuiste of ongepaste antwoorden. Dit kan ook leiden tot miscommunicatie in kritieke situaties.

Vanuit ethisch oogpunt is het belangrijk dat AI-systemen eerlijk en rechtvaardig zijn. Een systeem dat één taal bevoordeelt ten opzichte van andere roept vragen op over eerlijkheid en representatie.

Beperking in wereldwijde toepassing Om AI echt wereldwijd te kunnen toepassen en effectief te laten zijn, moet het alle talen nauwkeurig begrijpen en genereren. De huidige vooringenomenheid kan de toepassing in niet-Engelssprekende regio's of toepassingen beperken.

Daarom is het cruciaal om te werken aan een evenwichtigere vertegenwoordiging in trainingsgegevens, niet alleen in termen van taal, maar ook in termen van de culturele, sociale en demografische aspecten die taal met zich meebrengt.

Prestaties verbeteren

Ondanks de vertekening door tokenisering en de onevenwichtigheden in de training, presteren GPT-modellen goed in Nederlands. Ze kunnen je instructies begrijpen, vloeiend en natuurlijk antwoorden in Nederlands en ongepaste verzoeken afwijzen. Ze zijn echter langzamer in Nederlands vanwege de suboptimale tokenisatie. Translaite verzacht dit door de prompts in het Engels te vertalen, waardoor de prestaties verbeteren.

Concluderend, het gebruik van taalmodellen in kunstmatige intelligentie heeft een revolutie teweeggebracht op het gebied van machinaal leren en natuurlijke taalverwerking. Hun toepassing in niet-Engelse talen heeft echter te kampen met uitdagingen als gevolg van vertekening door tokenisering en onevenwichtigheden in de trainingsgegevens. Tokenisatie, het proces waarbij tekst wordt opgedeeld in kleinere eenheden, kan problematisch zijn voor talen zoals Nederlands die verschillende linguïstische structuren hebben. Dit ongelijke tokenisatieproces leidt tot hogere kosten en tragere prestaties voor niet-Engelse talen in vergelijking met het Engels. Bovendien beïnvloeden de bevooroordeelde trainingsgegevens, waarbij Engels de dataset domineert, de prestaties van AI-modellen in niet-Engelse taken en bestendigen ze culturele vooroordelen.

all_inclusive.png](/rails/active_storage/blobs/eyJfcmFpbHMiOnsibWVzc2FnZSI6IkJBaHBCdz09IiwiZXhwIjpudWxsLCJwdXIiOiJibG9iX2lkIn19--e046fedd0e14180dd3995b758486e1c163a08ef0/all_inclusive.png)

Om deze problemen aan te pakken, biedt de Translaite een oplossing door niet-Engelse prompts te vertalen naar het Engels, zodat gebruikers effectief kunnen communiceren met geavanceerde AI-modellen in hun eigen taal. Deze aanpak verbetert de prestaties en vermindert vertekeningen door tokenisatie, waardoor AI toegankelijker, inclusiever en rechtvaardiger wordt voor gebruikers van alle talen. Het benadrukt ook het belang van een evenwichtige vertegenwoordiging in trainingsgegevens, niet alleen in termen van taal, maar ook in termen van culturele en demografische aspecten. Door te werken aan meer diverse en representatieve trainingsgegevens kunnen we ervoor zorgen dat AI-modellen wereldwijd op een eerlijke en effectieve manier worden toegepast, ten gunste van gebruikers in Nederlands en daarbuiten.

Nieuwsgierig naar hoe Translaite werkt? Ga je gang en probeer het uit