Käännös Large Lanugage Models

Ekskursio siihen, miten Generative AI Models, kuten ChatGPT, on englanninkielinen vinouma

Kirjoittanut stephens on 9 Aug 2023

Amazing Times

Tekoälymaailmassa kielimallit ovat tehneet melkoista ryminää. Suuret kielimallit (LLM), kuten OpenAI:n GPT-perhe, ovat saaneet paljon huomiota koneoppimisen ja luonnollisen kielen käsittelyn yhteisöissä. Niiden käyttö ei kuitenkaan rajoitu vain englantiin, vaan ne voivat ymmärtää ja tuottaa tuloksia myös muilla kielillä, kuten suomi. Tämän blogikirjoituksen tarkoituksena on tuoda esiin Translaiten kaltaisen generatiivisten tekoälykehotteiden sovelluksen käytön edut.

Translaite kääntää ensin ei-englanninkieliset kehotukset englanniksi (DeepL kautta, antaa kehotuksia OpenAI ja kääntää sitten tulosteen takaisin syöttökielelle. Tämän prosessin ansiosta käyttäjät voivat käyttää kehittyneitä tekoälymalleja omalla kielellään, mikä tekee niistä helpommin lähestyttäviä ja käyttäjäystävällisempiä. Mutta miksi näin pitäisi tehdä?

Tokenisoinnin ymmärtäminen kielimalleja varten

Tokenisointi, eli syötetyn tekstin jakaminen palasiksi tai merkkeihin, on tärkeä vaihe LLM:ien toiminnassa. GPT-mallit pystyvät käsittelemään esimerkiksi japaninkielistä tekstiä, koska ne käyttävät joustavaa tokenisoijaa, tiktoken. Tiktoken on työkalu, jota käytetään laskemaan merkkien määrä tietyssä tekstikappaleessa. Se käyttää samoja tokenisointisääntöjä kuin Hugging Face:n Transformers-kirjasto, joka on suunniteltu ensisijaisesti englanninkielisen tekstin käsittelyyn.

Tokenisointiprosessissa tekstikappale jaetaan pienemmiksi yksiköiksi eli tokeniksi, jotka voivat olla yksittäisiä sanoja, lauseita tai jopa yksittäisiä merkkejä. Prosessi on kieliriippuvainen, sillä eri kielillä on erilaiset säännöt siitä, miten sanat ja lauseet muodostetaan ja jäsennetään.

tokenization.png

Koska tiktoken käyttää sääntöjä, jotka on räätälöity englanninkielelle, se ei välttämättä tunnista tarkasti muiden kielten tekstiä. Se ei esimerkiksi välttämättä käsittele oikein erikoismerkkejä, aksentteja tai kielikohtaisia välimerkkejä muissa kuin englannin kielissä. Tokenisointi käsittelee usein jokaista sanaa tai sanan osaa erillisenä tokenina. Tämä toimii hyvin englannissa ja muissa kielissä, joissa käytetään välilyöntejä sanojen erottamiseen. Japanin ja kiinan kaltaiset kielet, joissa ei käytetä välilyöntejä, ovat kuitenkin haasteellisia. Näissä kielissä yksittäinen merkki voi edustaa kokonaista sanaa tai käsitettä, ja näiden merkkien esittäminen digitaalisessa muodossa vaatii usein enemmän tavuja kuin englanninkielisten sanojen.

Esimerkiksi japaninkielinen merkki "dog" vaatii kolme merkkiä esittääkseen GPT-malleissa, kun taas englanninkielinen sana "dog" vaatii vain yhden merkin. Tämä tarkoittaa, että japaninkielisen tekstin käsittely vaatii enemmän merkkejä kuin vastaavan englanninkielisen tekstin käsittely (katso lisätietoja tästä loistavasta artikkelista).

Miksi tällä on merkitystä? OpenAI veloittaa malliensa käytöstä merkkiä kohden. Siksi muiden kuin englanninkielisten kielten, kuten suomi, käsittely voi olla huomattavasti kalliimpaa kuin englannin kielen käsittely. Tämä epätasa-arvoinen tokenisointiprosessi, joka suosii englantia ja haittaa muita kieliä, vaikuttaa osaltaan siihen, että tekoälymallien käyttökustannukset ovat korkeammat muiden kuin englanninkielisten kielten osalta.

Tämä tarkoittaa myös sitä, että esimerkiksi suomi-tekstin esittämiseen tarvitaan enemmän tokeneita. Translaite korjaa tämän puutteen kääntämällä ei-englanninkieliset kehotukset englanniksi, mikä takaa tehokkaan tokenisoinnin.

Tekoälyn harjoitteluaineisto on puolueellista

ChatGPT-3, kuten edeltäjänsä, koulutettiin laajalla tietomäärällä. Merkittävä huolenaihe on kuitenkin harjoitusaineiston kielijakauma. Englannin kieli hallitsee datasettiä ylivoimaisesti, sillä sen osuus kaikista merkeistä on 92,1 prosenttia. Toiseksi yleisimmän kielen, ranskan, osuus on vain 1,78 prosenttia, ja sen jälkeen tulee saksa 1,68 prosentilla. Myös espanja, italia ja portugali ovat mukana, mutta niiden osuus on alle 1 % kaikista merkkeistä. Jopa japanin kieli, jota puhutaan laajalti, muodostaa vain 0,16 prosenttia kaikista merkeistä. Tämä englannin kielen suhteeton edustus harjoitusaineistossa vääristää väistämättä ChatGPT:n suorituskykyä englannin kielen suuntaan, mikä saattaa vaikuttaa sen suorituskykyyn muissa kuin englanninkielisissä tehtävissä. Tämä vääristymä korostaa tarvetta tasapainoisempaan ja monipuolisempaan harjoitusaineistoon, jotta voidaan varmistaa tekoälymallien tasapuolinen suorituskyky eri kielillä. ChatGPT-3:n kaltaisten tekoälymallien kielivinouma voi olla ongelmallinen useista syistä.

black_and_white.png

Suorituskykyero Malli suoriutuu englanninkielisissä tehtävissä paremmin kuin muissa kielissä. Tämä tarkoittaa, että käyttäjät, jotka eivät puhu englantia äidinkielenään, saavat vähemmän tehokkaan ja mahdollisesti turhauttavan kokemuksen.

Kulttuurinen vääristymä Kieli on tiiviisti sidoksissa kulttuuriin. Kun malli koulutetaan ensisijaisesti englanninkieliseen tekstiin, se voi tahattomasti ylläpitää englanninkieliseen aineistoon liittyviä ennakkoluuloja ja jättää ymmärtämättä tai kunnioittamatta muissa kielissä esiintyviä kulttuurivivahteita.

Saavutettavuus ja osallistavuus Tekoälyllä on potentiaalia olla yleismaailmallinen työkalu, joka on ihmisten saatavilla ja hyödyllinen heidän kielestään tai sijainnistaan riippumatta. Englanninkielisyys kuitenkin rajoittaa tätä potentiaalia ja sulkee pois merkittävän osan maailman väestöstä.

Väärintulkinta ja väärinymmärrys Jos kielet ovat aliedustettuina harjoitusaineistossa, malli voi ymmärtää tai tulkita väärin tekstinsyötteet, mikä johtaa virheellisiin tai sopimattomiin vastauksiin. Tämä voi myös johtaa väärinymmärrykseen kriittisissä tilanteissa.

Eettiset näkökohdat Eettisestä näkökulmasta on tärkeää, että tekoälyjärjestelmät ovat oikeudenmukaisia ja tasapuolisia. Järjestelmä, joka suosii yhtä kieltä muita enemmän, herättää kysymyksiä oikeudenmukaisuudesta ja edustuksesta.

Yleismaailmallisen käyttöönoton rajoitukset Jotta tekoäly voitaisiin todella ottaa käyttöön maailmanlaajuisesti ja jotta se olisi tehokas, sen on ymmärrettävä ja tuotettava kaikki kielet tarkasti. Nykyinen ennakkoluuloisuus saattaa rajoittaa sen käyttöönottoa muilla kuin englantia puhuvilla alueilla tai sovelluksissa.

Siksi on tärkeää pyrkiä tasapainoisempaan edustukseen harjoitusdatassa, ei pelkästään kielen vaan myös kielen mukanaan tuomien kulttuuristen, sosiaalisten ja demografisten näkökohtien osalta.

Suorituskyvyn parantaminen

Tokenisointiharhasta ja koulutuksen epätasapainosta huolimatta GPT-mallit suoriutuvat hyvin suomi:ssä. Ne ymmärtävät ohjeesi, vastaavat sujuvasti ja luontevasti suomi-kielellä ja hylkäävät sopimattomat pyynnöt. Ne ovat kuitenkin hitaampia suomi:ssä, mikä johtuu suboptimaalisesta tokenisoinnista. Translaite lieventää tätä kääntämällä kehotukset englanniksi ja parantaa näin suorituskykyä.

Lopuksi voidaan todeta, että kielimallien käyttö tekoälyssä on mullistanut koneoppimisen ja luonnollisen kielen käsittelyn. Niiden soveltamiseen ei-englanninkielisiin kieliin on kuitenkin liittynyt haasteita, jotka johtuvat tokenisointivirheistä ja harjoitusdatan epätasapainosta. Tokenisointi eli tekstin jakaminen pienempiin yksiköihin voi olla ongelmallista suomi:n kaltaisissa kielissä, joissa on erilaisia kielellisiä rakenteita. Tämä epätasainen tokenisointiprosessi johtaa korkeampiin kustannuksiin ja hitaampaan suorituskykyyn muiden kuin englanninkielisten kielten kohdalla verrattuna englantiin. Lisäksi vääristynyt harjoitusaineisto, jossa englannin kieli dominoi tietokokonaisuutta, vaikuttaa tekoälymallien suorituskykyyn muissa kuin englanninkielisissä tehtävissä ja ylläpitää kulttuurisia ennakkoluuloja.

all_inclusive.png

Näiden ongelmien ratkaisemiseksi Translaite tarjoaa ratkaisun kääntämällä ei-englanninkieliset kehotukset englanniksi, jolloin käyttäjät voivat tehokkaasti toimia kehittyneiden tekoälymallien kanssa omalla kielellään. Tämä lähestymistapa parantaa suorituskykyä ja lieventää tokenisointivääristymiä, mikä tekee tekoälystä helpommin lähestyttävää, osallistavaa ja tasa-arvoista kaikkien kielten käyttäjille. Se korostaa myös tasapainoisen edustuksen merkitystä harjoitusaineistossa, ei vain kielen vaan myös kulttuuristen ja demografisten näkökohtien osalta. Pyrkimällä monipuolisempaan ja edustavampaan harjoitusaineistoon voimme varmistaa tekoälymallien oikeudenmukaisen ja tehokkaan käyttöönoton maailmanlaajuisesti, mikä hyödyttää käyttäjiä suomi ja muualla.

Oletko utelias siitä, miten Translaite toimii? Mene ja kokeile