Tłumaczenie Large Lanugage Models

Wycieczka na temat tego, jak Generative AI Models, takie jak ChatGPT, mają angielskie uprzedzenia

Napisany przez stephens on 9 Aug 2023

Niesamowite czasy

W świecie sztucznej inteligencji modele językowe robią coraz większą furorę. Duże modele językowe (LLM), takie jak rodzina GPT OpenAI, przyciągnęły znaczną uwagę społeczności zajmujących się uczeniem maszynowym i przetwarzaniem języka naturalnego. Jednak ich zastosowanie nie ogranicza się do języka angielskiego; mogą one również rozumieć i generować wyniki w innych językach, w tym polski. Ten wpis na blogu ma na celu podkreślenie korzyści płynących z korzystania z aplikacji do generowania podpowiedzi AI, takich jak Translaite.

Translaite najpierw tłumaczy nieanglojęzyczne podpowiedzi na język angielski (za pośrednictwem DeepL, podpowiedzi OpenAI, a następnie tłumaczy dane wyjściowe na język wejściowy. Proces ten pozwala użytkownikom angażować się w zaawansowane modele sztucznej inteligencji w ich języku, czyniąc je bardziej dostępnymi i przyjaznymi dla użytkownika. Ale dlaczego warto to robić?

Zrozumienie tokenizacji dla modeli językowych

Tokenizacja, proces dzielenia tekstu wejściowego na części lub tokeny, jest kluczowym krokiem w działaniu modeli LLM. Modele GPT mogą przetwarzać np. japoński tekst, ponieważ używają elastycznego tokenizera tiktoken. Tiktoken to narzędzie służące do zliczania liczby tokenów w danym fragmencie tekstu. Wykorzystuje ono te same zasady tokenizacji, co biblioteka Transformers Hugging Face, która została zaprojektowana głównie do pracy z tekstem w języku angielskim.

Proces tokenizacji polega na podzieleniu fragmentu tekstu na mniejsze jednostki lub tokeny, które mogą być pojedynczymi słowami, frazami, a nawet pojedynczymi znakami. Proces ten jest zależny od języka, ponieważ różne języki mają różne zasady tworzenia i struktury słów i zdań.

tokenization.png

Ponieważ tiktoken używa reguł dostosowanych do języka angielskiego, może niedokładnie tokenizować tekst w innych językach. Na przykład może niepoprawnie obsługiwać znaki specjalne, akcenty lub znaki interpunkcyjne specyficzne dla języka w językach innych niż angielski. Tokenizacja często traktuje każde słowo lub część słowa jako osobny token. Działa to dobrze w przypadku języka angielskiego i innych języków, które używają spacji do oddzielania słów. Jednak języki takie jak japoński czy chiński, które nie używają spacji, napotykają wyzwania. W tych językach pojedynczy znak może reprezentować całe słowo lub pojęcie, a znaki te często wymagają więcej bajtów do przedstawienia w formie cyfrowej niż angielskie słowa.

Na przykład japoński znak "pies" wymaga trzech tokenów do reprezentacji w modelach GPT, w porównaniu do zaledwie jednego tokena dla angielskiego słowa "dog". Oznacza to, że przetwarzanie japońskiego tekstu wymaga więcej tokenów niż przetwarzanie równoważnego tekstu angielskiego (sprawdź ten świetny artykuł, aby uzyskać więcej szczegółów).

Dlaczego ma to znaczenie? OpenAI pobiera opłaty za korzystanie ze swoich modeli za token. Dlatego przetwarzanie języków innych niż angielski, takich jak polski, może być znacznie droższe niż przetwarzanie języka angielskiego. Ten nierówny proces tokenizacji, faworyzujący język angielski i niekorzystny dla innych języków, przyczynia się do wyższych kosztów korzystania z modeli AI dla języków innych niż angielski.

Oznacza to również, że np. potrzeba więcej tokenów do reprezentowania tekstu polski. Translaite wypełnia tę lukę, tłumacząc nieanglojęzyczne podpowiedzi na język angielski, zapewniając wydajną tokenizację.

Stronnicze dane treningowe w sztucznej inteligencji

ChatGPT-3, podobnie jak jego poprzednicy, został przeszkolony na ogromnej ilości danych. Istotnym problemem jest jednak rozkład języków w materiale szkoleniowym. Angielski zdecydowanie dominuje w zbiorze danych, stanowiąc 92,1% wszystkich znaków. Drugi najpopularniejszy język, francuski, stanowi tylko 1,78%, a tuż za nim plasuje się niemiecki z 1,68%. Hiszpański, włoski i portugalski również występują, ale każdy z nich stanowi mniej niż 1% wszystkich znaków. Nawet japoński, powszechnie używany język, stanowi tylko 0,16% wszystkich znaków. Ta nieproporcjonalna reprezentacja języka angielskiego w danych treningowych nieuchronnie wpływa na wydajność ChatGPT w kierunku języka angielskiego, potencjalnie wpływając na jego wydajność w zadaniach nieanglojęzycznych. To odchylenie podkreśla potrzebę bardziej zrównoważonych i zróżnicowanych danych treningowych, aby zapewnić sprawiedliwą wydajność modeli AI w różnych językach. Tendencyjność językowa w modelach AI takich jak ChatGPT-3 może być problematyczna z kilku powodów

black_and_white.png

Różnica w wydajności Model będzie działał lepiej w zadaniach w języku angielskim niż w innych językach. Oznacza to, że użytkownicy, którzy nie posługują się językiem angielskim jako pierwszym językiem, będą mieli mniej efektywne i potencjalnie frustrujące doświadczenie.

Stronniczość kulturowa Język jest ściśle powiązany z kulturą. Trenując głównie na tekstach w języku angielskim, model może nieumyślnie utrwalać uprzedzenia związane z materiałami w języku angielskim i nie rozumieć lub nie szanować niuansów kulturowych obecnych w innych językach.

Dostępność i inkluzywność Sztuczna inteligencja może być uniwersalnym narzędziem, dostępnym i użytecznym dla ludzi niezależnie od ich języka lub lokalizacji. Jednak uprzedzenie do języka angielskiego ogranicza ten potencjał i wyklucza znaczną część globalnej populacji.

W przypadku języków, które są niedostatecznie reprezentowane w danych szkoleniowych, model może źle zrozumieć lub błędnie zinterpretować dane wejściowe, co prowadzi do nieprawidłowych lub nieodpowiednich odpowiedzi. Może to również prowadzić do błędnej komunikacji w krytycznych sytuacjach.

Z etycznego punktu widzenia ważne jest, aby systemy sztucznej inteligencji były uczciwe i sprawiedliwe. System, który jest stronniczy w stosunku do jednego języka nad innymi, rodzi pytania o sprawiedliwość i reprezentację.

Ograniczenia w globalnej adopcji Aby sztuczna inteligencja była naprawdę globalnie przyjęta i skuteczna, musi dokładnie rozumieć i generować wszystkie języki. Obecne uprzedzenia mogą ograniczyć jej przyjęcie w regionach lub aplikacjach nieanglojęzycznych.

Dlatego też kluczowe jest dążenie do bardziej zrównoważonej reprezentacji w danych szkoleniowych, nie tylko pod względem języka, ale także pod względem aspektów kulturowych, społecznych i demograficznych, które niesie ze sobą język.

Zwiększanie wydajności

Pomimo tendencyjności tokenizacji i nierównowagi treningowej, modele GPT działają dobrze w polski. Mogą zrozumieć twoje instrukcje, odpowiedzieć w polski płynnie i naturalnie oraz odrzucić nieodpowiednie żądania. Są jednak wolniejsze w polski ze względu na nieoptymalną tokenizację. Translaite łagodzi to poprzez tłumaczenie podpowiedzi na język angielski, zwiększając tym samym wydajność.

Podsumowując, wykorzystanie modeli językowych w sztucznej inteligencji zrewolucjonizowało dziedzinę uczenia maszynowego i przetwarzania języka naturalnego. Jednak ich zastosowanie w językach innych niż angielski napotyka wyzwania związane z tendencyjnością tokenizacji i brakiem równowagi danych treningowych. Tokenizacja, proces dzielenia tekstu na mniejsze jednostki, może być problematyczna dla języków takich jak polski, które mają różne struktury językowe. Ten nierówny proces tokenizacji prowadzi do wyższych kosztów i wolniejszej wydajności dla języków innych niż angielski w porównaniu z angielskim. Dodatkowo, tendencyjne dane treningowe, w których dominuje język angielski, wpływają na wydajność modeli sztucznej inteligencji w zadaniach nieanglojęzycznych i utrwalają uprzedzenia kulturowe.

all_inclusive.png

Aby rozwiązać te kwestie, Translaite zapewnia rozwiązanie poprzez tłumaczenie nieanglojęzycznych podpowiedzi na język angielski, umożliwiając użytkownikom efektywne angażowanie się w zaawansowane modele sztucznej inteligencji w ich języku. Takie podejście zwiększa wydajność i łagodzi błędy tokenizacji, czyniąc sztuczną inteligencję bardziej dostępną, integracyjną i sprawiedliwą dla użytkowników wszystkich języków. Podkreśla również znaczenie zrównoważonej reprezentacji w danych szkoleniowych, nie tylko pod względem językowym, ale także pod względem aspektów kulturowych i demograficznych. Pracując nad bardziej zróżnicowanymi i reprezentatywnymi danymi szkoleniowymi, możemy zapewnić sprawiedliwe i skuteczne przyjęcie modeli sztucznej inteligencji na całym świecie, z korzyścią dla użytkowników w polski i nie tylko.

Ciekawi Cię, jak działa Translaite? Śmiało i wypróbuj