Traduction de Large Lanugage Models

Une excursion dans la façon dont les modèles d'IA Generative AI Models, tels que ChatGPT, ont un penchant pour l'anglais

Rédigé par stephens on 9 Aug 2023

Une époque étonnante

Dans le monde de l'intelligence artificielle, les modèles de langage ont fait beaucoup de bruit. Les grands modèles de langage (LLM), tels que la famille GPT d'OpenAI, ont suscité une attention considérable dans les communautés de l'apprentissage automatique et du traitement du langage naturel. Cependant, leur utilisation ne se limite pas à l'anglais ; ils peuvent également comprendre et produire des résultats dans d'autres langues, y compris français. Cet article de blog vise à mettre en évidence les avantages de l'utilisation d'une appli pour les invites génératives de l'IA, telle que Translaite.

Translaite traduit d'abord les messages non anglais en anglais (via DeepL, les messages OpenAI, puis retraduit le résultat dans la langue d'entrée. Ce processus permet aux utilisateurs de s'engager avec les modèles d'IA avancés dans leur langue, ce qui les rend plus accessibles et plus conviviaux. Mais pourquoi faire cela ?

Comprendre la tokenisation pour les modèles linguistiques

La tokenisation, qui consiste à diviser le texte d'entrée en morceaux ou en jetons, est une étape cruciale dans le fonctionnement des modèles linguistiques. Les modèles GPT peuvent traiter, par exemple, du texte japonais parce qu'ils utilisent un tokéniseur flexible, tiktoken. Tiktoken est un outil utilisé pour compter le nombre de tokens dans un texte donné. Il utilise les mêmes règles de tokenisation que la bibliothèque Transformers de Hugging Face, qui est principalement conçue pour travailler avec des textes en anglais.

Le processus de symbolisation consiste à diviser un morceau de texte en unités plus petites, ou jetons, qui peuvent être des mots individuels, des phrases ou même des caractères uniques. Ce processus dépend de la langue, car les règles de formation et de structuration des mots et des phrases varient d'une langue à l'autre.

tokenization.png

Comme tiktoken utilise des règles adaptées à l'anglais, il se peut qu'il ne tokenise pas correctement les textes rédigés dans d'autres langues. Par exemple, il peut ne pas traiter correctement les caractères spéciaux, les accents ou la ponctuation spécifique à la langue dans les langues autres que l'anglais. La tokenisation traite souvent chaque mot ou partie de mot comme un jeton séparé. Cela fonctionne bien pour l'anglais et les autres langues qui utilisent des espaces pour séparer les mots. Cependant, les langues comme le japonais ou le chinois, qui n'utilisent pas d'espaces, posent des problèmes. Dans ces langues, un seul caractère peut représenter un mot ou un concept entier, et ces caractères nécessitent souvent plus d'octets pour être représentés sous forme numérique que les mots anglais.

Par exemple, le caractère japonais pour "chien" nécessite trois jetons pour être représenté dans les modèles GPT, contre un seul jeton pour le mot anglais "dog". Cela signifie que le traitement d'un texte japonais nécessite plus de jetons que le traitement d'un texte anglais équivalent (consulte cet excellent article pour plus de détails).

Pourquoi cela est-il important ? OpenAI facture l'utilisation de ses modèles par jeton. Par conséquent, le traitement des langues non anglaises comme français peut être nettement plus coûteux que le traitement de l'anglais. Ce processus de tokenisation inégal, qui favorise l'anglais et désavantage les autres langues, contribue au coût plus élevé de l'utilisation des modèles d'IA pour les langues autres que l'anglais.

Cela signifie également que, par exemple, il faut plus de tokens pour représenter un texte français. Translaite comble cette lacune en traduisant les invites non anglaises en anglais, ce qui garantit une tokénisation efficace.

Données d'entraînement biaisées dans l'IA

ChatGPT-3, comme ses prédécesseurs, a été formé sur une grande quantité de données. Cependant, la répartition des langues dans le matériel d'entraînement constitue une préoccupation importante. L'anglais domine largement le jeu de données, représentant 92,1 % du nombre total de caractères. La deuxième langue la plus courante, le français, ne représente que 1,78 %, suivie de près par l'allemand avec 1,68 %. L'espagnol, l'italien et le portugais sont également présents, mais chacun représente moins de 1 % du nombre total de caractères. Même le japonais, une langue très répandue, ne représente que 0,16 % du total des caractères. Cette représentation disproportionnée de l'anglais dans les données de formation biaise inévitablement les performances de ChatGPT en faveur de l'anglais, ce qui risque d'affecter ses performances dans les tâches non anglophones. Ce biais souligne la nécessité de disposer de données d'entraînement plus équilibrées et plus diversifiées pour garantir des performances équitables des modèles d'IA dans différentes langues. Le biais linguistique dans les modèles d'IA tels que ChatGPT-3 peut être problématique pour plusieurs raisons

black_and_white.png

Disparité des performances Le modèle sera plus performant dans les tâches en anglais que dans les autres langues. Cela signifie que les utilisateurs dont l'anglais n'est pas la première langue auront une expérience moins efficace et potentiellement frustrante.

Biais culturel La langue est étroitement liée à la culture. En s'entraînant principalement sur des textes en anglais, le modèle peut involontairement perpétuer les préjugés inhérents aux documents en anglais et ne pas comprendre ou respecter les nuances culturelles présentes dans d'autres langues.

Accessibilité et inclusivité L'IA a le potentiel d'être un outil universel, accessible et utile aux personnes indépendamment de leur langue ou de leur localisation. Cependant, un parti pris pour l'anglais limite ce potentiel et exclut une part importante de la population mondiale.

Pour les langues sous-représentées dans les données de formation, le modèle peut mal comprendre ou mal interpréter les entrées de texte, ce qui entraîne des réponses incorrectes ou inappropriées. Cela peut également entraîner une mauvaise communication dans des situations critiques.

Considérations éthiques D'un point de vue éthique, il est important que les systèmes d'IA soient justes et équitables. Un système qui privilégie une langue par rapport à d'autres soulève des questions sur l'équité et la représentation.

Limitation de l'adoption mondiale Pour que l'IA soit réellement adoptée et efficace à l'échelle mondiale, elle doit comprendre et générer toutes les langues avec précision. Le parti pris actuel pourrait limiter son adoption dans les régions ou les applications non anglophones.

Il est donc crucial de travailler à une représentation plus équilibrée dans les données de formation, non seulement en termes de langue, mais aussi en termes d'aspects culturels, sociaux et démographiques que la langue porte en elle.

Améliorer les performances

Malgré le biais de tokenisation et les déséquilibres de formation, les modèles GPT sont performants dans français. Ils peuvent comprendre tes instructions, répondre en français de manière fluide et naturelle, et rejeter les demandes inappropriées. Cependant, ils sont plus lents en français en raison de la tokenisation sous-optimale. Translaite atténue ce problème en traduisant les messages-guides en anglais, ce qui améliore les performances.

En conclusion, l'utilisation de modèles linguistiques dans l'intelligence artificielle a révolutionné le domaine de l'apprentissage automatique et du traitement du langage naturel. Cependant, leur application dans des langues autres que l'anglais s'est heurtée à des difficultés dues à des biais de tokenisation et à des déséquilibres dans les données de formation. La tokenisation, qui consiste à diviser le texte en unités plus petites, peut être problématique pour des langues comme français qui ont des structures linguistiques différentes. Ce processus de tokenisation inégal entraîne des coûts plus élevés et des performances plus lentes pour les langues autres que l'anglais par rapport à l'anglais. En outre, les données de formation biaisées, où l'anglais domine l'ensemble de données, affectent les performances des modèles d'IA dans les tâches non anglophones et perpétuent les préjugés culturels.

all_inclusive.png

Pour résoudre ces problèmes, le Translaite apporte une solution en traduisant les invites non anglaises en anglais, ce qui permet aux utilisateurs de s'engager efficacement avec les modèles d'IA avancés dans leur langue. Cette approche améliore les performances et atténue les biais de tokenisation, rendant l'IA plus accessible, inclusive et équitable pour les utilisateurs de toutes les langues. Elle souligne également l'importance d'une représentation équilibrée dans les données d'entraînement, non seulement en termes de langue, mais aussi d'aspects culturels et démographiques. En œuvrant pour des données de formation plus diversifiées et plus représentatives, nous pouvons garantir l'adoption équitable et efficace des modèles d'IA à l'échelle mondiale, au bénéfice des utilisateurs de français et au-delà.

Curieux de savoir comment fonctionne Translaite ? Vas-y et essaie-le.