Übersetzung von Large Language Models

Erstaunliche Zeiten

In der Welt der künstlichen Intelligenz haben Sprachmodelle für Furore gesorgt. Große Sprachmodelle (LLMs) wie die GPT-Familie von OpenAI haben in der Community für maschinelles Lernen und die Verarbeitung natürlicher Sprache große Aufmerksamkeit erregt. Ihr Einsatz ist jedoch nicht auf Englisch beschränkt, sondern sie können auch andere Sprachen verstehen und ausgeben, einschließlich Deutsch. Dieser Blogbeitrag soll die Vorteile einer App für generative KI-Prompts wie Translaite aufzeigen.

Translaite übersetzt zunächst nicht-englische Prompts ins Englische (über DeepL), fordert OpenAI auf und übersetzt dann die Ausgabe zurück in die Eingabesprache. Dieser Prozess ermöglicht es den Nutzern, sich mit den fortschrittlichen KI-Modellen in ihrer Sprache auseinanderzusetzen, was sie zugänglicher und benutzerfreundlicher macht. Aber warum sollte man das tun?

Tokenisierung für Sprachmodelle verstehen

Die Tokenisierung, also die Zerlegung des Eingabetextes in Teile oder Token, ist ein entscheidender Schritt für die Funktionsweise von LLMs. Die GPT-Modelle können z. B. japanischen Text verarbeiten, weil sie einen flexiblen Tokenizer, tiktoken, verwenden. Tiktoken ist ein Tool, mit dem die Anzahl der Token in einem bestimmten Textstück gezählt wird. Es verwendet dieselben Tokenisierungsregeln wie die Transformers-Bibliothek von Hugging Face, die in erster Linie für englischsprachige Texte gedacht ist.

Bei der Tokenisierung wird ein Text in kleinere Einheiten, sogenannte Token, zerlegt, die einzelne Wörter, Sätze oder sogar einzelne Zeichen sein können. Dieser Prozess ist sprachabhängig, da verschiedene Sprachen unterschiedliche Regeln für die Bildung und Strukturierung von Wörtern und Sätzen haben.

Da tiktoken Regeln verwendet, die auf Englisch zugeschnitten sind, kann es sein, dass es Texte in anderen Sprachen nicht korrekt tokenisiert. So kann es sein, dass Sonderzeichen, Akzente oder sprachspezifische Interpunktion in nicht-englischen Sprachen nicht korrekt behandelt werden. Bei der Tokenisierung wird oft jedes Wort oder jeder Teil eines Worts als ein separates Token behandelt. Das funktioniert gut für Englisch und andere Sprachen, die Leerzeichen zur Trennung von Wörtern verwenden. Sprachen wie Japanisch oder Chinesisch, die keine Leerzeichen verwenden, stellen uns jedoch vor Herausforderungen. In diesen Sprachen kann ein einziges Zeichen für ein ganzes Wort oder einen Begriff stehen, und diese Zeichen benötigen oft mehr Bytes, um in digitaler Form dargestellt zu werden, als englische Wörter.

Das japanische Zeichen für "Hund" benötigt zum Beispiel drei Token, um in GPT-Modellen dargestellt zu werden, verglichen mit nur einem Token für das englische Wort "dog". Das bedeutet, dass für die Verarbeitung von japanischem Text mehr Token benötigt werden als für den entsprechenden englischen Text (mehr dazu in diesem großartigen Artikel).

Warum ist das wichtig? OpenAI berechnet für die Nutzung seiner Modelle pro Token. Daher kann die Verarbeitung von nicht-englischen Sprachen wie Deutsch deutlich teurer sein als die Verarbeitung von Englisch. Dieser ungleiche Tokenisierungsprozess, der Englisch bevorzugt und andere Sprachen benachteiligt, trägt zu den höheren Kosten für die Nutzung von KI-Modellen für nicht-englische Sprachen bei.

Das bedeutet auch, dass z.B. mehr Token benötigt werden, um Deutsch Text darzustellen. Translaite überbrückt diese Lücke, indem es die nicht-englischen Prompts ins Englische übersetzt und so eine effiziente Tokenisierung gewährleistet.

Verzerrte Trainingsdaten in der KI

ChatGPT-3 wurde, wie seine Vorgänger, auf einer großen Menge von Daten trainiert. Ein großes Problem ist jedoch die Sprachverteilung des Trainingsmaterials. Englisch dominiert den Datensatz mit 92,1 % der gesamten Zeichen. Die zweithäufigste Sprache, Französisch, macht nur 1,78 % aus, dicht gefolgt von Deutsch mit 1,68 %. Spanisch, Italienisch und Portugiesisch kommen ebenfalls vor, machen aber jeweils weniger als 1 % der gesamten Zeichen aus. Sogar Japanisch, eine weit verbreitete Sprache, macht nur 0,16 % der gesamten Zeichen aus. Diese überproportionale Vertretung des Englischen in den Trainingsdaten führt unweigerlich zu einer Verzerrung der Leistung von ChatGPT in Richtung Englisch, was sich möglicherweise auf seine Leistung bei nicht-englischen Aufgaben auswirkt. Diese Verzerrung unterstreicht die Notwendigkeit ausgewogener und vielfältigerer Trainingsdaten, um eine gleichmäßige Leistung von KI-Modellen in verschiedenen Sprachen zu gewährleisten. Die sprachliche Verzerrung in KI-Modellen wie ChatGPT-3 kann aus mehreren Gründen problematisch sein

Performance Disparity Das Modell wird bei englischen Aufgaben besser abschneiden als bei anderen Sprachen. Das bedeutet, dass Nutzer/innen, deren Muttersprache nicht Englisch ist, eine weniger effektive und möglicherweise frustrierende Erfahrung machen werden.

Kulturelle Verzerrung Sprache ist eng mit der Kultur verbunden. Wenn das Modell hauptsächlich mit englischsprachigen Texten trainiert, kann es ungewollt Vorurteile gegenüber englischsprachigem Material aufrechterhalten und kulturelle Nuancen in anderen Sprachen nicht verstehen oder respektieren.

Zugänglichkeit und Inklusion KI hat das Potenzial, ein universelles Werkzeug zu sein, das Menschen unabhängig von ihrer Sprache oder ihrem Standort zugänglich und nützlich ist. Eine einseitige Ausrichtung auf die englische Sprache schränkt dieses Potenzial jedoch ein und schließt einen großen Teil der Weltbevölkerung aus.

Fehlinterpretation und Fehlkommunikation Bei Sprachen, die in den Trainingsdaten unterrepräsentiert sind, kann das Modell Texteingaben missverstehen oder falsch interpretieren, was zu falschen oder unangemessenen Antworten führt. Dies kann in kritischen Situationen auch zu Fehlkommunikation führen.

Ethische Erwägungen Aus ethischer Sicht ist es wichtig, dass KI-Systeme fair und gleichberechtigt sind. Ein System, das eine Sprache gegenüber anderen bevorzugt, wirft Fragen über Fairness und Repräsentation auf.

Einschränkung bei der weltweiten Einführung Damit KI wirklich weltweit eingesetzt werden kann, muss sie alle Sprachen richtig verstehen und erzeugen. Die derzeitige Voreingenommenheit könnte den Einsatz in nicht englischsprachigen Regionen oder Anwendungen einschränken.

Deshalb ist es wichtig, auf eine ausgewogenere Repräsentation in den Trainingsdaten hinzuarbeiten, und zwar nicht nur in Bezug auf die Sprache, sondern auch in Bezug auf die kulturellen, sozialen und demografischen Aspekte, die die Sprache mit sich bringt.

Steigerung der Leistung

Trotz der Verzerrungen bei der Tokenisierung und der Unausgewogenheit der Trainingsdaten zeigen die GPT-Modelle in Deutsch gute Leistungen. Sie können deine Anweisungen verstehen, flüssig und natürlich in Deutsch antworten und unangemessene Anfragen zurückweisen. Allerdings sind sie in Deutsch aufgrund der suboptimalen Tokenisierung langsamer. Translaite entschärft dies, indem es die Aufforderungen ins Englische übersetzt und so die Leistung verbessert.

Zusammenfassend lässt sich sagen, dass die Verwendung von Sprachmodellen in der künstlichen Intelligenz den Bereich des maschinellen Lernens und der Verarbeitung natürlicher Sprache revolutioniert hat. Ihre Anwendung in nicht-englischen Sprachen ist jedoch aufgrund von Verzerrungen bei der Tokenisierung und unausgewogenen Trainingsdaten mit Herausforderungen verbunden. Die Tokenisierung, also die Zerlegung von Text in kleinere Einheiten, kann bei Sprachen wie Deutsch problematisch sein, die unterschiedliche linguistische Strukturen haben. Dieser ungleiche Tokenisierungsprozess führt bei nicht-englischen Sprachen im Vergleich zum Englischen zu höheren Kosten und einer langsameren Leistung. Außerdem beeinträchtigen die verzerrten Trainingsdaten, bei denen das Englische den Datensatz dominiert, die Leistung von KI-Modellen bei nicht-englischen Aufgaben und führen zu kulturellen Vorurteilen.

Um diese Probleme zu lösen, bietet Translaite eine Lösung, indem es nicht-englische Eingabeaufforderungen ins Englische übersetzt und es den Nutzern so ermöglicht, mit fortschrittlichen KI-Modellen in ihrer Sprache zu kommunizieren. Dieser Ansatz verbessert die Leistung und mildert Verzerrungen bei der Tokenisierung, wodurch KI für Nutzer/innen aller Sprachen zugänglicher, inklusiver und gerechter wird. Außerdem wird deutlich, wie wichtig eine ausgewogene Repräsentation in den Trainingsdaten ist, nicht nur in Bezug auf die Sprache, sondern auch in Bezug auf kulturelle und demografische Aspekte. Indem wir auf vielfältigere und repräsentativere Trainingsdaten hinarbeiten, können wir die faire und effektive Einführung von KI-Modellen weltweit sicherstellen, wovon Nutzer/innen in Deutsch und darüber hinaus profitieren.

Neugierig, wie Translaite funktioniert? Probiere es einfach aus