Large Lanugage Models的翻译

生成式人工智能模型如何偏向英语

撰写人 stephens on 9 Aug 2023

了不起的时代

在人工智能领域,语言模型已经引起了不小的轰动。大型语言模型(LLM),如 OpenAI 的 GPT 系列,已经在机器学习和自然语言处理界引起了相当大的关注。然而,它们的用途并不局限于英语;它们还可以理解和输出其他语言,包括 国语 。本博文旨在强调使用 Translaite 等生成式人工智能提示应用程序的好处。

Translaite首先将非英语提示翻译成英语(通过DeepL),提示OpenAI,然后将输出翻译回输入语言。这一过程可以让用户用自己的语言与先进的人工智能模型进行交流,使其更易于使用和操作。但为什么要这样做呢?

了解语言模型的标记化

标记化是将输入文本分割成片段或标记的过程,是语言模型工作的关键步骤。GPT 模型可以处理日语文本,因为它们使用了灵活的标记化工具 tiktoken。Tiktoken 是一个用来计算给定文本中标记数量的工具。它与 Hugging Face 的 Transformers 库使用相同的标记化规则,后者主要用于处理英语文本。

标记化过程包括将一段文本分割成更小的单元或标记,可以是单个单词、短语,甚至是单个字符。这一过程取决于语言,因为不同的语言对单词和句子的组成和结构有不同的规则。

tokenization.png

由于 tiktoken 使用的规则是为英语量身定制的,它可能无法准确标记其他语言的文本。例如,它可能无法正确处理非英语语言中的特殊字符、重音符号或特定语言的标点符号。标记化通常将每个单词或单词的一部分视为一个单独的标记。这对于英语和其他使用空格分隔单词的语言非常有效。然而,像日语或汉语这样不使用空格的语言就面临着挑战。在这些语言中,一个字符可以代表整个单词或概念,而这些字符在数字形式中往往比英语单词需要更多的字节。

例如,日语中的 "dog "字符在 GPT 模型中需要三个标记来表示,而英语单词 "dog "只需要一个标记。这意味着处理日语文本比处理同等的英语文本需要更多的标记(更多详情请查看这篇精彩的 文章)。

为什么会出现这种情况?OpenAI 对其模型的使用按标记收费。因此,处理像 国语 这样的非英语语言可能比处理英语要贵得多。这种不平等的标记化过程有利于英语而不利于其他语言,导致非英语语言使用人工智能模型的成本更高。

这也意味着,例如需要更多的标记来表示 国语 文本。Translaite通过将非英语提示翻译成英语,弥补了这一差距,确保了高效的标记化。

人工智能中的偏差训练数据

ChatGPT-3 和它的前辈一样,都是在大量数据的基础上训练出来的。然而,训练材料中的语言分布是一个值得关注的重要问题。英语在数据集中占据压倒性优势,占总字符数的 92.1%。第二大语言法语仅占 1.78%,紧随其后的是德语,占 1.68%。西班牙语、意大利语和葡萄牙语也很常见,但每种语言的字符数都不到总字符数的 1%。即使是日语这种广泛使用的语言,也只占总字符数的 0.16%。英语在训练数据中的比例失调不可避免地会使 ChatGPT 的性能偏向于英语,从而可能影响其在非英语任务中的性能。这种偏差凸显了需要更均衡、更多样化的训练数据,以确保人工智能模型在不同语言中的公平表现。ChatGPT-3 等人工智能模型中的语言偏差会产生问题,原因有以下几点

black_and_white.png

性能差异* 该模型在英语任务中的性能将优于其他语言。这就意味着,母语不是英语的用户在使用过程中会感到效率较低,甚至可能产生挫败感。

文化偏见* 语言与文化密切相关。通过主要针对英语文本进行培训,该模型可能会无意中延续英语材料中固有的偏见,而无法理解或尊重其他语言中存在的文化细微差别。

可访问性和包容性 人工智能有可能成为一种通用工具,无论人们使用何种语言或身处何地,都能访问并使用人工智能。然而,对英语的偏见限制了这一潜力,并将全球人口的很大一部分排除在外。

误解和误传 对于在训练数据中代表性不足的语言,模型可能会误解或曲解文本输入,从而导致不正确或不恰当的响应。这也可能导致在危急情况下的误传。

伦理方面的考虑* 从伦理的角度来看,人工智能系统必须公平公正。如果系统偏向一种语言而非其他语言,就会引发公平性和代表性的问题。

全球采用的局限性* 人工智能要想真正在全球范围内得到采用并发挥效力,就需要准确地理解和生成所有语言。目前的偏见可能会限制其在非英语地区或应用中的采用。

因此,在训练数据中努力实现更均衡的代表性至关重要,这不仅体现在语言方面,还体现在语言所承载的文化、社会和人口方面。

提高性能

尽管存在标记化偏差和训练不平衡的问题,GPT 模型在 国语 中仍然表现出色。它们能理解您的指令,用国语流畅自然地回答,并拒绝不恰当的请求。不过,由于标记化不够理想,它们在 国语 中的运行速度较慢。Translaite通过将提示翻译成英语来缓解这一问题,从而提高了性能。

总之,人工智能中语言模型的使用已经在机器学习和自然语言处理领域掀起了一场革命。然而,由于标记化偏差和训练数据不平衡,它们在非英语语言中的应用面临着挑战。标记化是将文本分割成更小单元的过程,对于像 国语 这样具有不同语言结构的语言来说,标记化可能会带来问题。与英语相比,这种不平等的标记化过程导致非英语语言的成本更高、性能更慢。此外,有偏差的训练数据(英语在数据集中占主导地位)会影响人工智能模型在非英语任务中的表现,并使文化偏见长期存在。

all_inclusive.png

为了解决这些问题,Translaite 提供了一种解决方案,将非英语提示翻译成英语,让用户能够有效地用自己的语言与高级人工智能模型互动。这种方法提高了性能,减少了标记化偏差,使人工智能对所有语言的用户来说都更加易用、包容和公平。它还强调了训练数据中平衡代表性的重要性,这不仅体现在语言方面,还体现在文化和人口方面。通过努力提高训练数据的多样性和代表性,我们可以确保在全球范围内公平、有效地采用人工智能模型,让国语和其他语言的用户受益。

Translaite 的工作原理感到好奇吗?来试试吧