Terjemahan Large Lanugage Models

Tamasya ke dalam Bagaimana Generative AI Models, seperti ChatGPT, Memiliki Bias Bahasa Inggris

Ditulis oleh stephens on 9 Aug 2023

Waktu yang menakjubkan

Dalam dunia kecerdasan buatan, model bahasa telah membuat gebrakan besar. Model bahasa besar (LLM), seperti keluarga GPT dari OpenAI, telah menarik banyak perhatian dalam komunitas pembelajaran mesin dan pemrosesan bahasa alami. Namun, penggunaannya tidak terbatas pada bahasa Inggris; mereka juga dapat memahami dan menghasilkan output dalam bahasa lain, termasuk Bahasa Indonesia. Artikel blog ini bertujuan untuk menyoroti manfaat menggunakan aplikasi untuk perintah AI generatif, seperti Translaite.

Translaite pertama-tama menerjemahkan perintah non-Inggris ke dalam bahasa Inggris (melalui DeepL, meminta OpenAI, dan kemudian menerjemahkan kembali output ke dalam bahasa input. Proses ini memungkinkan pengguna untuk terlibat dengan model AI yang canggih dalam bahasa mereka, membuatnya lebih mudah diakses dan ramah pengguna. Tapi mengapa harus melakukan ini?

Memahami Tokenisasi untuk Model Bahasa

Tokenisasi, proses memecah teks input menjadi beberapa bagian atau token, adalah langkah penting dalam cara kerja LLM. Model GPT dapat memproses, misalnya, teks bahasa Jepang karena menggunakan tokenizer yang fleksibel, tiktoken. Tiktoken adalah sebuah alat yang digunakan untuk menghitung jumlah token dalam sebuah teks. Tiktoken menggunakan aturan tokenisasi yang sama dengan pustaka Transformers Hugging Face, yang terutama dirancang untuk bekerja dengan teks bahasa Inggris.

Proses tokenisasi melibatkan pemisahan sepotong teks menjadi unit-unit yang lebih kecil, atau token, yang dapat berupa kata, frasa, atau bahkan karakter tunggal. Proses ini bergantung pada bahasa, karena bahasa yang berbeda memiliki aturan yang berbeda tentang bagaimana kata dan kalimat dibentuk dan disusun.

tokenization.png

Karena tiktoken menggunakan aturan yang dirancang untuk bahasa Inggris, tiktoken mungkin tidak secara akurat menokenisasi teks dalam bahasa lain. Sebagai contoh, tiktoken mungkin tidak dapat menangani karakter khusus, aksen, atau tanda baca khusus dalam bahasa non-Inggris dengan benar. Tokenisasi sering kali memperlakukan setiap kata atau bagian dari sebuah kata sebagai token yang terpisah. Hal ini bekerja dengan baik untuk bahasa Inggris dan bahasa lain yang menggunakan spasi untuk memisahkan kata. Namun, bahasa seperti bahasa Jepang atau Cina, yang tidak menggunakan spasi, menghadapi tantangan. Dalam bahasa-bahasa ini, satu karakter dapat mewakili seluruh kata atau konsep, dan karakter-karakter ini sering kali membutuhkan lebih banyak byte untuk direpresentasikan dalam bentuk digital daripada kata-kata dalam bahasa Inggris.

Sebagai contoh, karakter bahasa Jepang untuk 'dog' membutuhkan tiga token untuk direpresentasikan dalam model GPT, dibandingkan dengan hanya satu token untuk kata bahasa Inggris 'dog'. Ini berarti bahwa memproses teks bahasa Jepang membutuhkan lebih banyak token daripada memproses teks bahasa Inggris yang setara (lihat artikel untuk lebih jelasnya).

Mengapa hal ini penting? OpenAI mengenakan biaya untuk penggunaan modelnya per token. Oleh karena itu, memproses bahasa non-Inggris seperti Bahasa Indonesia dapat menjadi jauh lebih mahal daripada memproses bahasa Inggris. Proses tokenisasi yang tidak setara ini, yang menguntungkan bahasa Inggris dan merugikan bahasa lain, berkontribusi pada biaya yang lebih tinggi dalam menggunakan model AI untuk bahasa non-Inggris.

Ini juga berarti bahwa, misalnya, dibutuhkan lebih banyak token untuk merepresentasikan teks Bahasa Indonesia. Translaite menjembatani kesenjangan ini dengan menerjemahkan perintah non-Inggris ke dalam bahasa Inggris, memastikan tokenisasi yang efisien.

Data Pelatihan yang Bias dalam AI

ChatGPT-3, seperti pendahulunya, dilatih dengan data yang sangat banyak. Namun, yang menjadi perhatian penting adalah distribusi bahasa dalam materi pelatihan. Bahasa Inggris sangat mendominasi dataset, terhitung 92,1% dari total karakter. Bahasa kedua yang paling umum, bahasa Prancis, hanya terdiri dari 1,78%, diikuti oleh bahasa Jerman sebesar 1,68%. Bahasa Spanyol, Italia, dan Portugis juga muncul, tetapi masing-masing mewakili kurang dari 1% dari total karakter. Bahkan bahasa Jepang, bahasa yang digunakan secara luas, hanya menyumbang 0,16% dari total karakter. Representasi bahasa Inggris yang tidak proporsional dalam data pelatihan ini pasti akan membuat kinerja ChatGPT menjadi bias terhadap bahasa Inggris, yang berpotensi mempengaruhi kinerjanya dalam tugas-tugas non-Inggris. Bias ini menggarisbawahi perlunya data pelatihan yang lebih seimbang dan beragam untuk memastikan kinerja model AI yang adil di berbagai bahasa. Bias bahasa dalam model AI seperti ChatGPT-3 dapat menjadi masalah karena beberapa alasan

black_and_white.png

Perbedaan Performa Model ini akan bekerja lebih baik dalam tugas-tugas berbahasa Inggris daripada bahasa lainnya. Ini berarti bahwa pengguna yang tidak menggunakan bahasa Inggris sebagai bahasa pertama mereka akan mendapatkan pengalaman yang kurang efektif dan berpotensi membuat frustrasi.

Bias Budaya Bahasa terkait erat dengan budaya. Dengan pelatihan utama pada teks berbahasa Inggris, model ini mungkin secara tidak sengaja melanggengkan bias yang melekat pada materi berbahasa Inggris dan gagal untuk memahami atau menghormati nuansa budaya yang ada dalam bahasa lain.

Aksesibilitas dan Inklusivitas AI memiliki potensi untuk menjadi alat yang universal, dapat diakses dan berguna bagi orang-orang tanpa memandang bahasa atau lokasi mereka. Namun, bias terhadap bahasa Inggris membatasi potensi ini dan mengecualikan sebagian besar populasi global.

Untuk bahasa yang kurang terwakili dalam data pelatihan, model dapat salah memahami atau salah menafsirkan input teks, sehingga menghasilkan respons yang salah atau tidak tepat. Hal ini juga dapat menyebabkan miskomunikasi dalam situasi kritis.

Pertimbangan Etis Dari sudut pandang etika, sistem AI harus adil dan merata. Sistem yang bias terhadap satu bahasa dibandingkan bahasa lain akan menimbulkan pertanyaan tentang keadilan dan representasi.

Keterbatasan dalam Adopsi Global Agar AI benar-benar diadopsi secara global dan efektif, AI perlu memahami dan menghasilkan semua bahasa secara akurat. Bias yang ada saat ini mungkin membatasi pengadopsiannya di wilayah atau aplikasi yang tidak berbahasa Inggris.

Oleh karena itu, sangat penting untuk mengupayakan representasi yang lebih seimbang dalam data pelatihan, tidak hanya dalam hal bahasa, tetapi juga dalam hal aspek budaya, sosial, dan demografis yang dibawa oleh bahasa.

Meningkatkan Kinerja

Terlepas dari bias tokenisasi dan ketidakseimbangan pelatihan, model GPT berkinerja baik dalam Bahasa Indonesia. Mereka dapat memahami instruksi Anda, menjawab kembali dalam Bahasa Indonesia dengan lancar dan alami, dan menolak permintaan yang tidak sesuai. Namun, mereka lebih lambat dalam Bahasa Indonesia karena tokenisasi yang kurang optimal. Translaite mengurangi hal ini dengan menerjemahkan permintaan ke dalam bahasa Inggris, sehingga meningkatkan kinerja.

Kesimpulannya, penggunaan model bahasa dalam kecerdasan buatan telah merevolusi bidang pembelajaran mesin dan pemrosesan bahasa alami. Namun, penerapannya dalam bahasa non-Inggris telah menghadapi tantangan karena bias tokenisasi dan ketidakseimbangan data pelatihan. Tokenisasi, proses memecah teks menjadi unit-unit yang lebih kecil, dapat menjadi masalah bagi bahasa seperti Bahasa Indonesia yang memiliki struktur bahasa yang berbeda. Proses tokenisasi yang tidak sama ini menyebabkan biaya yang lebih tinggi dan kinerja yang lebih lambat untuk bahasa non-Inggris dibandingkan dengan bahasa Inggris. Selain itu, data pelatihan yang bias, dengan bahasa Inggris yang mendominasi kumpulan data, memengaruhi kinerja model AI dalam tugas-tugas non-Inggris dan melanggengkan bias budaya.

all_inclusive.png

Untuk mengatasi masalah ini, Translaite menyediakan solusi dengan menerjemahkan perintah non-Inggris ke dalam bahasa Inggris, sehingga pengguna dapat secara efektif berinteraksi dengan model AI tingkat lanjut dalam bahasa mereka. Pendekatan ini meningkatkan kinerja dan mengurangi bias tokenisasi, membuat AI lebih mudah diakses, inklusif, dan adil bagi pengguna dari semua bahasa. Pendekatan ini juga menyoroti pentingnya representasi yang seimbang dalam data pelatihan, tidak hanya dalam hal bahasa tetapi juga dalam hal aspek budaya dan demografi. Dengan mengupayakan data pelatihan yang lebih beragam dan representatif, kami dapat memastikan adopsi model AI yang adil dan efektif secara global, sehingga bermanfaat bagi pengguna dalam Bahasa Indonesia dan seterusnya.

Penasaran dengan cara kerja Translaite? Silakan coba