Google sumber terbuka set data 'dialek' pertamanya: menjadikan terjemahan mesin lebih tulen-AI-php.cn

Walaupun orang di seluruh China bercakap bahasa Cina, dialek tertentu di tempat yang berbeza adalah sedikit berbeza selatan, ia dipanggil "lorong Hutong".

Apabila perbezaan serantau yang halus ini ditunjukkan dalam tugasan "terjemahan mesin", hasil terjemahan akan kelihatan tidak cukup "tulen" Walau bagaimanapun, hampir semua sistem terjemahan mesin semasa tidak pertimbangkan wilayah tersebut. Pengaruh bahasa seksual (iaitu dialek).

Fenomena ini juga wujud di seluruh dunia Contohnya, bahasa rasmi Brazil ialah bahasa Portugis, dan terdapat beberapa perbezaan serantau dengan bahasa Portugis di Eropah.

Baru-baru ini, Google mengeluarkan set data serba baharu dan penanda aras penilaian FRMT yang boleh digunakan untuk penterjemahan mesin yang sedar Wilayah beberapa pukulan, yang terutamanya menyelesaikan masalah terjemahan dialek telah diterbitkan dalam TACL (Transactions of the Association for Computational Linguistics).

Google sumber terbuka set data dialek pertamanya: menjadikan terjemahan mesin lebih tulen

Pautan kertas: https://arxiv.org/pdf/2210.00193.pdf

Pautan sumber terbuka: https:// / github.com/google-research/google-research/tree/master/frmt

Dataset ini termasuk terjemahan profesional daripada bahasa Inggeris kepada dua varian serantau Portugis dan Mandarin Cina, dokumen sumber dicipta untuk dapat Analisis terperinci tentang fenomena kepentingan, termasuk istilah leksikal yang berbeza dan istilah gangguan.

Para penyelidik meneroka metrik penilaian automatik untuk FRMT dan mengesahkan kaitannya dengan penilaian manual pakar di bawah senario pemarkahan padanan serantau dan tidak sepadan.

Akhir sekali, beberapa model garis dasar dicadangkan untuk tugasan ini dan panduan disediakan untuk penyelidik tentang cara melatih, menilai dan membandingkan model mereka sendiri dan kod penilaian telah bersumberkan terbuka.

Generalisasi Sedikit Tangkapan

Kebanyakan sistem terjemahan mesin moden dilatih pada berjuta-juta atau berbilion-bilion contoh terjemahan, dengan data input yang terdiri daripada ayat input bahasa Inggeris dan terjemahan bahasa Portugis yang sepadan .

Walau bagaimanapun, sebahagian besar data latihan yang tersedia tidak mengambil kira perbezaan serantau dalam terjemahan.

Memandangkan kekurangan data ini, penyelidik meletakkan FRMT sebagai penanda aras untuk terjemahan beberapa pukulan, mengukur seberapa baik model terjemahan mesin mengenal pasti wilayah tertentu apabila diberikan tidak lebih daripada 100 contoh berlabel bagi setiap bahasa.

Model terjemahan mesin perlu mengenal pasti corak yang serupa dalam sampel latihan tidak berlabel lain berdasarkan corak bahasa yang ditunjukkan dalam sebilangan kecil sampel berlabel (iaitu contoh). Model perlu membuat generalisasi dengan cara ini untuk menghasilkan terjemahan "idiomatik" untuk kawasan yang tidak dinyatakan secara eksplisit dalam model.

Google sumber terbuka set data dialek pertamanya: menjadikan terjemahan mesin lebih tulen

Contohnya, masukkan ayat: Bas itu tiba, dan diberikan beberapa contoh bahasa Portugis Brazil, model itu sepatutnya boleh menterjemah "O ônibus chegou" jika contohnya yang diberikan adalah Portugis Eropah, hasil terjemahan model hendaklah "O autocarro chegou".

Kaedah beberapa pukulan terjemahan mesin mempunyai nilai penyelidikan yang hebat dan boleh menambah sokongan untuk bahasa serantau tambahan kepada sistem sedia ada dengan cara yang sangat mudah.

Walaupun karya semasa yang diterbitkan oleh Google adalah untuk varian serantau bagi dua bahasa, para penyelidik meramalkan bahawa pendekatan yang baik akan mudah digunakan pada bahasa lain dan varian serantau.

Pada dasarnya, kaedah ini juga boleh digunakan untuk fenomena perbezaan bahasa lain, seperti etika dan gaya.

Pengumpulan Data

Dataset FRMT termasuk beberapa rencana Wikipedia Bahasa Inggeris, yang diperoleh daripada dataset Wiki40b, yang telah diterjemahkan ke wilayah yang berbeza oleh penterjemah profesional berbayar Portugis Seksual dan Cina .

Google sumber terbuka set data dialek pertamanya: menjadikan terjemahan mesin lebih tulen

Untuk menyerlahkan cabaran utama penterjemahan sedar wilayah, penyelidik menggunakan tiga baldi kandungan untuk mereka bentuk set Data:

1. Leksikal

Baldi leksikal tertumpu terutamanya pada perbezaan dalam pemilihan perbendaharaan kata di kawasan yang berbeza Contohnya, apabila meletakkan ayat dengan Apabila ayat dengan perkataan "bas" masing-masing diterjemahkan ke dalam bahasa Portugis Brazil dan Eropah, model tersebut perlu dapat mengenal pasti perbezaan antara "ônibus" dan "autocarro".

Para penyelidik mengumpul 20-30 istilah terjemahan khusus serantau secara manual berdasarkan blog dan tapak web pendidikan, dan menapis dan menapis terjemahan berdasarkan maklum balas daripada sukarelawan berbahasa asli dari setiap wilayah.

Menurut senarai istilah bahasa Inggeris yang diperoleh, 100 ayat diekstrak daripada artikel Wikipedia Bahasa Inggeris yang berkaitan (cth., bas). Untuk bahasa Mandarin, ulangi proses pengumpulan yang sama di atas.

Google sumber terbuka set data dialek pertamanya: menjadikan terjemahan mesin lebih tulen

2. Entiti Entiti

Timba entiti diisi dengan cara yang sama, melibatkan orang, lokasi atau lain-lain entiti Sambungan yang kuat kepada salah satu daripada dua bidang di mana bahasa tertentu terlibat.

Sebagai contoh, diberikan ayat penjelasan, seperti "Di Lisbon, saya sering menaiki bas (Di Lisbon, saya sering menaiki bas.), untuk meletakkan dengan betul Menterjemahkan ke dalam bahasa Portugis Brazil, model mesti dapat mengenal pasti dua kemungkinan perangkap:

1) Hubungan geografi yang lebih rapat antara Lisbon dan Portugal mungkin mempengaruhi pilihan terjemahan model, dengan itu Membantu model menentukan bahawa ia harus diterjemahkan ke dalam bahasa Portugis Eropah dan bukannya Portugis Brazil, iaitu, pilih "autocarro" dan bukannya "ônibus".

2) Menggantikan "Lisbon" dengan "Brasilia" mungkin merupakan cara yang lebih mudah untuk corak yang sama, setempatkan outputnya untuk bahasa Portugis Brazil, walaupun hasil terjemahan masih sangat lancar. tetapi juga boleh membawa kepada semantik yang tidak tepat.

3. Rawak Rawak

Timba rawak digunakan untuk menyemak sama ada model mengendalikan fenomena lain yang lain dengan betul, termasuk ciri dari Wikipedia dan baik) 100 artikel dipilih secara rawak daripada koleksi.

Google sumber terbuka set data dialek pertamanya: menjadikan terjemahan mesin lebih tulen

Prestasi Sistem

Untuk mengesahkan bahawa terjemahan yang dikumpul untuk set data FRMT dapat menangkap fenomena di rantau tertentu, penyelidik melakukan penilaian manual kualiti data.

Penganotasi pakar dari setiap wilayah masing-masing mengenal pasti dan mengklasifikasikan ralat dalam terjemahan menggunakan rangka kerja Pengukuran Kualiti Berbilang Dimensi (MQM): rangka kerja tersebut termasuk skema pemberat klasifikasi yang menggabungkan Ralat yang dikenal pasti ditukar menjadi skor tunggal yang secara kasar mewakili bilangan kesilapan utama bagi setiap ayat, iaitu nombor yang lebih kecil menunjukkan terjemahan yang lebih baik.

Bagi setiap wilayah, penyelidik meminta penilai MQM menilai terjemahan dari wilayah mereka dan terjemahan dari wilayah lain dalam bahasa mereka.

Sebagai contoh, penilai Portugis Brazil menilai kedua-dua terjemahan Portugis Brazil dan Eropah pada masa yang sama Perbezaan antara kedua-dua markah menunjukkan kesejagatan fenomena linguistik, iaitu Sama ada a varian bahasa boleh diterima berbanding bahasa lain.

Keputusan eksperimen mendapati bahawa dalam bahasa Portugis dan Cina, penilai mendapati lebih kurang dua lagi kesilapan utama bagi setiap ayat secara purata berbanding terjemahan yang dipadankan, menunjukkan bahawa set data FRMT sememangnya mampu menangkap linguistik serantau tertentu fenomena.

Walaupun penilaian manual adalah cara terbaik untuk memastikan kualiti model, ia selalunya lambat dan mahal.

Oleh itu, penyelidik berharap dapat mencari metrik automatik siap pakai yang boleh digunakan untuk menilai prestasi model dalam penanda aras Para penyelidik mempertimbangkan untuk menggunakan chrF, BLEU dan BLEURT.

Google sumber terbuka set data dialek pertamanya: menjadikan terjemahan mesin lebih tulen

Berdasarkan penarafan penilai MQM bagi beberapa hasil terjemahan model garis dasar, didapati bahawa BLEURT mempunyai korelasi terbaik dengan pertimbangan manusia, dan kekuatan korelasi ini (0.65 pekali korelasi Pearson, ρ) adalah setanding dengan perjanjian antara-anotasi (0.70 korelasi intrakelas).

Prestasi Sistem

Artikel ini menilai beberapa model yang dikeluarkan baru-baru ini dengan keupayaan kawalan beberapa tangkapan.

Berdasarkan penilaian manusia terhadap MQM, kaedah asas semuanya menunjukkan keupayaan tertentu untuk menyetempatkan keluaran Portugis, tetapi untuk Mandarin Cina, kebanyakannya tidak menggunakan pengetahuan wilayah sasaran untuk menjana tempatan yang cemerlang. hasil terjemahan.

Antara tanda aras yang dinilai, model bahasa Google model PaLM berprestasi terbaik Untuk menggunakan PaLM untuk menjana terjemahan khusus wilayah, gesaan instruktif dimasukkan ke dalam model terlebih dahulu, dan kemudian Jana teks daripada. ia untuk mengisi kekosongan.

Google sumber terbuka set data dialek pertamanya: menjadikan terjemahan mesin lebih tulen

PaLM mencapai keputusan yang hebat dengan hanya satu contoh, dalam bahasa Portugis , kualiti bertambah baik sedikit apabila meningkat kepada 10 contoh, yang sudah sangat baik memandangkan PaLM dilatih tanpa diawasi.

Penemuan ini juga mencadangkan bahawa model bahasa seperti PaLM mungkin sangat baik dalam menghafal pilihan leksikal khusus wilayah yang diperlukan untuk terjemahan fasih.

Google sumber terbuka set data dialek pertamanya: menjadikan terjemahan mesin lebih tulen

Walau bagaimanapun, masih terdapat jurang prestasi yang ketara antara PaLM dan manusia.

Rujukan:

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

Atas ialah kandungan terperinci Google sumber terbuka set data 'dialek' pertamanya: menjadikan terjemahan mesin lebih tulen. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!