Penyelidik di Makmal Kepintaran Buatan Pengkomputeran Awan Amazon baru-baru ini mendapati terdapat sejumlah besar kandungan yang dijana melalui terjemahan mesin di web, dan kualiti terjemahan ini merentas pelbagai bahasa secara amnya rendah. Pasukan penyelidik menekankan kepentingan kualiti dan asal data apabila melatih model bahasa yang besar. Penemuan ini menyerlahkan keperluan untuk memberi lebih perhatian kepada kualiti data dan pemilihan sumber apabila membina model bahasa berkualiti tinggi.
Kajian itu juga mendapati bahawa kandungan yang dijana mesin adalah lazim dalam terjemahan bahasa sumber rendah dan membentuk sebahagian besar kandungan web.
Tapak ini mendapati bahawa pasukan penyelidik membangunkan sumber besar yang dipanggil MWccMatrix untuk lebih memahami ciri-ciri kandungan terjemahan mesin. Sumber tersebut mengandungi 6.4 bilion ayat unik, meliputi 90 bahasa, dan menyediakan gabungan ayat yang menterjemah antara satu sama lain, yang dikenali sebagai tupel terjemahan.
Kajian ini mendapati bahawa sejumlah besar kandungan web diterjemahkan ke dalam pelbagai bahasa, selalunya melalui terjemahan mesin. Fenomena ini lazim dalam terjemahan daripada bahasa dengan sumber yang lebih sedikit dan menyumbang sebahagian besar kandungan web dalam bahasa ini.
Penyelidik juga melihat kecenderungan pilih kasih dalam kandungan yang diterjemahkan ke dalam pelbagai bahasa untuk tujuan seperti hasil pengiklanan.
Berdasarkan penyelidikan saya, saya membuat kesimpulan berikut: “Teknologi terjemahan mesin telah mencapai kemajuan yang ketara dalam dekad yang lalu, tetapi ia masih tidak dapat mencapai tahap kualiti manusia sejak beberapa tahun lalu, orang telah menggunakan sistem terjemahan mesin yang ada pada masa untuk menterjemah kandungan ditambahkan ke web, jadi kualiti kebanyakan kandungan yang diterjemahkan mesin di web berkemungkinan agak rendah dan gagal memenuhi piawaian moden Ini boleh menyebabkan lebih banyak 'halusinasi' dalam LLM model, dan bias pemilihan menunjukkan walaupun ralat terjemahan mesin tidak diambil kira , kualiti data juga mungkin lebih rendah Untuk latihan LLM, kualiti data adalah penting, dan korpora berkualiti tinggi, seperti buku dan artikel Wikipedia, biasanya memerlukan berbilang. upsampling.”
Atas ialah kandungan terperinci Penyelidikan: Internet penuh dengan kandungan terjemahan mesin berkualiti rendah dan latihan model bahasa yang besar perlu berhati-hati terhadap perangkap data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!