Rumah > Peranti teknologi > AI > teks badan

Penyelidikan: Internet penuh dengan kandungan terjemahan mesin berkualiti rendah dan latihan model bahasa yang besar perlu berhati-hati terhadap perangkap data

王林
Lepaskan: 2024-02-04 14:42:03
ke hadapan
1051 orang telah melayarinya

Penyelidikan: Internet penuh dengan kandungan terjemahan mesin berkualiti rendah dan latihan model bahasa yang besar perlu berhati-hati terhadap perangkap data

Penyelidik di Makmal Kepintaran Buatan Pengkomputeran Awan Amazon baru-baru ini mendapati terdapat sejumlah besar kandungan yang dijana melalui terjemahan mesin di web, dan kualiti terjemahan ini merentas pelbagai bahasa secara amnya rendah. Pasukan penyelidik menekankan kepentingan kualiti dan asal data apabila melatih model bahasa yang besar. Penemuan ini menyerlahkan keperluan untuk memberi lebih perhatian kepada kualiti data dan pemilihan sumber apabila membina model bahasa berkualiti tinggi.

Kajian itu juga mendapati bahawa kandungan yang dijana mesin adalah lazim dalam terjemahan bahasa sumber rendah dan membentuk sebahagian besar kandungan web.

Tapak ini mendapati bahawa pasukan penyelidik membangunkan sumber besar yang dipanggil MWccMatrix untuk lebih memahami ciri-ciri kandungan terjemahan mesin. Sumber tersebut mengandungi 6.4 bilion ayat unik, meliputi 90 bahasa, dan menyediakan gabungan ayat yang menterjemah antara satu sama lain, yang dikenali sebagai tupel terjemahan.

Kajian ini mendapati bahawa sejumlah besar kandungan web diterjemahkan ke dalam pelbagai bahasa, selalunya melalui terjemahan mesin. Fenomena ini lazim dalam terjemahan daripada bahasa dengan sumber yang lebih sedikit dan menyumbang sebahagian besar kandungan web dalam bahasa ini.

Penyelidik juga melihat kecenderungan pilih kasih dalam kandungan yang diterjemahkan ke dalam pelbagai bahasa untuk tujuan seperti hasil pengiklanan.

Berdasarkan penyelidikan saya, saya membuat kesimpulan berikut: “Teknologi terjemahan mesin telah mencapai kemajuan yang ketara dalam dekad yang lalu, tetapi ia masih tidak dapat mencapai tahap kualiti manusia sejak beberapa tahun lalu, orang telah menggunakan sistem terjemahan mesin yang ada pada masa untuk menterjemah kandungan ditambahkan ke web, jadi kualiti kebanyakan kandungan yang diterjemahkan mesin di web berkemungkinan agak rendah dan gagal memenuhi piawaian moden Ini boleh menyebabkan lebih banyak 'halusinasi' dalam LLM model, dan bias pemilihan menunjukkan walaupun ralat terjemahan mesin tidak diambil kira , kualiti data juga mungkin lebih rendah Untuk latihan LLM, kualiti data adalah penting, dan korpora berkualiti tinggi, seperti buku dan artikel Wikipedia, biasanya memerlukan berbilang. upsampling.”

Atas ialah kandungan terperinci Penyelidikan: Internet penuh dengan kandungan terjemahan mesin berkualiti rendah dan latihan model bahasa yang besar perlu berhati-hati terhadap perangkap data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!