Jadual Kandungan
Formula
Algoritma
Contoh
Output
KESIMPULAN
Rumah pembangunan bahagian belakang Tutorial Python Mengira skor BLEU untuk terjemahan mesin saraf menggunakan Python

Mengira skor BLEU untuk terjemahan mesin saraf menggunakan Python

Sep 02, 2023 am 11:09 AM
python terjemahan mesin saraf skor bleu

Mengira skor BLEU untuk terjemahan mesin saraf menggunakan Python

Menggunakan terjemahan mesin saraf dalam NMT atau NLP kita boleh menterjemah teks daripada bahasa tertentu kepada bahasa sasaran. Untuk menilai prestasi terjemahan, kami menggunakan skor pelajar BLEU atau Penilaian Dwibahasa dalam Python.

Skor BLEU berfungsi dengan membandingkan ayat terjemahan mesin kepada ayat terjemahan manusia, kedua-duanya menggunakan n-gram. Tambahan pula, apabila panjang ayat bertambah, skor BLEU berkurangan. Secara amnya, skor BLEU berkisar antara 0 hingga 1, dengan nilai yang lebih tinggi menunjukkan kualiti yang lebih baik. Walau bagaimanapun, sangat jarang untuk mendapat skor sempurna. Ambil perhatian bahawa penilaian dilakukan berdasarkan padanan subrentetan, ia tidak mengambil kira aspek lain bahasa seperti koheren, tegang dan tatabahasa.

Formula

BLEU = BP * exp(1/n * sum_{i=1}^{n} log(p_i))
Salin selepas log masuk

Di sini, setiap istilah mempunyai makna berikut -

  • BP ialah penalti mudah. Ia melaraskan skor BLEU berdasarkan panjang dua teks. Formulanya ialah -

BP = min(1, exp(1 - (r / c)))
Salin selepas log masuk
  • n ialah susunan maksimum padanan n-gram

  • p_i ialah skor ketepatan

Algoritma

  • Langkah 1 - Import pustaka set data.

  • Langkah 2 - Gunakan fungsi load_metric dengan bleu sebagai parameter.

  • Langkah 3 - Buat senarai berdasarkan perkataan rentetan yang diterjemahkan.

  • Langkah 4 - Ulang langkah 3 dengan perkataan rentetan keluaran yang dikehendaki.

  • Langkah 5 - Gunakan bleu.compute untuk mencari nilai bleu.

Contoh 1

Dalam contoh ini, kami akan menggunakan perpustakaan NLTK Python untuk mengira skor BLEU untuk terjemahan mesin ayat Jerman ke dalam bahasa Inggeris.

  • Teks sumber (Bahasa Inggeris) - Hari ini hujan

  • Teks Terjemahan Mesin - Hari ini hujan

  • Teks yang diperlukan - Hari ini hujan, hari ini hujan

Walaupun kita dapat melihat bahawa terjemahan tidak dilakukan dengan betul, kita boleh mendapatkan idea yang lebih baik tentang kualiti terjemahan dengan mencari skor biru.

Contoh

#import the libraries
from datasets import load_metric
  
#use the load_metric function
bleu = load_metric("bleu")

#setup the predicted string
predictions = [["it", "rain", "today"]]

#setup the desired string
references = [
   [["it", "is", "raining", "today"], 
   ["it", "was", "raining", "today"]]
]

#print the values
print(bleu.compute(predictions=predictions, references=references))
Salin selepas log masuk

Output

{'bleu': 0.0, 'precisions': [0.6666666666666666, 0.0, 0.0, 0.0], 'brevity_penalty': 0.7165313105737893, 'length_ratio': 0.75, 'translation_length': 3, 'reference_length': 4}
Salin selepas log masuk

Seperti yang anda lihat, terjemahannya tidak begitu baik, jadi skor biru ialah 0.

Contoh 2

Dalam contoh ini, kami akan mengira markah BLEU sekali lagi. Tetapi kali ini, kami akan menterjemah mesin ayat Perancis ke dalam bahasa Inggeris.

  • Teks sumber (Jerman) - Kami akan melancong

  • Teks terjemahan mesin - Kami akan mengembara

  • Teks yang diperlukan - Kami akan mengembara, kami akan mengembara

Anda dapat melihat bahawa teks terjemahan kali ini lebih dekat dengan teks yang dikehendaki. Mari semak skor BLEUnya.

Contoh

#import the libraries
from datasets import load_metric
  
#use the load_metric function
bleu = load_metric("bleu")

#steup the predicted string
predictions = [["we", "going", "on", "a", "trip"]]

#steup the desired string
references = [
   [["we", "are", "going", "on", "a", "trip"], 
   ["we", "were", "going", "on", "a", "trip"]]
]

#print the values
print(bleu.compute(predictions=predictions, references=references))
Salin selepas log masuk

Output

{'bleu': 0.5789300674674098, 'precisions': [1.0, 0.75, 0.6666666666666666, 0.5], 'brevity_penalty': 0.8187307530779819, 'length_ratio': 0.8333333333333334, 'translation_length': 5, 'reference_length': 6}
Salin selepas log masuk

Anda dapat melihat bahawa terjemahan yang disiapkan kali ini sangat hampir dengan output yang diingini, jadi skor biru juga lebih tinggi daripada 0.5.

KESIMPULAN

BLEU Score ialah alat yang hebat untuk menyemak kecekapan model terjemahan anda supaya anda boleh memperbaikinya lagi untuk menghasilkan hasil yang lebih baik. Walaupun skor BLEU boleh digunakan untuk mendapatkan gambaran kasar tentang model, ia terhad kepada perbendaharaan kata tertentu dan sering mengabaikan nuansa bahasa. Inilah sebabnya mengapa markah BLEU jarang selaras dengan pertimbangan manusia. Tetapi anda pasti boleh mencuba beberapa alternatif seperti skor ROUGE, metrik METEOR dan metrik CIDEr.

Atas ialah kandungan terperinci Mengira skor BLEU untuk terjemahan mesin saraf menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apakah fungsi jumlah bahasa C? Apakah fungsi jumlah bahasa C? Apr 03, 2025 pm 02:21 PM

Tiada fungsi jumlah terbina dalam dalam bahasa C, jadi ia perlu ditulis sendiri. Jumlah boleh dicapai dengan melintasi unsur -unsur array dan terkumpul: Versi gelung: SUM dikira menggunakan panjang gelung dan panjang. Versi Pointer: Gunakan petunjuk untuk menunjuk kepada unsur-unsur array, dan penjumlahan yang cekap dicapai melalui penunjuk diri sendiri. Secara dinamik memperuntukkan versi Array: Perlawanan secara dinamik dan uruskan memori sendiri, memastikan memori yang diperuntukkan dibebaskan untuk mengelakkan kebocoran ingatan.

Siapa yang dibayar lebih banyak Python atau JavaScript? Siapa yang dibayar lebih banyak Python atau JavaScript? Apr 04, 2025 am 12:09 AM

Tidak ada gaji mutlak untuk pemaju Python dan JavaScript, bergantung kepada kemahiran dan keperluan industri. 1. Python boleh dibayar lebih banyak dalam sains data dan pembelajaran mesin. 2. JavaScript mempunyai permintaan yang besar dalam perkembangan depan dan stack penuh, dan gajinya juga cukup besar. 3. Faktor mempengaruhi termasuk pengalaman, lokasi geografi, saiz syarikat dan kemahiran khusus.

Adakah distinctidistinguish berkaitan? Adakah distinctidistinguish berkaitan? Apr 03, 2025 pm 10:30 PM

Walaupun berbeza dan berbeza berkaitan dengan perbezaan, ia digunakan secara berbeza: berbeza (kata sifat) menggambarkan keunikan perkara itu sendiri dan digunakan untuk menekankan perbezaan antara perkara; Berbeza (kata kerja) mewakili tingkah laku atau keupayaan perbezaan, dan digunakan untuk menggambarkan proses diskriminasi. Dalam pengaturcaraan, berbeza sering digunakan untuk mewakili keunikan unsur -unsur dalam koleksi, seperti operasi deduplikasi; Berbeza dicerminkan dalam reka bentuk algoritma atau fungsi, seperti membezakan ganjil dan bahkan nombor. Apabila mengoptimumkan, operasi yang berbeza harus memilih algoritma dan struktur data yang sesuai, sementara operasi yang berbeza harus mengoptimumkan perbezaan antara kecekapan logik dan memberi perhatian untuk menulis kod yang jelas dan mudah dibaca.

Bagaimana memahami! X dalam c? Bagaimana memahami! X dalam c? Apr 03, 2025 pm 02:33 PM

! X Memahami! X adalah bukan operator logik dalam bahasa C. Ia booleans nilai x, iaitu, perubahan benar kepada perubahan palsu, palsu kepada benar. Tetapi sedar bahawa kebenaran dan kepalsuan dalam C diwakili oleh nilai berangka dan bukannya jenis Boolean, bukan sifar dianggap sebagai benar, dan hanya 0 dianggap sebagai palsu. Oleh itu ,! X memperkatakan nombor negatif sama seperti nombor positif dan dianggap benar.

Apakah jumlah maksud dalam bahasa C? Apakah jumlah maksud dalam bahasa C? Apr 03, 2025 pm 02:36 PM

Tiada fungsi jumlah terbina dalam dalam C untuk jumlah, tetapi ia boleh dilaksanakan dengan: menggunakan gelung untuk mengumpul unsur-unsur satu demi satu; menggunakan penunjuk untuk mengakses dan mengumpul unsur -unsur satu demi satu; Untuk jumlah data yang besar, pertimbangkan pengiraan selari.

Adakah pengeluaran halaman H5 memerlukan penyelenggaraan berterusan? Adakah pengeluaran halaman H5 memerlukan penyelenggaraan berterusan? Apr 05, 2025 pm 11:27 PM

Halaman H5 perlu dikekalkan secara berterusan, kerana faktor -faktor seperti kelemahan kod, keserasian pelayar, pengoptimuman prestasi, kemas kini keselamatan dan peningkatan pengalaman pengguna. Kaedah penyelenggaraan yang berkesan termasuk mewujudkan sistem ujian lengkap, menggunakan alat kawalan versi, kerap memantau prestasi halaman, mengumpul maklum balas pengguna dan merumuskan pelan penyelenggaraan.

Bagaimana untuk mendapatkan data aplikasi masa nyata dan data penonton di halaman kerja 58.com? Bagaimana untuk mendapatkan data aplikasi masa nyata dan data penonton di halaman kerja 58.com? Apr 05, 2025 am 08:06 AM

Bagaimana untuk mendapatkan data dinamik 58.com halaman kerja semasa merangkak? Semasa merangkak halaman kerja 58.com menggunakan alat crawler, anda mungkin menghadapi ...

Salin dan tampal kod cinta salinan dan tampal kod cinta secara percuma Salin dan tampal kod cinta salinan dan tampal kod cinta secara percuma Apr 04, 2025 am 06:48 AM

Menyalin dan menampal kod itu tidak mustahil, tetapi ia harus dirawat dengan berhati -hati. Ketergantungan seperti persekitaran, perpustakaan, versi, dan lain -lain dalam kod mungkin tidak sepadan dengan projek semasa, mengakibatkan kesilapan atau hasil yang tidak dapat diramalkan. Pastikan untuk memastikan konteksnya konsisten, termasuk laluan fail, perpustakaan bergantung, dan versi Python. Di samping itu, apabila menyalin dan menampal kod untuk perpustakaan tertentu, anda mungkin perlu memasang perpustakaan dan kebergantungannya. Kesalahan biasa termasuk kesilapan laluan, konflik versi, dan gaya kod yang tidak konsisten. Pengoptimuman prestasi perlu direka semula atau direkodkan mengikut tujuan asal dan kekangan Kod. Adalah penting untuk memahami dan debug kod yang disalin, dan jangan menyalin dan tampal secara membuta tuli.

See all articles