Rumah > Peranti teknologi > AI > teks badan

Kecerdasan Buatan: Teknologi Pengecaman Pertuturan

王林
Lepaskan: 2023-05-04 11:22:06
ke hadapan
2492 orang telah melayarinya

Hari ini saya akan memperkenalkan kepada anda beberapa pengetahuan tentang pengecaman pertuturan, saya harap ia akan membantu anda!

1. Apakah itu pertuturan

Pertuturan merujuk kepada bunyi yang dikeluarkan oleh manusia melalui organ vokalnya, yang mempunyai makna tertentu dan digunakan untuk komunikasi.

Storan pertuturan dalam komputer: Ia disimpan dalam bentuk fail bentuk gelombang Perubahan dalam suara dipantulkan melalui bentuk gelombang, supaya maklumat parameter seperti keamatan bunyi dan panjang bunyi boleh diperolehi.

Parameter julat vokal: Spektrum Fourier, frekuensi Mel kepada pekali spektrum, terutamanya digunakan untuk mengekstrak perbezaan dalam kandungan pertuturan dan timbre untuk mengenal pasti maklumat pertuturan lagi.

2. Apakah itu pengecaman pertuturan?

Pengecaman pertuturan hanyalah proses menukar kandungan pertuturan kepada teks secara automatik.

Bidang yang diliputi: akustik, kecerdasan buatan, pemprosesan isyarat digital, psikologi, dsb.

Input untuk pengecaman pertuturan: urutan memainkan fail bunyi.

Output pengecaman pertuturan: Hasil output ialah urutan teks.

3. Prinsip pengecaman pertuturan

Pengecaman pertuturan memerlukan empat bahagian: pengekstrakan ciri, model akustik, model pertuturan, penyahkod pertuturan dan algoritma carian.

Pengekstrakan ciri: Ekstrak isyarat untuk dianalisis daripada isyarat asal Peringkat ini terutamanya termasuk operasi pra-pemprosesan seperti penyeragaman amplitud pertuturan, pembetulan tindak balas frekuensi, pembingkaian, tingkap dan pengesanan titik mula dan tamat. Model akustik menyediakan vektor ciri yang diperlukan.

Model akustik: Bergantung pada model akustik untuk menganalisis parameter pertuturan (frekuensi forman pertuturan, amplitud, dll.) dan menganalisis parameter ramalan linear pertuturan.

Model bahasa: Berdasarkan teori linguistik yang berkaitan, hitung kebarangkalian urutan frasa yang mungkin bagi klip bunyi.

Penyahkodan pertuturan dan algoritma carian: Cari laluan paling sesuai berdasarkan ruang carian yang dibina oleh model akustik + kamus sebutan + model pertuturan. Teks akhirnya dikeluarkan selepas penyahkodan selesai.

4. Komposisi sistem pengecaman pertuturan

Sistem pengecaman pertuturan yang lengkap termasuk: prapemprosesan, pengekstrakan ciri, latihan model akustik, latihan model bahasa dan penyahkod pertuturan.

4.1 Prapemprosesan

Proses input isyarat bunyi asal, tapis bunyi latar belakang dan maklumat tidak penting, dan juga cari permulaan dan akhir isyarat pertuturan. Menamatkan, membingkai suara, meningkatkan bahagian frekuensi tinggi isyarat dan operasi lain.

4.2 Pengekstrakan Ciri

Kaedah pengekstrakan ciri yang paling biasa digunakan ialah Melton Spectral Coefficient (MFCC) kerana ia mempunyai imuniti bunyi yang baik dan keteguhan.

4.3 Latihan model akustik

Parameter model akustik dilatih berdasarkan parameter ciri perpustakaan pertuturan Xuanlian, supaya ia boleh dipadankan dengan model akustik semasa pengecaman untuk mendapatkan hasil yang sepadan. Pada masa ini, sistem pengecaman pertuturan arus perdana biasanya menggunakan HMM untuk pemodelan model akustik.

4.4 Latihan model bahasa

digunakan untuk meramalkan urutan perkataan yang lebih berkemungkinan betul.

4.5 Penyahkod pertuturan

Penyahkod ialah proses pengecaman dalam teknologi pengecaman pertuturan berdasarkan isyarat pertuturan input, ia kemudiannya digabungkan dengan model akustik HMM terlatih dan bahasa Model dan kamus sebutan mewujudkan ruang carian dan mencari laluan yang paling sesuai mengikut algoritma carian. Untuk mencari rentetan perkataan yang paling sesuai.

5. Senario penggunaan pengecaman pertuturan

Pengecaman pertuturan digunakan secara meluas dalam kehidupan harian dan terbahagi terutamanya kepada aplikasi tertutup dan terbuka.

Aplikasi tertutup: terutamanya merujuk kepada penggunaan arahan kawalan khusus.

Contohnya, terdapat rumah pintar biasa, seperti mengawal suis lampu, suis pemanas air, pelarasan suhu, menghidupkan penghawa dingin, dsb. melalui arahan suara, yang sangat memperkayakan kehidupan seharian kita; 🎜>Aplikasi terbuka: Buka utama Pengilang menyediakan perkhidmatan pengecaman pertuturan, yang biasanya digunakan dalam awan awam atau awan peribadi untuk menyediakan SDK yang sepadan, membenarkan pelanggan yang menggunakan perkhidmatan untuk memanggil perkhidmatan pengecaman pertuturan.

Senario biasa termasuk kaedah input, output masa nyata sari kata persidangan, konfigurasi sari kata penyuntingan video, dsb.

Atas ialah kandungan terperinci Kecerdasan Buatan: Teknologi Pengecaman Pertuturan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan