Algoritma pengelompokan mendalam ialah kaedah pembelajaran tanpa pengawasan yang digunakan untuk mengelompokkan data ke dalam kumpulan yang berbeza. Dalam pemisahan pertuturan, algoritma pengelompokan dalam boleh digunakan untuk memisahkan isyarat pertuturan bercampur kepada isyarat pertuturan bagi pembesar suara individu. Artikel ini akan memperkenalkan secara terperinci aplikasi algoritma pengelompokan dalam dalam pemisahan pertuturan.
Pemisahan pertuturan ialah proses mengasingkan isyarat pertuturan campuran ke dalam isyarat pertuturan satu pembesar suara Ia digunakan secara meluas dalam bidang pemprosesan pertuturan dan pengecaman pertuturan. Walau bagaimanapun, pemisahan pertuturan adalah tugas yang mencabar. Cabaran utama termasuk: kerumitan isyarat audio, gangguan bersama antara pembesar suara, kehadiran bunyi latar belakang dan isu pertindihan isyarat. Menangani cabaran ini memerlukan penggunaan teknik pemprosesan isyarat lanjutan seperti pemisahan sumber buta, penolakan spektrum dan kaedah pembelajaran mendalam untuk meningkatkan ketepatan dan keberkesanan pemisahan pertuturan.
Dalam isyarat pertuturan bercampur, isyarat pertuturan penutur yang berbeza mempengaruhi satu sama lain dan berkorelasi antara satu sama lain. Untuk memisahkan isyarat pertuturan bercampur ke dalam isyarat pertuturan satu pembesar suara, masalah yang saling berkaitan ini perlu diselesaikan.
2) Kebolehubahan adalah satu cabaran dalam isyarat pertuturan yang bercampur kerana isyarat pertuturan penutur akan berubah atas faktor seperti kelajuan pertuturan, intonasi, kelantangan dsb. Perubahan ini meningkatkan kesukaran pemisahan pertuturan.
3) Bunyi: Isyarat pertuturan bercampur mungkin juga mengandungi isyarat hingar lain, seperti hingar persekitaran, hingar perkakas elektrik, dsb. Isyarat bunyi ini juga boleh mengganggu hasil pemisahan pertuturan.
Algoritma pengelompokan mendalam ialah kaedah pembelajaran tanpa pengawasan yang matlamat utamanya adalah untuk mengelompokkan data ke dalam kumpulan yang berbeza. Prinsip asas algoritma pengelompokan mendalam adalah untuk memetakan data ke dalam ruang berdimensi rendah dan menetapkan data kepada kelompok yang berbeza. Algoritma pengelompokan dalam biasanya terdiri daripada tiga komponen: pengekod, pengelompokan dan penyahkod.
1) Pengekod: Pengekod memetakan data asal ke dalam ruang berdimensi rendah. Dalam pemisahan pertuturan, pengekod boleh menjadi rangkaian saraf yang inputnya ialah isyarat pertuturan campuran dan outputnya ialah perwakilan dimensi rendah.
2) Kluster: Kluster memperuntukkan perwakilan dimensi rendah output pengekod kepada kluster yang berbeza. Dalam pemisahan pertuturan, kluster boleh menjadi algoritma K-means yang mudah atau rangkaian saraf yang lebih kompleks.
3) Penyahkod: Penyahkod mengubah perwakilan dimensi rendah yang diberikan kluster kepada kluster berbeza kembali ke ruang asal. Dalam pemisahan pertuturan, penyahkod boleh menjadi rangkaian saraf yang inputnya merupakan perwakilan dimensi rendah dan outputnya ialah isyarat pertuturan bagi satu pembesar suara.
Aplikasi algoritma pengelompokan dalam dalam pemisahan pertuturan boleh dibahagikan kepada dua jenis: kaedah berasaskan domain frekuensi dan berasaskan domain masa.
1. Kaedah berasaskan domain frekuensi: Kaedah berasaskan domain frekuensi menukar isyarat pertuturan campuran kepada perwakilan domain frekuensi dan kemudian memasukkannya ke dalam algoritma pengelompokan yang mendalam. Kelebihan kaedah ini ialah ia boleh menggunakan maklumat domain frekuensi isyarat, tetapi kelemahannya ialah maklumat masa mungkin hilang.
2. Kaedah berasaskan domain masa: Kaedah berasaskan domain masa secara langsung memasukkan isyarat pertuturan campuran ke dalam algoritma pengelompokan dalam. Kelebihan kaedah ini ialah ia boleh menggunakan maklumat masa isyarat, tetapi kelemahannya ialah ia memerlukan struktur rangkaian saraf yang lebih kompleks.
Dalam pemisahan pertuturan, algoritma pengelompokan dalam biasanya memerlukan set data latihan untuk mempelajari ciri isyarat pertuturan dan kaedah pemisahan. Set data latihan boleh terdiri daripada isyarat pertuturan pembesar suara tunggal dan isyarat pertuturan bercampur. Semasa proses latihan, algoritma pengelompokan dalam mengekod isyarat pertuturan bercampur ke dalam perwakilan dimensi rendah dan menetapkannya kepada kelompok yang berbeza, dan kemudian penyahkod menukar perwakilan dimensi rendah setiap kelompok kembali kepada isyarat pertuturan asal. Dengan cara ini, algoritma pengelompokan dalam boleh mempelajari cara memisahkan isyarat pertuturan bercampur kepada isyarat pertuturan pembesar suara individu.
Aplikasi algoritma pengelompokan dalam dalam pemisahan pertuturan telah mencapai kejayaan tertentu. Contohnya, dalam cabaran DCASE 2018, kaedah pemisahan pertuturan berdasarkan algoritma pengelompokan dalam mencapai hasil terbaik dalam senario berbilang pembesar suara. Di samping itu, algoritma pengelompokan dalam juga boleh digunakan dalam kombinasi dengan teknik lain, seperti rangkaian saraf dalam, pemfaktoran matriks bukan negatif, dll., untuk meningkatkan prestasi pemisahan pertuturan.
Atas ialah kandungan terperinci Menggunakan algoritma pengelompokan dalam untuk pemisahan pertuturan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!