Dalam audio masa nyata dan Senario komunikasi video, apabila mikrofon mengumpul suara pengguna, ia juga mengumpul sejumlah besar hingar persekitaran Algoritma pengurangan hingar tradisional hanya mempunyai kesan tertentu pada hingar pegun (seperti bunyi kipas, hingar putih, lantai hingar litar, dll. .), dan mempunyai kesan tertentu pada bunyi sementara yang tidak pegun (seperti bunyi bising di restoran, bunyi persekitaran kereta bawah tanah, bunyi dapur rumah, dll.), Kesan pengurangan hingar adalah buruk, menjejaskan pengalaman panggilan pengguna secara serius. Sebagai tindak balas kepada beratus-ratus masalah hingar tidak pegun dalam senario kompleks seperti rumah dan pejabat, pasukan pemerkasaan ekologi Jabatan Sistem Komunikasi Bersepadu membangunkan teknologi pengurangan hingar audio AI secara bebas berdasarkan model GRU, dan melalui pengoptimuman algoritma dan kejuruteraan, mengurangkan saiz model pengurangan hingar Dimampatkan daripada 2.4MB kepada 82KB, memori berjalan dikurangkan sebanyak kira-kira 65% kerumitan pengiraan dioptimumkan daripada kira-kira 186Mflops kepada 42Mflops, dan kecekapan berjalan dipertingkatkan sebanyak 77%; set data ujian (dalam persekitaran eksperimen), suara manusia dan bunyi bising boleh dipisahkan dengan berkesan, meningkatkan kualiti suara panggilan skor Mos (nilai pendapat purata) kepada 4.25.
Artikel ini akan memperkenalkan cara pasukan kami melakukan penindasan hingar masa nyata berdasarkan pembelajaran mendalam dan melaksanakannya pada terminal mudah alih dan APP Jiaqin. Teks penuh akan disusun seperti berikut, memperkenalkan klasifikasi hingar dan cara memilih algoritma untuk menyelesaikan masalah bunyi ini; cara mereka bentuk algoritma dan melatih model AI melalui pembelajaran mendalam, akhirnya, ia akan memperkenalkan kesan dan aplikasi utama AI semasa; adegan pengurangan hingar.
Dalam senario aplikasi audio dan video masa nyata, peranti berada dalam persekitaran akustik yang kompleks Apabila mikrofon mengumpul isyarat suara, ia juga mengumpul sejumlah besar bunyi, yang merupakan cabaran yang sangat besar kepada kualiti audio masa nyata. dan video. Terdapat banyak jenis bunyi. Mengikut sifat statistik matematik hingar, hingar boleh dibahagikan kepada dua kategori:
Bunyi pegun: Statistik hingar Ciri-ciri tidak akan berubah dari semasa ke semasa, seperti bunyi putih, kipas elektrik, penghawa dingin, bunyi kereta, dll.; >
Bunyi tidak pegun:
Ciri statistik bunyi berubah mengikut masa, seperti restoran bising, stesen kereta api bawah tanah, pejabat, rumah Dapur dll.
Dalam aplikasi audio dan video masa nyata, panggilan terdedah kepada gangguan daripada pelbagai bunyi Ini menjejaskan pengalaman, jadi pengurangan hingar audio masa nyata telah menjadi fungsi penting dalam audio dan video masa nyata. Untuk bunyi yang stabil, seperti putar penghawa dingin atau lantai hingar peralatan rakaman, ia tidak akan berubah dengan ketara dari semasa ke semasa Anda boleh menganggar dan meramalkannya serta mengeluarkannya melalui penolakan biasa Terdapat penolakan spektrum, penapisan Wiener dan wavelet mengubah. Bunyi yang tidak pegun, seperti bunyi kereta yang berdesing di jalan raya, perlanggaran pinggan di restoran, dan ketukan periuk di dapur rumah, semuanya muncul secara rawak dan tidak dijangka, dan adalah mustahil untuk menganggarkan dan meramalkannya . Algoritma tradisional sukar untuk dianggarkan dan menghapuskan hingar tidak pegun, itulah sebabnya kami menggunakan algoritma pembelajaran mendalam.
Untuk meningkatkan keupayaan pengurangan hingar SDK audio untuk pelbagai adegan hingar dan mengimbangi kelemahan algoritma pengurangan hingar tradisional, kami membangunkan modul pengurangan hingar AI berasaskan RNN, digabungkan dengan teknologi pengurangan hingar tradisional dan teknologi pembelajaran mendalam. Memfokuskan pada pemprosesan pengurangan hingar untuk senario penggunaan di rumah dan pejabat, sejumlah besar jenis hingar dalaman ditambahkan pada set data hingar, seperti menaip papan kekunci di pejabat, bunyi geseran meja dan bekalan pejabat diseret, menyeret kerusi dan dapur. di rumah, bunyi, lantai, dll.
Pada masa yang sama, untuk melaksanakan pemprosesan pertuturan masa nyata pada terminal mudah alih, algoritma pengurangan hingar audio AI ini akan mengawal overhed pengiraan dan perpustakaan saiz ke tahap yang sangat rendah. Dari segi overhed pengiraan, mengambil 48KHz sebagai contoh, pemprosesan rangkaian RNN bagi setiap bingkai pertuturan hanya memerlukan kira-kira 17.5Mflops, FFT dan IFFT memerlukan kira-kira 7.5Mflops setiap bingkai pertuturan, dan pengekstrakan ciri memerlukan kira-kira 12Mflops, berjumlah kira-kira 42Mflops . Dari segi saiz perpustakaan audio, selepas menghidupkan kompilasi pengurangan hingar RNN, saiz perpustakaan enjin audio hanya meningkat kira-kira 108kB.
The Modul ini menggunakan model RNN kerana RNN membawa maklumat masa berbanding model pembelajaran lain (seperti CNN) dan boleh memodelkan isyarat pemasaan, bukan hanya memisahkan bingkai input dan output audio. Pada masa yang sama, model menggunakan unit berulang berpagar (GRU, seperti ditunjukkan dalam Rajah 1. Eksperimen menunjukkan bahawa GRU berprestasi lebih baik sedikit daripada LSTM pada tugas pengurangan hingar pertuturan, dan kerana GRU mempunyai parameter berat yang lebih sedikit, ia boleh menjimatkan sumber pengkomputeran). . Berbanding dengan unit gelung mudah, GRU mempunyai dua pintu tambahan. Keadaan kawalan get set semula digunakan untuk mengira keadaan baharu, manakala keadaan kawalan get kemas kini ialah berapa banyak ia akan berubah berdasarkan input baharu. Gerbang kemas kini ini membolehkan GRU mengingati maklumat pemasaan untuk masa yang lama, itulah sebabnya GRU berprestasi lebih baik daripada unit berulang mudah.
Rajah 1 Bahagian kiri ialah unit gelung ringkas, sebelah kanan Struktur model GRU
ditunjukkan dalam Rajah 2. Model terlatih akan dibenamkan ke dalam SDK komunikasi audio dan video Dengan membaca aliran audio peranti perkakasan, strim audio akan dibingkai dan dihantar ke modul prapemprosesan pengurangan hingar AI ( Ciri) dikira dan output kepada model terlatih Nilai keuntungan (Gain) yang sepadan dikira melalui model, dan nilai keuntungan digunakan untuk melaraskan isyarat untuk mencapai tujuan pengurangan hingar (seperti yang ditunjukkan dalam Rajah 3). .
Rajah 2. Model rangkaian RNN berasaskan GRU
Rajah 3. Bahagian atas ialah proses latihan model, dan bahagian bawah ialah proses pengurangan hingar masa nyata
Rajah 4 menunjukkan ketik papan kekunci Perbandingan spektrogram pertuturan sebelum dan selepas pengurangan hingar Bahagian atas ialah isyarat pertuturan bising sebelum pengurangan hingar, dan kotak segi empat tepat merah ialah bunyi mengetik papan kekunci. Bahagian bawah ialah isyarat pertuturan selepas pengurangan hingar Melalui pemerhatian, didapati kebanyakan bunyi ketukan papan kekunci boleh ditindas, manakala kerosakan pertuturan dikawal pada tahap yang rendah.
Rajah 4. Pertuturan yang bising (disertai dengan proses panggilan Bunyi ketukan papan kekunci) sebelum dan selepas pengurangan hingar
Model pengurangan hingar AI semasa telah dilancarkan pada telefon mudah alih dan Jiaqin untuk menambah baik telefon bimbit dan APP Jiaqin Kesan pengurangan hingar panggilan mempunyai keupayaan penindasan yang sangat baik untuk lebih daripada 100 senario hingar di rumah, pejabat, dsb., sambil mengekalkan herotan suara. Pada peringkat seterusnya, kami akan terus mengoptimumkan kerumitan pengiraan model pengurangan hingar AI supaya ia boleh dipromosikan dan digunakan pada peranti berkuasa rendah IoT.
Atas ialah kandungan terperinci Mari kita bincangkan tentang teknologi pengurangan hingar AI dalam komunikasi masa nyata. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!