Sejak sekian lama, Volcano Engine telah menyediakan penyelesaian sari kata video pintar berdasarkan teknologi pengecaman pertuturan untuk platform video popular. Ringkasnya, ia adalah fungsi yang menggunakan teknologi AI untuk menukar secara automatik suara dan lirik dalam video kepada teks untuk membantu dalam penciptaan video. Walau bagaimanapun, dengan pertumbuhan pesat pengguna platform dan keperluan untuk jenis bahasa yang lebih kaya dan lebih pelbagai, teknologi pembelajaran diselia yang digunakan secara tradisional telah mencapai kesesakan, yang telah meletakkan pasukan dalam masalah sebenar.
Seperti yang kita semua tahu, pembelajaran seliaan tradisional akan sangat bergantung pada data seliaan beranotasi secara manual, terutamanya dalam pengoptimuman berterusan bahasa besardan permulaan dingin bahasa kecil. Mengambil bahasa utama seperti bahasa Cina, Mandarin dan Inggeris sebagai contoh, walaupun platform video menyediakan data suara yang mencukupi untuk senario perniagaan, selepas data yang diselia mencapai skala tertentu, ROI anotasi berterusan akan menjadi sangat rendah, dan kakitangan teknikal semestinya perlu mempertimbangkan cara menggunakan ratusan data yang diselia dengan berkesan untuk berpuluh-puluh ribu jam data tidak berlabel untuk meningkatkan lagi prestasi pengecaman pertuturan bahasa besar.
Bagi bahasa atau dialek yang agak khusus, kos pelabelan data adalah tinggi disebabkan oleh sumber, tenaga kerja dan sebab lain. Apabila terdapat sedikit data yang dilabelkan (mengikut urutan 10 jam), kesan latihan yang diselia adalah sangat lemah dan mungkin gagal untuk menumpu dengan betul dan data yang dibeli selalunya tidak sepadan dengan senario sasaran dan tidak dapat memenuhi keperluan perniagaan.
Oleh itu, Pasukan Suara Enjin Gunung Berapi perlu segera mengkaji cara menggunakan sepenuhnya sejumlah besar data tidak berlabel pada kos pelabelan serendah mungkin, meningkatkan kesan pengecaman dengan jumlah yang kecil data berlabel, dan melaksanakannya dalam perniagaan sebenar. Oleh itu, teknologi pra-latihan tanpa pengawasan telah menjadi kunci untuk mempromosikan keupayaan platform video ASR (Pengecaman Pertuturan Automatik / Pengecaman Pertuturan Automatik) kepada bahasa kecil.
Walaupun komuniti akademik telah mencapai banyak kemajuan yang ketara dalam bidang pertuturan pra-latihan tanpa pengawasan sejak beberapa tahun kebelakangan ini, termasuk Wav2vec2.0[1] , HuBERT[2], dsb., tetapi terdapat beberapa kes pelaksanaan dalam industri untuk rujukan. Secara keseluruhan, Pasukan Volcano Voice percaya bahawa tiga sebab berikut menghalang pelaksanaan teknologi pra-latihan tanpa pengawasan:
Memandangkan tiga perkara utama di atas, penambahbaikan algoritma dan pengoptimuman kejuruteraan telah dijalankan untuk membentuk pelan pelaksanaan yang lengkap dan mudah dipromosikan. Artikel ini akan memperkenalkan penyelesaian secara terperinci daripada proses pelaksanaan, pengoptimuman algoritma dan pengoptimuman kejuruteraan.
Rajah berikut ialah proses pelaksanaan pra-latihan ASR bahasa sumber rendah tanpa pengawasan, yang boleh dibahagikan secara kasar kepada data Terdapat tiga peringkat: pengumpulan, latihan model benih dan migrasi model.
Proses pelaksanaan ASR berdasarkan pra-latihan tanpa pengawasan
Secara khusus, peringkat pertama pengumpulan data boleh mengumpul data ucapan tidak berlabel, ucapan berlabel dan teks biasa dalam bahasa sasaran melalui pengalihan bahasa, perolehan dan cara lain.
Peringkat kedua latihan model benih ialah proses klasik "pra-latihan tanpa pengawasan + penalaan halus diselia". Pada peringkat ini, model akustik akan diperoleh, yang biasanya diperhalusi berdasarkan fungsi kehilangan Klasifikasi Temporal Connectionist (CTC[3]). Model akustik digabungkan dengan model bahasa yang dilatih pada teks tulen membentuk sistem pengecaman pertuturan yang lengkap, yang boleh mencapai hasil pengecaman yang baik. Sebab mengapa ia dipanggil model seed adalah kerana model ini tidak sesuai untuk dilancarkan terus ke dalam perniagaan The Volcano Engine lebih suka menggunakan LAS (Listen, Attend and Spell[4]) atau RNN-. T (Recurrent Neural Network Transducer[5]) model hujung ke hujung sedemikian digunakan dalam talian.
Sebab utama ialah LAS/RNN-T mempunyai keupayaan pemodelan hujung ke hujung yang sangat baik Pada masa yang sama, dalam beberapa tahun kebelakangan ini, ia telah mencapai hasil yang lebih baik daripada CTC tradisional model, dan dalam Ia semakin digunakan dalam industri. Enjin Volcano telah melakukan banyak kerja pengoptimuman pada inferens dan penggunaan model pengecaman pertuturan hujung ke hujung, dan telah membentuk penyelesaian yang agak matang untuk menyokong banyak perniagaan. Sambil mengekalkan kesan tanpa kerugian, jika enjin inferens hujung ke hujung boleh digunakan, kos operasi dan penyelenggaraan enjin boleh dikurangkan dengan banyak.
Berdasarkan ini, pasukan mereka bentuk fasa ketiga, iaitu fasa migrasi model. Terutamanya menggunakan idea penyulingan pengetahuan, gunakan model benih untuk melabel pseudo data tidak berlabel, dan kemudian menyediakan model LAS dengan bilangan parameter yang lebih kecil untuk latihan, secara serentak merealisasikan penghijrahan struktur model dan pemampatan pengiraan inferens. Keberkesanan keseluruhan proses telah disahkan pada ASR Kantonis Keputusan percubaan khusus ditunjukkan dalam jadual berikut:
<.>
Pertama sekali, pasukan membeli 1kh data produk siap untuk perbandingan percubaan Prestasi latihan terus model LAS adalah lemah, dengan kadar ralat aksara (Kadar Ralat Aksara, CER) setinggi. 44.2%. Selepas analisis, Volcano Engine percaya bahawa sebab utama adalah ketidakpadanan antara medan data perolehan (perbualan) dan set ujian perniagaan (video) Eksperimen awal pada wav2vec2.0 juga menemui fenomena yang sama.
Berbanding dengan menggunakan data perolehan untuk pra-latihan, Enjin Volcano menggunakan data yang konsisten dengan medan sasaran untuk pra-latihan, dan CER pada set ujian perniagaan boleh dikurangkan daripada 42.0% kepada 29.4%; apabila data tidak berlabel senario perniagaan terkumpul kepada 50kh, parameter model meningkat daripada 100M kepada 300M, dan CER terus menurun kepada 23.1%.
Akhir sekali, Enjin Volcano mengesahkan kesan migrasi model dan menggabungkan model bahasa Kantonis untuk menyahkod 50kh data tidak berlabel untuk mendapatkan Label pseudo, melatih model LAS. Dapat dilihat bahawa model LAS berdasarkan latihan pseudo-label pada asasnya boleh mengekalkan kesan pengecaman model benih CTC, dan bilangan parameter model dikurangkan sebanyak satu pertiga, dan boleh digunakan secara langsung berdasarkan enjin inferens hujung ke hujung yang matang.
Perbandingan parameter model dan CER
Akhir sekali, dalam model struktur Di bawah premis bahawa bilangan parameter kekal tidak berubah, pasukan menggunakan 50kh data perniagaan tidak berlabel dan 10j data perniagaan berlabel untuk mencapai CER sebanyak 23.0%, iaitu penurunan sebanyak 48% berbanding model garis dasar. Selepas menyelesaikan masalah volum pengiraan dan keserasian dalam talian, kami menumpukan pada teknologi pra-latihan teras tanpa pengawasan dalam keseluruhan proses Untuk wav2vec2.0, Enjin Volcano melaksanakan kerja dari dua dimensi: algoritma dan kejuruteraan Dioptimumkan.
Pengoptimuman algoritmawav2vec2.0, sebagai model pra-latihan diselia sendiri yang dicadangkan oleh Meta AI pada 2020, membuka perwakilan tanpa pengawasan ucapan Satu lembaran baru dalam pembelajaran. Idea teras ialah menggunakan modul pengkuantitian untuk mendiskrisikan ciri input, dan melalui pengoptimuman pembelajaran perbandingan, badan utama model merealisasikan ciri input separa topeng rawak yang serupa dengan BERT.
Rajah skematik struktur model wav2vec2.0 (Sumber: wav2vec 2.0 Rajah 1 [1])
Terdapat dua kesukaran yang dihadapi semasa melatih model wav2vec 2.0 mengenai perniagaan Masalah data: Satu ialah kecekapan latihan adalah rendah, dan model besar 300M dengan 64 kad mengambil masa lebih daripada sepuluh hari untuk dilatih; Wav2vec yang cekap dicadangkan untuk enjin Volcano ini bagi mengurangkan dua masalah di atas.
Mengenai masalah kecekapan latihan yang rendah, pasukan mempercepatkan latihan dengan mengurangkan kadar bingkai model, menggantikan ciri input daripada bentuk gelombang kepada bank penapis, dan kadar bingkai diubah daripada 20ms asal menjadi 40ms. Ini bukan sahaja mengurangkan jumlah pengiraan lilitan pengekstrakan ciri, tetapi juga mengurangkan panjang pengekodan dalaman Transformer, dengan itu meningkatkan kecekapan latihan. Untuk masalah latihan yang tidak stabil, ia diselesaikan dengan menganalisis kaedah pembelajaran pra-latihan tanpa pengawasan dan pertimbangan komprehensif digabungkan dengan situasi sebenar data perniagaan Perbandingan kerugian pembelajaran boleh dinyatakan dengan formula berikut:
Untuk setiap bingkai t, ct mewakili output pengekod bingkai, qt mewakili output terkuantisasi bingkai. Selain itu, beberapa bingkai lain perlu dijadikan sampel sebagai sampel negatif, jadi set bingkai semasa dan bingkai sampel negatif adalah bersamaan dengan senarai perkataan yang dibina secara dinamik Qt .
Matlamat pengoptimuman pembelajaran kontrastif adalah untuk memaksimumkan persamaan antara pengekodan bingkai semasa dan hasil pengkuantitian bingkai, sambil meminimumkan persamaan antara pengekodan bingkai semasa dan hasil pengkuantitian bagi bingkai lain. Tidak sukar untuk mencari bahawa persamaan antara sampel negatif dan sampel positif dan bilangan sampel negatif secara langsung menentukan kesan pembelajaran kontrastif. Dalam operasi sebenar, purata panjang data perniagaan adalah pendek, dan ia adalah jauh dari cukup untuk hanya menyediakan 50 sampel negatif dalam satu ayat. Memandangkan persamaan antara bingkai pertuturan bersebelahan adalah sangat tinggi, adalah perlu untuk memastikan kesinambungan kawasan topeng, dengan itu meningkatkan kesukaran pembinaan semula perwakilan.
Untuk menyelesaikan dua masalah di atas, Enjin Volcano telah mencadangkan dua penambahbaikan:
Selepas membandingkan kesan wav2vec2.0 (w2v) dan Efficient wav2vec (w2v-e) pada data perniagaan, keputusan yang ditunjukkan dalam jadual di bawah diperolehi (semua model adalah Latihan menggunakan 64 GPU V100):
Anda boleh melihat bahawa wav2vec Efficient yang dipertingkatkan mempunyai peningkatan prestasi 5% yang stabil berbanding dengan wav2vec 2.0 asal, dan kecekapan latihan hampir dua kali ganda.
Walaupun wav2vec Cekap yang dicadangkan oleh pasukan telah menggandakan kecekapan latihan hampir dua kali ganda daripada tahap algoritma, disebabkan volum komunikasi yang besar bagi model 300M, masih terdapat turun naik dalam latihan komunikasi dan kecekapan pengembangan berbilang mesin Rendah. Dalam hal ini, Pasukan Suara Enjin Gunung Berapi membuat kesimpulan: "Untuk meningkatkan kecekapan komunikasi model pra-latihan dalam senario kecerunan segerak, kami telah melengkapkan teknologi pengoptimuman komunikasi kumpulan Bucket pada bahagian belakang komunikasi berdasarkan rangka kerja latihan yang diedarkan BytePS, dan kecekapan selari data boleh dicapai 10% peningkatan pada masa yang sama, strategi penyusunan semula parameter adaptif (Penyusunan Semula Parameter) telah dilaksanakan untuk menangani masalah menunggu yang disebabkan oleh susunan definisi parameter model dan susunan kemas kini kecerunan yang berbeza >Berdasarkan pengoptimuman ini, penambahbaikan selanjutnya dibuat Digabungkan dengan pengumpulan kecerunan dan teknologi lain, kecekapan pengembangan satu kad model 300M meningkat daripada 55.42% kepada 81.83%, dan kecekapan pengembangan berbilang mesin meningkat daripada 60.54. % hingga 91.13%. Model yang pada asalnya mengambil masa 6.5 hari untuk dilatih kini boleh dilatih hanya dalam 4 hari , memakan masa dipendekkan sebanyak 40%.
Selain itu, untuk menyokong senario data besar model besar yang diterokai pada masa hadapan, pasukan suara Volcano Engine melengkapkan lagi siri model berskala ultra besar Pembinaan keupayaan Atom. Pertama, teknologi OSS tempatan telah dilaksanakan, yang menyelesaikan masalah kecekapan pengembangan antara mesin sambil mengalih keluar kebanyakan memori berlebihan yang diduduki oleh pengoptimum kemudiannya, baldi disokong untuk kecerunan segerak komunikasi Lazy init mengurangkan penggunaan memori video sebanyak dua kali ganda bilangan parameter, sangat mengurangkan nilai memori puncak dan menyesuaikan diri dengan senario model yang sangat besar di mana sumber memori video adalah padat akhirnya, berdasarkan selari data, selari model dan saluran paip disokong; dan dalam model 1B dan 10B Sokongan pengesahan dan penyesuaian selesai. Siri pengoptimuman ini meletakkan asas yang kukuh untuk latihan model besar dan data besar.
Pada masa ini, dengan mengguna pakai proses pelaksanaan ASR sumber rendah, dua bahasa sumber rendah telah berjaya melaksanakan sari kata video dan perkhidmatan keselamatan kandungan. Selain pengecaman pertuturan, model pra-latihan berdasarkan wav2vec2.0 juga telah mencapai keuntungan yang ketara dalam banyak tugas hiliran lain, termasuk pengesanan acara audio, pengecaman bahasa, pengesanan emosi, dsb., dan akan dilaksanakan secara beransur-ansur dalam keselamatan kandungan video , pengesyoran dan analisis pada masa hadapan , pemunggahan audio, analisis sentimen perkhidmatan pelanggan e-dagang dan perniagaan lain yang berkaitan. Pelaksanaan teknologi pra-latihan tanpa pengawasan akan mengurangkan kos pelabelan pelbagai jenis data audio dengan ketara, memendekkan kitaran pelabelan dan mencapai tindak balas pantas kepada keperluan perniagaan.
Ringkasan dan TinjauanDalam amalannya, Volcano Engine telah meneroka satu set penyelesaian pelaksanaan ASR bahasa sumber rendah berdasarkan wav2vec2.0, yang menyelesaikan masalah Ia menyelesaikan masalah overhed penaakulan yang tinggi dan mencapai sambungan lancar dengan enjin hujung ke hujung. Untuk menangani masalah teras kecekapan latihan rendah dan ketidakstabilan wav2vec2.0, wav2vec yang cekap telah dicadangkan. Berbanding dengan wav2vec2.0, kesan pada tugas hiliran dipertingkatkan sebanyak 5%, dan masa pra-latihan dipendekkan separuh Digabungkan dengan pengoptimuman kejuruteraan, masa pra-latihan akhir dikurangkan sebanyak 70% berbanding dengan versi asal. Pada masa hadapan, Enjin Gunung Berapi akan terus meneroka dalam tiga arah berikut:
Volcano Voice, teknologi suara termaju yang telah lama berkhidmat kepada pelbagai barisan perniagaan ByteDance dibuka melalui enjin Volcano, menyediakan keupayaan teknologi suara AI yang terkemuka dalam industri dan penuh cemerlang. -produk suara timbunan Penyelesaian termasuk pemahaman audio, sintesis audio, manusia digital maya, interaksi perbualan, pengambilan muzik, perkakasan pintar, dsb. Pada masa ini, pengecaman pertuturan dan sintesis pertuturan Volcano Engine merangkumi pelbagai bahasa dan dialek telah dipilih ke dalam pelbagai persidangan AI terkemuka, menyediakan keupayaan suara terkemuka untuk Douyin, Jianying, Feishu, Novel Tomato, Pico dan perniagaan lain sesuai untuk pelbagai senario seperti video pendek, siaran langsung, penciptaan video, pejabat dan peranti boleh pakai.
Rujukan
[1] Baevski, A., Zhou, Y., Mohamed, A. and Auli, M . , 2020. wav2vec 2.0: Rangka kerja untuk pembelajaran penyeliaan sendiri bagi perwakilan pertuturan Kemajuan dalam Sistem Pemprosesan Maklumat Neural, 33, ms.12449-12460.
. [2] Hsu, W.N., Bolte, B., Tsai, Y.H.H., Lakhotia, K., Salakhutdinov, R. dan Mohamed, A., 2021. Hubert: Pembelajaran perwakilan pertuturan diselia sendiri oleh ramalan bertopeng IEEE /. Transaksi ACM pada Pemprosesan Audio, Pertuturan dan Bahasa, 29, ms.3451-3460.
[3] Graves, A., Fernández, S. , Gomez, F. dan Schmidhuber, J., 2006, klasifikasi temporal Connectionist: melabelkan data jujukan tidak bersegmen dengan rangkaian saraf berulang Dalam Prosiding persidangan antarabangsa ke-23 tentang Pembelajaran Mesin (ms. 369-376).
[4] Chan, W., Jaitly, N., Le, Q. dan Vinyals, O., 2016, Mac Dengar, hadir dan eja: Rangkaian saraf untuk pengecaman pertuturan perbendaharaan kata yang besar Pada persidangan antarabangsa IEEE pada akustik, pertuturan dan pemprosesan isyarat (ICASSP) (ms. 4960-4964.).
[5] Graves, A., 2012. Transduksi jujukan dengan rangkaian saraf berulang. pracetak arXiv arXiv:1211.3711.
[6] He, K., Chen, X., Xie, S., Li, Y., Dollár, P . dan Girshick, R., 2022. Pengekod auto bertopeng ialah pelajar penglihatan berskala. Dalam Prosiding Persidangan IEEE/CVF mengenai Penglihatan Komputer dan Pengecaman Corak (ms. 16000-16009).
[7] Baevski, A., Hsu, W.N., Xu, Q., Babu, A., Gu, J. and Auli, M., 2022. Data2vec: Rangka kerja umum untuk pembelajaran penyeliaan kendiri dalam pertuturan, penglihatan dan bahasa. pracetak arXiv arXiv:2202.03555.
[8] Conneau, A., Baevski, A., Collobert, R., Mohamed, A. dan Auli, M ., 2020. Pembelajaran perwakilan silang bahasa tanpa pengawasan untuk pengecaman pertuturan. pracetak arXiv arXiv:2006.13979.
[9] Lu, Y., Huang, M., Qu, X., Wei, P. dan Ma, Z ., 2022, Mei. Pembelajaran perwakilan pertuturan silang bahasa adaptif bahasa dengan perkongsian sub-rangkaian yang jarang. Dalam ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (ms. 6882-6886). IEEE.
[10] Park, D.S., Zhang, Y., Jia, Y., Han, W., Chiu, C.C., Li, B. , Wu, Y. dan Le, Q.V., 2020. Latihan pelajar bising yang dipertingkatkan untuk pengecaman pertuturan automatik. pracetak arXiv arXiv:2005.09629.
Atas ialah kandungan terperinci Penerokaan mendalam tentang pelaksanaan teknologi pra-latihan tanpa pengawasan dan 'pengoptimuman algoritma + inovasi kejuruteraan' Huoshan Voice. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!