Kertas NetEase Yidun AI Lab dipilih untuk ICASSP 2023! Teknologi hitam menjadikan pengecaman pertuturan lebih 'mendengar' dan lebih tepat-AI-php.cn

Rumah

Kertas NetEase Yidun AI Lab dipilih untuk ICASSP 2023! Teknologi hitam menjadikan pengecaman pertuturan lebih 'mendengar' dan lebih tepat

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 11, 2023 pm 11:06 PM

2023-06-07 17:42:41 Pengarang: Li Wenwen

Setiap peminat fiksyen sains mengimpikan untuk dapat melancarkan kapal angkasa antara bintang dan menakluki bintang dan laut dengan hanya beberapa perkataan pada masa hadapan, sama seperti bercakap dengan rakan lama Datang dengan satu set perisai pertempuran nano. Sebenarnya, gambar ini tidak jauh dari kami - ia sama dekat dengan kami seperti Siri dalam iPhone. Di belakangnya ialah teknologi Pengecaman Pertuturan Automatik. Teknologi utama ini boleh menukar pertuturan kepada teks atau perintah yang boleh dikenali oleh komputer, mencapai pengalaman interaksi manusia-komputer yang mudah, cekap dan pintar.

Dengan pembangunan teknologi AI seperti pembelajaran mendalam, teknologi pengecaman pertuturan telah mencapai kemajuan yang luar biasa - bukan sahaja ketepatan pengecaman telah dipertingkatkan dengan lebih baik, malah ia juga boleh menangani isu seperti aksen, hingar dan bunyi latar belakang dengan lebih baik. Walau bagaimanapun, apabila teknologi terus digunakan dalam kehidupan dan perniagaan, ia masih akan menghadapi beberapa kesesakan Lagipun, terdapat terlalu banyak faktor praktikal untuk dipertimbangkan daripada penyelidikan teori kepada aplikasi praktikal, daripada kertas kerja kepada produk. Bagaimana untuk menjadikan pengecaman pertuturan lebih baik membantu dalam semakan kandungan? Bagaimanakah tindakan pengiktirafan itu sendiri boleh menjadi seperti otak manusia, berdasarkan pemahaman konteks, dan memberikan jawapan yang lebih tepat pada kos yang lebih rendah? Yidun AI Lab, anak syarikat NetEase Intelligence, telah memberikan pendekatan baharu.

Yidun mempunyai satu lagi teknologi hitam, dan syarikat pintar bergerak ke arah dunia!

Baru-baru ini, persidangan ucapan dan akustik global ICASSP 2023 mengumumkan senarai kertas terpilih, dan kertas kerja yang diserahkan oleh Yidun AI Lab, anak syarikat NetEase Intelligence Enterprise, telah berjaya diterima. Tahun ini adalah persidangan ICASSP yang ke-48, dan ia juga merupakan persidangan luar talian pertama selepas wabak tersebut Walaupun pegawai persidangan belum mengumumkan jumlah akhir kertas kerja yang diterima, jumlah kertas yang dihantar telah meningkat sebanyak 50% berbanding tahun-tahun sebelumnya, mencecah. 6,000 + yang menakjubkan.

Berdepan dengan persaingan yang begitu sengit, pasukan NetEase Yidun AILab bergantung pada kertas mengenai pengecaman pertuturan "Meningkatkan ASRMmodels berasaskan CTC dengan Kolaborasi Antara Pemain Berpagar (penambahbaikan model berasaskan CTC untuk mencapai model yang lebih kukuh) Struktur)》 menyerlah dan berjaya mendapatkan tiket untuk menghadiri persidangan luar talian di Pulau Rhodes, Greece.

“GIC” membantu pengecaman pertuturan pergi lebih jauh

Pengecaman pertuturan pada asasnya ialah penukaran urutan pertuturan kepada urutan teks Untuk melengkapkan penukaran tersebut, secara amnya menggunakan tiga jenis model, CTC, berasaskan Perhatian dan RNN-Transducer Mereka sedang melengkapkan laluan yang berbeza digunakan semasa tugasan:

CTC: Berdasarkan model rangkaian saraf, parameter model dikemas kini melalui perambatan belakang semasa proses latihan untuk meminimumkan fungsi kehilangan. Algoritma ini memperkenalkan "aksara ruang putih" untuk mewakili aksara atau simbol ruang yang tidak bermakna. CTC sesuai untuk memproses data dengan perbezaan besar dalam panjang input dan output, seperti memetakan ciri akustik kepada teks dalam pengecaman pertuturan

Berasaskan perhatian: Mekanisme perhatian juga berdasarkan model rangkaian saraf dan menggunakan teknologi yang dipanggil "perhatian" untuk menimbang input. Pada setiap langkah masa, model mengira vektor berat teragih berdasarkan keadaan semasa dan semua input, dan menggunakannya pada semua input untuk menghasilkan purata wajaran sebagai output. Pendekatan ini membolehkan model memfokus dengan lebih baik pada beberapa maklumat yang berkaitan dengan ramalan semasa

RNN-Transducer: Transkriptor, algoritma ini menggabungkan rangka kerja pengekod-penyahkod dan idea pemodelan autoregresif, dan mempertimbangkan interaksi antara ayat bahasa sumber dan ayat bahasa sasaran separa yang dijana apabila menjana jujukan sasaran. Tidak seperti dua kaedah lain, RNN-Transducer tidak membezakan dengan jelas antara peringkat pengekod dan penyahkod, dan menukar terus daripada bahasa sumber kepada bahasa sasaran, jadi ia boleh mempertimbangkan secara serentak hubungan antara ayat bahasa sumber dan ayat bahasa sasaran separa yang dihasilkan interaksi.

Berbanding dengan dua yang terakhir, walaupun CTC mempunyai sifat penyahkodan bukan autoregresif semula jadi dan kelajuan penyahkodan jauh lebih pantas, ia masih mempunyai kelemahan prestasi:

1. Algoritma CTC menetapkan andaian kebebasan bersyarat , iaitu, CTC menganggap bahawa output setiap langkah masa adalah bebas. Ini tidak munasabah untuk tugasan pengecaman pertuturan Jika sebutan "ji rou" disebut, kandungan teks yang diramalkan harus berbeza dalam konteks yang berbeza. Jika ayat di atas adalah "Saya suka makan", kebarangkalian "ayam" sepatutnya lebih tinggi. Jika anda lulus latihan CTC, mudah untuk mengeluarkan teks lucu seperti "Saya suka makan otot" sambil mengabaikan perkara di atas; 2. Dari perspektif pemodelan, model berasaskan Perhatian dan model RNN-Transducer meramalkan output langkah masa semasa berdasarkan input dan output langkah masa sebelumnya, manakala model CTC hanya menggunakan input untuk meramalkan output semasa Semasa proses pemodelan model CTC, maklumat teks hanya dihantar semula ke rangkaian sebagai isyarat penyeliaan, dan tidak berfungsi sebagai input kepada rangkaian untuk mempromosikan ramalan model secara eksplisit.

Kami berharap dapat menyelesaikan dua kelemahan di atas sebaik mungkin sambil mengekalkan kecekapan penyahkodan CTC. Oleh itu, kami ingin bermula daripada model CTC itu sendiri dan mereka bentuk modul ringan untuk memperkenalkan maklumat teks ke dalam model berasaskan CTC, supaya model boleh menyepadukan maklumat akustik dan teks, mempelajari interaksi antara konteks jujukan teks, dan dengan itu mengurangkan andaian kebebasan bersyarat bagi algoritma CTC . Tetapi dalam proses itu, kami menghadapi dua masalah: Bagaimana untuk menyuntik maklumat teks ke dalam model CTC (Pengekod + struktur CTC)? Bagaimana untuk menyesuaikan ciri teks dan ciri akustik secara adaptif?

Untuk mencapai matlamat di atas, kami mereka bentuk mekanisme Kolaborasi Gated Interlayer (disingkat GIC) . Modul GIC terutamanya termasuk lapisan benam dan unit get. Antaranya, lapisan benam digunakan untuk menjana maklumat teks bagi setiap bingkai input audio, dan unit gating digunakan untuk menyesuaikan maklumat teks dan maklumat akustik secara adaptif.

Secara khusus, kaedah kami adalah berdasarkan rangka kerja pembelajaran berbilang tugas (Pembelajaran Pelbagai tugas), menggunakan output lapisan tengah modul pengekod (Pengekod) untuk mengira kehilangan CTC tambahan fungsi objektif keseluruhan rangkaian ialah kehilangan CTC lapisan terakhir dan lapisan tengah Jumlah wajaran kerugian CTC bantuan lapisan. GIC menggunakan ramalan lapisan tengah rangkaian, iaitu, taburan kebarangkalian keluaran Softmax, sebagai label lembut bagi setiap bingkai, dan jumlah matriks lapisan pembenaman produk titik sebagai perwakilan teks setiap bingkai. Akhir sekali, perwakilan teks yang dijana dan perwakilan akustik digabungkan secara adaptif melalui unit gating dan menjadi input ciri baharu ke lapisan seterusnya. Ciri baharu pada masa ini menggabungkan ciri teks dan ciri akustik, membolehkan modul Pengekod peringkat seterusnya mempelajari maklumat konteks jujukan akustik dan maklumat konteks jujukan teks. Rangka kerja keseluruhan model ditunjukkan dalam rajah di bawah:

Percubaan pada model Conformer dan Transformer menunjukkan:

1. GIC Menyokong pengecaman pemandangan dalam bahasa Cina dan Inggeris , sambil mencapai peningkatan prestasi yang ketara dalam ketepatan;

2. Prestasi model GIC melebihi model berasaskan Perhatian dan RNN-transduser dengan skala parameter yang sama, dan mempunyai kelebihan penyahkodan bukan autoregresif

membawa beberapa kali peningkatan dalam kelajuan penyahkodan ;

3. Berbanding dengan model CTC asal, GIC mempunyai peningkatan prestasi relatif jauh lebih daripada 10%

dalam berbilang set data sumber terbuka.

Pengubah Kesimpulan berdasarkan model

Transformer Kesimpulan di bawah model

GIC membawa peningkatan hebat kepada prestasi model CTC. Berbanding dengan model CTC asal, modul GIC membawa kira-kira 2M parameter tambahan Antaranya, lapisan linear yang digunakan untuk mengira kehilangan CTC tambahan lapisan tengah dikongsi dengan lapisan terakhir dan tidak membawa parameter tambahan. Berbilang lapisan tengah berkongsi lapisan pembenaman, membawakan 256*5000 parameter yang lebih kurang sama dengan 1.3M. Di samping itu, jumlah parameter tambahan yang diperlukan untuk berbilang unit pintu kawalan ialah 256*256*2*k, berjumlah kira-kira 0.6M.

Teknologi terkemuka mencipta perniagaan yang maju

GIC dalam kertas kerja telah digunakan dalam perniagaan semakan kandungan NetEase Yidun.

Sebagai jenama kawalan risiko kandungan digital sehenti di bawah NetEase Intelligence, Yidun telah lama menumpukan pada penyelidikan dan pembangunan teknologi serta inovasi dalam kawalan risiko keselamatan kandungan digital dan maklumat anti-spam. Antaranya, untuk kandungan digital yang menggunakan bunyi sebagai pembawa, Yidun menyediakan pelbagai enjin audit kandungan audio, termasuk pelbagai jenis kandungan audio seperti lagu, radio, program TV, siaran langsung dan sebagainya, untuk mengesan dan menapis kandungan dengan segera. yang mengandungi kandungan sensitif, menyalahi undang-undang dan kesat Suara kandungan pengiklanan, dengan itu mengurangkan kesan sosial kandungan buruk dan mewujudkan persekitaran rangkaian yang baik.

Untuk audio dengan kandungan semantik tertentu, Yidun menggunakan teknologi pengecaman pertuturan untuk menyalin kandungan pertuturan dalam fail audio ke dalam kandungan teks, dan kemudian menggunakan modul pengesanan untuk menganalisis dan memproses teks, dengan itu merealisasikan semakan dan penapisan automatik audio kandungan.

Oleh itu, ketepatan pengecaman pertuturan berkait rapat dengan kecekapan dan ketepatan semakan kandungan audio, yang secara langsung akan menjejaskan keselamatan dan kestabilan operasi perniagaan pelanggan.

Aplikasi GIC dalam semakan kandungan dalam kertas kerja telah mencapai peningkatan yang ketara. Dalam proses aplikasi sebenar, terdapat dua hiperparameter yang perlu dinyahpepijat, iaitu lambda pekali pembelajaran pelbagai tugas dan bilangan lapisan perantaraan k. Dalam struktur pengekod 18 lapisan, kami mendapati bahawa k=5 dan lambda=0.5 mempunyai keputusan eksperimen yang lebih baik. Kami kemudian mula dengan tetapan ini dan memperhalusinya untuk menentukan hiperparameter optimum.

Wira di sebalik tabir: NetEase Zhiqi Yidun AI Lab

Ini bukan kali pertama pasukan Yidun AI Lab menerima penghormatan dengan spesifikasi sedemikian.

Sebagai pasukan teknikal di bawah Kepintaran NetEase yang sentiasa berada di barisan hadapan dalam penyelidikan kecerdasan buatan, Yidun AI Lab komited untuk membina keupayaan teknologi AI yang komprehensif, teliti, selamat dan boleh dipercayai di sekitar penghalusan, pemberat ringan dan ketangkasan, serta sentiasa menambah baik Tahap perkhidmatan kawalan risiko kandungan digital. Sebelum ini, pasukan

telah memenangi berbilang kejohanan pertandingan algoritma AI dan anugerah penting:

Pertandingan Kepintaran Buatan China yang pertama pada tahun 2019, sijil peringkat A tahap tertinggi dalam trek pengecaman bendera

Pertandingan Kepintaran Buatan China ke-2 pada tahun 2020, sijil peringkat A tertinggi dalam trek pengesanan pemalsuan dalam video

Pertandingan Kepintaran Buatan China ke-3 pada tahun 2021, dua sijil peringkat A paling maju untuk pengesanan palsu dalam video dan trek pengesanan palsu dalam audio

2021 "Bintang Inovasi" dan "Tokoh Inovatif" Perikatan Pembangunan Industri Kepintaran Buatan China

Persidangan Akademik Komunikasi Pertuturan Manusia-Komputer Kebangsaan Ke-16 (NCMMSC2021) "Pertandingan Pengecaman Multimodal Pelbagai Bahasa Video Panjang dan Pendek" - Juara Landasan Berganda Kata Kunci Langsung (VKW) Video Panjang dan Pendek Cina

Menerima hadiah pertama Anugerah Kemajuan Sains dan Teknologi daripada Kerajaan Wilayah Zhejiang pada tahun 2021

Pemenang Pertandingan Pengecaman Sari Kata Berbilang Modal ICPR 2022 (Pertandingan MSR, pertandingan pengecaman sari kata berbilang modal yang pertama di China) menjejaki tiga "Sistem Pengecaman Sari Kata Pelbagai Modal yang menyepadukan penglihatan dan audio"

Masa depan sudah tiba, dan masa untuk iPhone berkuasa AI telah tiba. Yidun telah berjaya memasuki dewan akademik fonetik hari ini, dan pada masa hadapan, teknologi akan membawa pencapaian dan kemajuan kepada semua aspek perniagaan, dan Yidun akan sentiasa berada di sisi anda.

网易易盾 AI Lab 论文入选 ICASSP 2023！黑科技让语音识别越“听”越准

Atas ialah kandungan terperinci Kertas NetEase Yidun AI Lab dipilih untuk ICASSP 2023! Teknologi hitam menjadikan pengecaman pertuturan lebih 'mendengar' dan lebih tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

4 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

4 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

1 bulan yang lalu By DDD

Panduan Atomfall: Lokasi Item, Panduan Pencarian, dan Petua

1 bulan yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7700

Tutorial Java

1640

Tutorial CakePHP

1393

Tutorial Laravel

1287

Tutorial PHP

1230

Tunjukkan Lagi

Related knowledge

Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Apr 02, 2025 pm 06:10 PM

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

Adakah chatgpt 4 o tersedia? Mar 28, 2025 pm 05:29 PM

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

Bermula dengan Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta's Llama 3.2: Lompat ke hadapan dalam Multimodal dan Mobile AI META baru -baru ini melancarkan Llama 3.2, kemajuan yang ketara dalam AI yang memaparkan keupayaan penglihatan yang kuat dan model teks ringan yang dioptimumkan untuk peranti mudah alih. Membina kejayaan o

CHATBOTS AI terbaik berbanding (Chatgpt, Gemini, Claude & amp; Lagi) Apr 02, 2025 pm 06:09 PM

Artikel ini membandingkan chatbots AI seperti Chatgpt, Gemini, dan Claude, yang memberi tumpuan kepada ciri -ciri unik mereka, pilihan penyesuaian, dan prestasi dalam pemprosesan bahasa semula jadi dan kebolehpercayaan.

Pembantu Menulis AI Teratas untuk Meningkatkan Penciptaan Kandungan Anda Apr 02, 2025 pm 06:11 PM

Artikel ini membincangkan pembantu penulisan AI terkemuka seperti Grammarly, Jasper, Copy.ai, WriteSonic, dan Rytr, yang memberi tumpuan kepada ciri -ciri unik mereka untuk penciptaan kandungan. Ia berpendapat bahawa Jasper cemerlang dalam pengoptimuman SEO, sementara alat AI membantu mengekalkan nada terdiri

Sistem Rag Agentik 7 Teratas untuk Membina Ejen AI Mar 31, 2025 pm 04:25 PM

2024 menyaksikan peralihan daripada menggunakan LLMS untuk penjanaan kandungan untuk memahami kerja dalaman mereka. Eksplorasi ini membawa kepada penemuan agen AI - sistem pengendalian sistem autonomi dan keputusan dengan intervensi manusia yang minimum. Buildin

Bagaimana cara mengakses Falcon 3? - Analytics Vidhya Mar 31, 2025 pm 04:41 PM

Falcon 3: Model bahasa besar sumber terbuka revolusioner Falcon 3, lelaran terkini dalam siri Falcon yang terkenal LLMS, mewakili kemajuan yang ketara dalam teknologi AI. Dibangunkan oleh Institut Inovasi Teknologi (TII), ini terbuka

Memilih Penjana Suara AI Terbaik: Pilihan Teratas Ditinjau Apr 02, 2025 pm 06:12 PM

Artikel ini mengulas penjana suara AI atas seperti Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson, dan Descript, memberi tumpuan kepada ciri -ciri mereka, kualiti suara, dan kesesuaian untuk keperluan yang berbeza.

See all articles