Bagaimana untuk membangunkan pengecaman pertuturan
Pemahaman mendalam tentang bahasa semula jadi melalui penggunaan teknologi pembelajaran mendalam sentiasa menjadi tumpuan orang ramai. Anda tidak perlu mencarinya untuk mendengar muzik, anda tidak perlu menggunakan tangan anda untuk menghidupkan lampu, dan penghawa dingin boleh memahami suara anda... Adegan ini ditunjukkan dalam banyak karya filem dan televisyen , dan mereka juga mewakili konsep "kehidupan pintar" dalam fikiran ramai orang. Berdasarkan ini, dalam peningkatan pembangunan kecerdasan buatan, pemprosesan bahasa semula jadi telah menjadi medan pertempuran untuk perusahaan besar dan institusi penyelidikan saintifik.
Pada masa ini, trek interaksi suara telah menghimpunkan gergasi Internet, syarikat perkakasan terkenal, platform e-dagang, pengeluar peralatan rumah tradisional dan pelbagai syarikat permulaan kecerdasan buatan , terutamanya dalam beberapa tahun kebelakangan ini Pada tahun 2017, populariti produk interaksi suara yang diwakili oleh pembesar suara pintar di dalam dan luar negara telah banyak merangsang aplikasi dan pembangunan teknologi interaksi suara.
Aplikasi telah dilaksanakan dalam banyak bidang
Kebelakangan ini, perkakasan rumah pintar yang paling popular sudah pasti pembesar suara Xiaomi AI. Sebaik sahaja produk ini dilancarkan, ia menyebabkan kesan yang besar dalam pasaran Ia dipanggil "pembesar suara dengan pengalaman interaktif terbaik", "orang yang bertanggungjawab dalam industri pembesar suara pintar", "pada masa ini perkakasan pintar 'paling popular'" oleh ramai. media... Pada pendapat editor, pembesar suara Xiaomi AI sangat baik, ya, tetapi tidak setakat yang mereka banggakan. Berdasarkan pengalaman penggunaan khusus orang di sekeliling editor, keupayaan pengecaman pertuturannya tidak begitu cemerlang dan tidak jauh berbeza daripada produk serupa arus perdana di pasaran. Kelebihan terbesarnya ialah dalam rantaian ekologi Melalui pembesar suara Xiaomi AI, ia boleh mengawal lampu meja Xiaomi, robot penyapu Xiaomi, kipas lantai Xiaomi dan peralatan perabot sokongan lain. Tidak dinafikan bahawa ini akan membawa orang selangkah lebih dekat kepada kehidupan pintar.
Dalam bidang kereta dan peranti mudah alih pintar, fungsi interaksi suara telah menjadi sangat popular. Semasa memandu, orang ramai sering tiada masa terluang dan tidak sepatutnya menggunakan tangan mereka untuk mengendalikan telefon bimbit mereka Pada masa ini, suara dalam kereta telah menjadi satu keperluan dan ciri standard Internet Kenderaan. Dalam era semasa ini di mana sambungan pintar dan pemanduan tanpa pemandu sangat popular, kereta baharu yang tidak mempunyai beberapa teknologi hitam pengecaman suara nampaknya terlalu malu untuk menggunakannya. Sistem SYNC Ford, sistem komunikasi dan hiburan multimedia dalam kenderaan Ford yang dilengkapi khas untuk telefon mudah alih dan pemain media digital, kini merupakan kes yang berjaya menggunakan teknologi interaksi suara dalam sistem dalam kenderaan dan telah digunakan secara meluas dalam banyak siri kenderaan Ford. Selepas gergasi Internet Apple melancarkan aplikasi pembantu suara pintar Siri dalam iPhone 4Snya, Google turut melancarkan perkhidmatan carian suara dan soal jawab pintar GoogleNow dalam sistem pengendalian telefon pintar Androidnya, Microsoft turut menggunakan teknologi suara pada Windows Phone, dan Samsung turut melancarkan ia pada masa yang sesuai.
Dalam bidang kewangan. Teknologi pengecaman pertuturan juga ada tempatnya. Baru-baru ini, China Construction Bank membuka cawangan perkhidmatan automatik di Daerah Huangpu, Shanghai, tempat robot melayani pelanggan. Robot ini dilengkapi dengan perisian pengecaman imbasan muka, yang boleh menjawab kebanyakan soalan pelanggan dan menyelesaikan kebanyakan keperluan perniagaan bank jalan raya biasa. Ia juga dilengkapi dengan perkhidmatan bantuan manual dan perkhidmatan profesional lain untuk memenuhi keperluan peribadi. Pelanggan diterima oleh robot, yang menggunakan fungsi pengecaman suara untuk berkomunikasi dengan orang ramai dan menjawab soalan pelanggan. Mereka juga boleh melengkapkan kebanyakan perkara yang boleh dilakukan oleh perkhidmatan manusia, termasuk membuka akaun, memindahkan wang dan melabur.
Selain itu, dalam bidang runcit baharu, aplikasi teknologi suara pintar juga sentiasa berkembang. Sebagai contoh, pada 18 Disember 2017, iFlytek dan Red Star Macalline mengumumkan pelan kerjasama strategik Pada masa hadapan, robot panduan membeli-belah pintar "Meimei" yang dibangunkan oleh iFlytek akan dilancarkan di kedai-kedai Red Star Macalline di seluruh negara.
Selain interaksi suara, pertuturan ke teks juga menjadi topik hangat dalam teknologi pengecaman pertuturan semasa. Pada zaman awal, fungsi ini menjadi kegemaran wartawan Menggunakan fungsi ini untuk mengatur manuskrip temu bual dan manuskrip ucapan dapat meningkatkan kecekapan kerja pada masa kini, fungsi ini diterima oleh orang biasa, dan boleh digunakan oleh orang tua dan orang muda mengalami kemalasan dan kanser Fungsi ini menggantikan menaip.
Hari ini, kemasukan modal, sokongan dasar dan pengembangan pasaran yang berulang telah menjadikan teknologi suara semakin matang, dan pasaran suara global juga telah memulakan tempoh pembangunan keemasan untuk pelaksanaan aplikasi. Menurut statistik yang berkaitan, skala industri suara pintar pada tahun 2016 hampir mencecah 6 bilion yuan, dan akan melebihi 10 bilion yuan pada 2017, peningkatan tahun ke tahun kira-kira 69%.
Status teknologi semasa tidak memuaskan
Berbeza dengan percambahan pengecaman pertuturan dalam banyak bidang, perkembangan teknologi pengecaman pertuturan agak perlahan dalam situasi ini, teknologi pengecaman pertuturan menemui banyak orang masalah dalam aplikasi praktikal.
Banyak syarikat kini mengatakan bahawa kadar pengecaman pertuturan mereka telah mencapai 97% atau bahkan 98%, tetapi dalam aplikasi sebenar, hasilnya tidak memuaskan. Untuk memberikan contoh yang lebih meyakinkan, sistem pengecaman pertuturan bahasa Cina yang dibangunkan oleh IBMT.JWatson Research Institute telah menduduki tempat pertama dalam pertandingan yang ditaja oleh DARPA di Amerika Syarikat selama tiga tahun berturut-turut Apabila sistem itu mengiktiraf program "News Network", yang kadar ralat adalah Kurang daripada 5%, tetapi apabila mengenal pasti kandungan lain, jurang adalah sangat besar. Dalam aplikasi praktikal, kadar pengecaman dipengaruhi terutamanya oleh faktor berikut:
Untuk pengecaman pertuturan Cina, dialek atau loghat akan mengurangkan kadar pengecaman.
Bunyi yang kuat di tempat awam mempunyai kesan yang besar pada kesan pengecaman Walaupun dalam persekitaran makmal, menaip pada papan kekunci dan menggerakkan mikrofon akan menjadi bunyi latar belakang.
Sampuk soalan Jika orang itu berhenti seketika semasa bercakap, mesin tidak akan dapat menyambungkan konteks dengan baik untuk menjadikan maksudnya lancar.
Di sini, timbul pula isu "bahasa lisan". Ia melibatkan pemahaman bahasa semula jadi dan akustik. Matlamat utama teknologi pengecaman pertuturan adalah untuk membolehkan pengguna mempunyai "perbualan manusia-mesin" yang semula jadi seperti "perbualan manusia dengan manusia Walau bagaimanapun, sebaik sahaja pengguna melakukan input suara dengan bercakap dengan manusia, tatabahasa bahasa pertuturan tidak diseragamkan dan Susunan kata yang tidak normal akan membawa kesukaran kepada analisis dan pemahaman semantik.
Lelaran teknikal pengecaman pertuturan
Sebelum ini, sesetengah orang menyatakan bahawa isu seperti loghat dan perbendaharaan kata baharu boleh diselesaikan melalui pengumpulan data dalam aplikasi praktikal teknologi pengecaman pertuturan. Apabila jumlah data bertambah, masalah ini dapat diselesaikan.
Dan masalah lain seperti "gangguan" memerlukan pelbagai model pembelajaran mendalam, seperti DNN, CNN, BLSTM (rangkaian neural memori jangka pendek dua arah), dsb., serta algoritma baharu untuk menyelesaikannya secara beransur-ansur .
Penggunaan teknologi selalunya memerlukan proses berulang Ia perlu berada dalam talian terlebih dahulu, dan kemudian mengumpul data di tempat kejadian untuk menilai, mengoptimumkan model dan meningkatkan pengalaman pengguna. Ia memerlukan beberapa lelaran untuk mencapai hasil yang terbaik. Teknologi AI lain adalah serupa. Ramai pengguna teknologi AI hari ini dengan mudah menyamakan keupayaan teknologi dan merasakan bahawa mereka harus melihat hasil serta-merta sebaik sahaja ia diperkenalkan. Apabila anda melihat bahawa keputusan sebenar tidak memuaskan, anda akan merasai jurang yang besar, kekecewaan dan berputus asa. Memang benar teknologi suara pintar telah mencapai tahap aplikasi GF, tetapi apabila ia benar-benar dilaksanakan, kita mesti memahami sepenuhnya kesukaran yang mungkin dihadapi dan bersedia secara mental untuk pertempuran yang berlarutan.
Ringkasan
Boleh diramalkan dalam tempoh lima hingga sepuluh tahun yang lalu, aplikasi sistem pengecaman pertuturan akan lebih meluas. Pelbagai produk sistem pengecaman pertuturan akan muncul di pasaran. Orang ramai juga akan menyesuaikan corak pertuturan mereka untuk menampung pelbagai sistem pengecaman. Tidak mustahil untuk membina sistem pengecaman pertuturan yang setanding dengan manusia dalam jangka pendek Membina sistem sebegini masih menjadi cabaran besar bagi umat manusia. Sukar untuk diramalkan bila sistem pengecaman pertuturan selengkap manusia boleh dibina. Sama seperti pada tahun 1960-an, siapa yang boleh meramalkan bahawa teknologi VLSI hari ini akan memberi kesan yang besar kepada masyarakat kita.
Atas ialah kandungan terperinci Bagaimana untuk membangunkan pengecaman pertuturan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



<p>Sistem pengendalian terbaharu Microsoft, Windows 11, juga menyediakan pilihan pengecaman pertuturan yang serupa dengan pilihan dalam Windows 10. </p><p>Perlu diingat bahawa anda boleh menggunakan pengecaman pertuturan di luar talian atau menggunakannya melalui sambungan Internet. Pengecaman pertuturan membolehkan anda menggunakan suara anda untuk mengawal aplikasi tertentu dan juga mendikte teks ke dalam dokumen Word. </p><p>Perkhidmatan pengecaman pertuturan Microsoft tidak memberikan anda set ciri yang lengkap. Pengguna yang berminat boleh menyemak beberapa apl pengecaman pertuturan terbaik kami

Seperti Windows 10, komputer Windows 11 mempunyai fungsi teks ke pertuturan. Juga dikenali sebagai TTS, text-to-speech membolehkan anda menulis dengan suara anda sendiri. Apabila anda bercakap ke dalam mikrofon, komputer menggunakan gabungan pengecaman teks dan sintesis pertuturan untuk menulis teks pada skrin. Ini adalah alat yang hebat jika anda menghadapi masalah membaca atau menulis kerana anda boleh melakukan aliran kesedaran semasa bercakap. Anda boleh mengatasi sekatan penulis dengan alat berguna ini. TTS juga boleh membantu anda jika anda ingin menjana skrip alih suara untuk video, menyemak sebutan perkataan tertentu atau mendengar teks dengan kuat melalui Microsoft Narrator. Selain itu, perisian ini bagus untuk menambah tanda baca yang betul, jadi anda boleh mempelajari tatabahasa yang baik juga. suara

Bagaimanakah kami melaksanakan beberapa fungsi sari kata yang dijana suara pada platform ini Apabila kami membuat beberapa video, untuk mendapatkan lebih kualiti, atau semasa menceritakan beberapa cerita, kami perlu menambah sari kata kami, supaya semua orang dapat memahami dengan lebih baik maklumat sesetengahnya? daripada video di atas. Ia juga memainkan peranan dalam ekspresi, tetapi ramai pengguna tidak begitu biasa dengan pengecaman pertuturan automatik dan penjanaan sari kata Tidak kira di mana ia berada, kami boleh memudahkan anda membuat pelbagai pilihan , jika anda juga menyukainya mesti tidak ketinggalan. Kita perlu perlahan-lahan memahami beberapa kemahiran berfungsi, dll., jadi cepat dan lihat dengan editor, jangan ketinggalan. ,

Cara menggunakan WebSocket dan JavaScript untuk melaksanakan sistem pengecaman pertuturan dalam talian Pengenalan: Dengan perkembangan teknologi yang berterusan, teknologi pengecaman pertuturan telah menjadi bahagian penting dalam bidang kecerdasan buatan. Sistem pengecaman pertuturan dalam talian berdasarkan WebSocket dan JavaScript mempunyai ciri kependaman rendah, masa nyata dan platform merentas, dan telah menjadi penyelesaian yang digunakan secara meluas. Artikel ini akan memperkenalkan cara menggunakan WebSocket dan JavaScript untuk melaksanakan sistem pengecaman pertuturan dalam talian.

1. Masukkan panel kawalan, cari pilihan [Pengecaman Pertuturan] dan hidupkannya. 2. Apabila halaman pengecaman pertuturan muncul, pilih [Pilihan Suara Lanjutan]. 3. Akhir sekali, nyahtanda [Run speech recognition at startup] dalam lajur Tetapan Pengguna dalam tetingkap Voice Properties.

Isu kualiti audio dalam pengecaman pertuturan suara memerlukan contoh kod khusus Dalam beberapa tahun kebelakangan ini, dengan perkembangan pesat teknologi kecerdasan buatan, pengecaman pertuturan suara (Pengecaman Pertuturan Automatik, dirujuk sebagai ASR) telah digunakan dan diselidik secara meluas. Walau bagaimanapun, dalam aplikasi praktikal, kami sering menghadapi masalah kualiti audio, yang secara langsung menjejaskan ketepatan dan prestasi algoritma ASR. Artikel ini akan menumpukan pada isu kualiti audio dalam pengecaman pertuturan suara dan memberikan contoh kod khusus. kualiti audio untuk pertuturan suara

Masalah variasi pembesar suara dalam pengecaman jantina suara memerlukan contoh kod khusus Dengan perkembangan pesat teknologi pertuturan, pengecaman jantina suara telah menjadi bidang yang semakin penting. Ia digunakan secara meluas dalam banyak senario aplikasi, seperti perkhidmatan pelanggan telefon, pembantu suara, dll. Walau bagaimanapun, dalam pengecaman jantina suara, kita sering menghadapi cabaran, iaitu, kebolehubahan pembesar suara. Variasi pembesar suara merujuk kepada perbezaan ciri fonetik suara individu yang berbeza. Kerana ciri suara individu dipengaruhi oleh banyak faktor, seperti jantina, umur, suara, dsb.

Pengecaman pertuturan ialah satu bidang dalam kecerdasan buatan yang membolehkan komputer memahami pertuturan manusia dan menukarnya kepada teks. Teknologi ini digunakan dalam peranti seperti Alexa dan pelbagai aplikasi chatbot. Perkara yang paling biasa kami lakukan ialah transkripsi suara, yang boleh ditukar kepada transkrip atau sari kata. Perkembangan terkini dalam model terkini seperti wav2vec2, Conformer dan Hubert telah memajukan bidang pengecaman pertuturan dengan ketara. Model ini menggunakan teknik yang belajar daripada audio mentah tanpa memerlukan data berlabel manusia, membolehkan mereka menggunakan set data besar pertuturan tidak berlabel dengan cekap. Mereka juga telah dilanjutkan untuk menggunakan sehingga 1,000,000 jam data latihan, jauh lebih banyak daripada digunakan dalam set data penyeliaan akademik
