Bagaimana untuk membangunkan pengecaman pertuturan-AI-php.cn

Jadual Kandungan

Aplikasi telah dilaksanakan dalam banyak bidang

Status teknologi semasa tidak memuaskan

Lelaran teknikal pengecaman pertuturan

Ringkasan" >Ringkasan

Rumah

Peranti teknologi

Bagaimana untuk membangunkan pengecaman pertuturan

PHPz

Apr 12, 2023 pm 05:01 PM

pengecaman pertuturan

Pemahaman mendalam tentang bahasa semula jadi melalui penggunaan teknologi pembelajaran mendalam sentiasa menjadi tumpuan orang ramai. Anda tidak perlu mencarinya untuk mendengar muzik, anda tidak perlu menggunakan tangan anda untuk menghidupkan lampu, dan penghawa dingin boleh memahami suara anda... Adegan ini ditunjukkan dalam banyak karya filem dan televisyen , dan mereka juga mewakili konsep "kehidupan pintar" dalam fikiran ramai orang. Berdasarkan ini, dalam peningkatan pembangunan kecerdasan buatan, pemprosesan bahasa semula jadi telah menjadi medan pertempuran untuk perusahaan besar dan institusi penyelidikan saintifik.

Bagaimana untuk membangunkan pengecaman pertuturan

Pada masa ini, trek interaksi suara telah menghimpunkan gergasi Internet, syarikat perkakasan terkenal, platform e-dagang, pengeluar peralatan rumah tradisional dan pelbagai syarikat permulaan kecerdasan buatan , terutamanya dalam beberapa tahun kebelakangan ini Pada tahun 2017, populariti produk interaksi suara yang diwakili oleh pembesar suara pintar di dalam dan luar negara telah banyak merangsang aplikasi dan pembangunan teknologi interaksi suara.

Aplikasi telah dilaksanakan dalam banyak bidang

Kebelakangan ini, perkakasan rumah pintar yang paling popular sudah pasti pembesar suara Xiaomi AI. Sebaik sahaja produk ini dilancarkan, ia menyebabkan kesan yang besar dalam pasaran Ia dipanggil "pembesar suara dengan pengalaman interaktif terbaik", "orang yang bertanggungjawab dalam industri pembesar suara pintar", "pada masa ini perkakasan pintar 'paling popular'" oleh ramai. media... Pada pendapat editor, pembesar suara Xiaomi AI sangat baik, ya, tetapi tidak setakat yang mereka banggakan. Berdasarkan pengalaman penggunaan khusus orang di sekeliling editor, keupayaan pengecaman pertuturannya tidak begitu cemerlang dan tidak jauh berbeza daripada produk serupa arus perdana di pasaran. Kelebihan terbesarnya ialah dalam rantaian ekologi Melalui pembesar suara Xiaomi AI, ia boleh mengawal lampu meja Xiaomi, robot penyapu Xiaomi, kipas lantai Xiaomi dan peralatan perabot sokongan lain. Tidak dinafikan bahawa ini akan membawa orang selangkah lebih dekat kepada kehidupan pintar.

Dalam bidang kereta dan peranti mudah alih pintar, fungsi interaksi suara telah menjadi sangat popular. Semasa memandu, orang ramai sering tiada masa terluang dan tidak sepatutnya menggunakan tangan mereka untuk mengendalikan telefon bimbit mereka Pada masa ini, suara dalam kereta telah menjadi satu keperluan dan ciri standard Internet Kenderaan. Dalam era semasa ini di mana sambungan pintar dan pemanduan tanpa pemandu sangat popular, kereta baharu yang tidak mempunyai beberapa teknologi hitam pengecaman suara nampaknya terlalu malu untuk menggunakannya. Sistem SYNC Ford, sistem komunikasi dan hiburan multimedia dalam kenderaan Ford yang dilengkapi khas untuk telefon mudah alih dan pemain media digital, kini merupakan kes yang berjaya menggunakan teknologi interaksi suara dalam sistem dalam kenderaan dan telah digunakan secara meluas dalam banyak siri kenderaan Ford. Selepas gergasi Internet Apple melancarkan aplikasi pembantu suara pintar Siri dalam iPhone 4Snya, Google turut melancarkan perkhidmatan carian suara dan soal jawab pintar GoogleNow dalam sistem pengendalian telefon pintar Androidnya, Microsoft turut menggunakan teknologi suara pada Windows Phone, dan Samsung turut melancarkan ia pada masa yang sesuai.

Dalam bidang kewangan. Teknologi pengecaman pertuturan juga ada tempatnya. Baru-baru ini, China Construction Bank membuka cawangan perkhidmatan automatik di Daerah Huangpu, Shanghai, tempat robot melayani pelanggan. Robot ini dilengkapi dengan perisian pengecaman imbasan muka, yang boleh menjawab kebanyakan soalan pelanggan dan menyelesaikan kebanyakan keperluan perniagaan bank jalan raya biasa. Ia juga dilengkapi dengan perkhidmatan bantuan manual dan perkhidmatan profesional lain untuk memenuhi keperluan peribadi. Pelanggan diterima oleh robot, yang menggunakan fungsi pengecaman suara untuk berkomunikasi dengan orang ramai dan menjawab soalan pelanggan. Mereka juga boleh melengkapkan kebanyakan perkara yang boleh dilakukan oleh perkhidmatan manusia, termasuk membuka akaun, memindahkan wang dan melabur.

Selain itu, dalam bidang runcit baharu, aplikasi teknologi suara pintar juga sentiasa berkembang. Sebagai contoh, pada 18 Disember 2017, iFlytek dan Red Star Macalline mengumumkan pelan kerjasama strategik Pada masa hadapan, robot panduan membeli-belah pintar "Meimei" yang dibangunkan oleh iFlytek akan dilancarkan di kedai-kedai Red Star Macalline di seluruh negara.

Selain interaksi suara, pertuturan ke teks juga menjadi topik hangat dalam teknologi pengecaman pertuturan semasa. Pada zaman awal, fungsi ini menjadi kegemaran wartawan Menggunakan fungsi ini untuk mengatur manuskrip temu bual dan manuskrip ucapan dapat meningkatkan kecekapan kerja pada masa kini, fungsi ini diterima oleh orang biasa, dan boleh digunakan oleh orang tua dan orang muda mengalami kemalasan dan kanser Fungsi ini menggantikan menaip.

Hari ini, kemasukan modal, sokongan dasar dan pengembangan pasaran yang berulang telah menjadikan teknologi suara semakin matang, dan pasaran suara global juga telah memulakan tempoh pembangunan keemasan untuk pelaksanaan aplikasi. Menurut statistik yang berkaitan, skala industri suara pintar pada tahun 2016 hampir mencecah 6 bilion yuan, dan akan melebihi 10 bilion yuan pada 2017, peningkatan tahun ke tahun kira-kira 69%.

Status teknologi semasa tidak memuaskan

Berbeza dengan percambahan pengecaman pertuturan dalam banyak bidang, perkembangan teknologi pengecaman pertuturan agak perlahan dalam situasi ini, teknologi pengecaman pertuturan menemui banyak orang masalah dalam aplikasi praktikal.

Banyak syarikat kini mengatakan bahawa kadar pengecaman pertuturan mereka telah mencapai 97% atau bahkan 98%, tetapi dalam aplikasi sebenar, hasilnya tidak memuaskan. Untuk memberikan contoh yang lebih meyakinkan, sistem pengecaman pertuturan bahasa Cina yang dibangunkan oleh IBMT.JWatson Research Institute telah menduduki tempat pertama dalam pertandingan yang ditaja oleh DARPA di Amerika Syarikat selama tiga tahun berturut-turut Apabila sistem itu mengiktiraf program "News Network", yang kadar ralat adalah Kurang daripada 5%, tetapi apabila mengenal pasti kandungan lain, jurang adalah sangat besar. Dalam aplikasi praktikal, kadar pengecaman dipengaruhi terutamanya oleh faktor berikut:

Untuk pengecaman pertuturan Cina, dialek atau loghat akan mengurangkan kadar pengecaman.

Bunyi yang kuat di tempat awam mempunyai kesan yang besar pada kesan pengecaman Walaupun dalam persekitaran makmal, menaip pada papan kekunci dan menggerakkan mikrofon akan menjadi bunyi latar belakang.

Sampuk soalan Jika orang itu berhenti seketika semasa bercakap, mesin tidak akan dapat menyambungkan konteks dengan baik untuk menjadikan maksudnya lancar.

Di sini, timbul pula isu "bahasa lisan". Ia melibatkan pemahaman bahasa semula jadi dan akustik. Matlamat utama teknologi pengecaman pertuturan adalah untuk membolehkan pengguna mempunyai "perbualan manusia-mesin" yang semula jadi seperti "perbualan manusia dengan manusia Walau bagaimanapun, sebaik sahaja pengguna melakukan input suara dengan bercakap dengan manusia, tatabahasa bahasa pertuturan tidak diseragamkan dan Susunan kata yang tidak normal akan membawa kesukaran kepada analisis dan pemahaman semantik.

Lelaran teknikal pengecaman pertuturan

Sebelum ini, sesetengah orang menyatakan bahawa isu seperti loghat dan perbendaharaan kata baharu boleh diselesaikan melalui pengumpulan data dalam aplikasi praktikal teknologi pengecaman pertuturan. Apabila jumlah data bertambah, masalah ini dapat diselesaikan.

Dan masalah lain seperti "gangguan" memerlukan pelbagai model pembelajaran mendalam, seperti DNN, CNN, BLSTM (rangkaian neural memori jangka pendek dua arah), dsb., serta algoritma baharu untuk menyelesaikannya secara beransur-ansur .

Penggunaan teknologi selalunya memerlukan proses berulang Ia perlu berada dalam talian terlebih dahulu, dan kemudian mengumpul data di tempat kejadian untuk menilai, mengoptimumkan model dan meningkatkan pengalaman pengguna. Ia memerlukan beberapa lelaran untuk mencapai hasil yang terbaik. Teknologi AI lain adalah serupa. Ramai pengguna teknologi AI hari ini dengan mudah menyamakan keupayaan teknologi dan merasakan bahawa mereka harus melihat hasil serta-merta sebaik sahaja ia diperkenalkan. Apabila anda melihat bahawa keputusan sebenar tidak memuaskan, anda akan merasai jurang yang besar, kekecewaan dan berputus asa. Memang benar teknologi suara pintar telah mencapai tahap aplikasi GF, tetapi apabila ia benar-benar dilaksanakan, kita mesti memahami sepenuhnya kesukaran yang mungkin dihadapi dan bersedia secara mental untuk pertempuran yang berlarutan.

Bagaimana untuk membangunkan pengecaman pertuturan

Ringkasan

Boleh diramalkan dalam tempoh lima hingga sepuluh tahun yang lalu, aplikasi sistem pengecaman pertuturan akan lebih meluas. Pelbagai produk sistem pengecaman pertuturan akan muncul di pasaran. Orang ramai juga akan menyesuaikan corak pertuturan mereka untuk menampung pelbagai sistem pengecaman. Tidak mustahil untuk membina sistem pengecaman pertuturan yang setanding dengan manusia dalam jangka pendek Membina sistem sebegini masih menjadi cabaran besar bagi umat manusia. Sukar untuk diramalkan bila sistem pengecaman pertuturan selengkap manusia boleh dibina. Sama seperti pada tahun 1960-an, siapa yang boleh meramalkan bahawa teknologi VLSI hari ini akan memberi kesan yang besar kepada masyarakat kita.

Atas ialah kandungan terperinci Bagaimana untuk membangunkan pengecaman pertuturan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7552

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Bagaimana untuk melumpuhkan pengecaman pertuturan dalam Windows 11 May 01, 2023 am 09:13 AM

Sistem pengendalian terbaharu Microsoft, Windows 11, juga menyediakan pilihan pengecaman pertuturan yang serupa dengan pilihan dalam Windows 10. Perlu diingat bahawa anda boleh menggunakan pengecaman pertuturan di luar talian atau menggunakannya melalui sambungan Internet. Pengecaman pertuturan membolehkan anda menggunakan suara anda untuk mengawal aplikasi tertentu dan juga mendikte teks ke dalam dokumen Word. Perkhidmatan pengecaman pertuturan Microsoft tidak memberikan anda set ciri yang lengkap. Pengguna yang berminat boleh menyemak beberapa apl pengecaman pertuturan terbaik kami

Bagaimanakah cara saya menggunakan teknologi pengecaman teks ke pertuturan dan pertuturan pada Windows 11? Apr 24, 2023 pm 03:28 PM

Seperti Windows 10, komputer Windows 11 mempunyai fungsi teks ke pertuturan. Juga dikenali sebagai TTS, text-to-speech membolehkan anda menulis dengan suara anda sendiri. Apabila anda bercakap ke dalam mikrofon, komputer menggunakan gabungan pengecaman teks dan sintesis pertuturan untuk menulis teks pada skrin. Ini adalah alat yang hebat jika anda menghadapi masalah membaca atau menulis kerana anda boleh melakukan aliran kesedaran semasa bercakap. Anda boleh mengatasi sekatan penulis dengan alat berguna ini. TTS juga boleh membantu anda jika anda ingin menjana skrip alih suara untuk video, menyemak sebutan perkataan tertentu atau mendengar teks dengan kuat melalui Microsoft Narrator. Selain itu, perisian ini bagus untuk menambah tanda baca yang betul, jadi anda boleh mempelajari tatabahasa yang baik juga. suara

Cara mengenali pertuturan secara automatik dan menjana sari kata dalam keratan filem Pengenalan kepada kaedah menjana sari kata secara automatik Mar 14, 2024 pm 08:10 PM

Bagaimanakah kami melaksanakan beberapa fungsi sari kata yang dijana suara pada platform ini Apabila kami membuat beberapa video, untuk mendapatkan lebih kualiti, atau semasa menceritakan beberapa cerita, kami perlu menambah sari kata kami, supaya semua orang dapat memahami dengan lebih baik maklumat sesetengahnya? daripada video di atas. Ia juga memainkan peranan dalam ekspresi, tetapi ramai pengguna tidak begitu biasa dengan pengecaman pertuturan automatik dan penjanaan sari kata Tidak kira di mana ia berada, kami boleh memudahkan anda membuat pelbagai pilihan , jika anda juga menyukainya mesti tidak ketinggalan. Kita perlu perlahan-lahan memahami beberapa kemahiran berfungsi, dll., jadi cepat dan lihat dengan editor, jangan ketinggalan. ,

Bagaimana untuk melaksanakan sistem pengecaman pertuturan dalam talian menggunakan WebSocket dan JavaScript Dec 17, 2023 pm 02:54 PM

Cara menggunakan WebSocket dan JavaScript untuk melaksanakan sistem pengecaman pertuturan dalam talian Pengenalan: Dengan perkembangan teknologi yang berterusan, teknologi pengecaman pertuturan telah menjadi bahagian penting dalam bidang kecerdasan buatan. Sistem pengecaman pertuturan dalam talian berdasarkan WebSocket dan JavaScript mempunyai ciri kependaman rendah, masa nyata dan platform merentas, dan telah menjadi penyelesaian yang digunakan secara meluas. Artikel ini akan memperkenalkan cara menggunakan WebSocket dan JavaScript untuk melaksanakan sistem pengecaman pertuturan dalam talian.

Kaedah terperinci untuk mematikan pengecaman pertuturan dalam sistem WIN10 Mar 27, 2024 pm 02:36 PM

1. Masukkan panel kawalan, cari pilihan [Pengecaman Pertuturan] dan hidupkannya. 2. Apabila halaman pengecaman pertuturan muncul, pilih [Pilihan Suara Lanjutan]. 3. Akhir sekali, nyahtanda [Run speech recognition at startup] dalam lajur Tetapan Pengguna dalam tetingkap Voice Properties.

Isu kualiti audio dalam pengecaman pertuturan vokal Oct 08, 2023 am 08:28 AM

Isu kualiti audio dalam pengecaman pertuturan suara memerlukan contoh kod khusus Dalam beberapa tahun kebelakangan ini, dengan perkembangan pesat teknologi kecerdasan buatan, pengecaman pertuturan suara (Pengecaman Pertuturan Automatik, dirujuk sebagai ASR) telah digunakan dan diselidik secara meluas. Walau bagaimanapun, dalam aplikasi praktikal, kami sering menghadapi masalah kualiti audio, yang secara langsung menjejaskan ketepatan dan prestasi algoritma ASR. Artikel ini akan menumpukan pada isu kualiti audio dalam pengecaman pertuturan suara dan memberikan contoh kod khusus. kualiti audio untuk pertuturan suara

Masalah variasi pembesar suara dalam pengecaman jantina suara Oct 08, 2023 pm 02:22 PM

Masalah variasi pembesar suara dalam pengecaman jantina suara memerlukan contoh kod khusus Dengan perkembangan pesat teknologi pertuturan, pengecaman jantina suara telah menjadi bidang yang semakin penting. Ia digunakan secara meluas dalam banyak senario aplikasi, seperti perkhidmatan pelanggan telefon, pembantu suara, dll. Walau bagaimanapun, dalam pengecaman jantina suara, kita sering menghadapi cabaran, iaitu, kebolehubahan pembesar suara. Variasi pembesar suara merujuk kepada perbezaan ciri fonetik suara individu yang berbeza. Kerana ciri suara individu dipengaruhi oleh banyak faktor, seperti jantina, umur, suara, dsb.

Pengecaman pertuturan menggunakan model Whisper OpenAI Apr 12, 2023 pm 05:28 PM

Pengecaman pertuturan ialah satu bidang dalam kecerdasan buatan yang membolehkan komputer memahami pertuturan manusia dan menukarnya kepada teks. Teknologi ini digunakan dalam peranti seperti Alexa dan pelbagai aplikasi chatbot. Perkara yang paling biasa kami lakukan ialah transkripsi suara, yang boleh ditukar kepada transkrip atau sari kata. Perkembangan terkini dalam model terkini seperti wav2vec2, Conformer dan Hubert telah memajukan bidang pengecaman pertuturan dengan ketara. Model ini menggunakan teknik yang belajar daripada audio mentah tanpa memerlukan data berlabel manusia, membolehkan mereka menggunakan set data besar pertuturan tidak berlabel dengan cekap. Mereka juga telah dilanjutkan untuk menggunakan sehingga 1,000,000 jam data latihan, jauh lebih banyak daripada digunakan dalam set data penyeliaan akademik

See all articles