Inhaltsverzeichnis
Anwendungen wurden in vielen Bereichen implementiert
Der aktuelle Stand der Technologie ist nicht zufriedenstellend
Technische Iteration der Spracherkennung
Zusammenfassung" >Zusammenfassung
Heim Technologie-Peripheriegeräte KI So entwickeln Sie die Spracherkennung

So entwickeln Sie die Spracherkennung

Apr 12, 2023 pm 05:01 PM
语音识别

Das tiefgreifende Verständnis natürlicher Sprache durch den Einsatz von Deep-Learning-Technologie stand schon immer im Mittelpunkt der Aufmerksamkeit der Menschen. Sie müssen nicht nachschlagen, um Musik zu hören, Sie müssen nicht Ihre Hände benutzen, um das Licht einzuschalten, und die Klimaanlage kann Ihre Stimme verstehen ... Diese Szenen werden in vielen Film- und Fernseharbeiten gezeigt , und sie repräsentieren in den Köpfen vieler Menschen auch das Konzept des „intelligenten Lebens“. Auf dieser Grundlage ist die Verarbeitung natürlicher Sprache im Zuge der rasanten Entwicklung der künstlichen Intelligenz zu einem Schlachtfeld für große Unternehmen und wissenschaftliche Forschungseinrichtungen geworden.

So entwickeln Sie die Spracherkennung

Der Sprachinteraktionspfad hat in den letzten Jahren Internetgiganten, bekannte Hardwareunternehmen, E-Commerce-Plattformen, traditionelle Haushaltsgerätehersteller und verschiedene Startups für künstliche Intelligenz zusammengebracht, insbesondere Sprachinteraktionsprodukte, die durch intelligente Lautsprecher repräsentiert werden Seine Popularität im In- und Ausland hat die Anwendung und Entwicklung der Sprachinteraktionstechnologie stark vorangetrieben.

Anwendungen wurden in vielen Bereichen implementiert

In letzter Zeit ist die beliebteste Smart-Home-Hardware zweifellos der Xiaomi AI-Lautsprecher. Als dieses Produkt auf den Markt kam, löste es große Resonanz auf dem Markt aus. Viele nannten es „den Lautsprecher mit dem besten interaktiven Erlebnis“, „die verantwortliche Person in der Smart-Speaker-Branche“ und „derzeit die ‚beliebteste‘ Smart-Hardware“. Medien... Nach Meinung des Herausgebers sind die Xiaomi AI-Lautsprecher zwar ausgezeichnet, aber nicht in dem Maße, wie sie damit prahlen. Gemessen an der spezifischen Nutzungserfahrung der Menschen in der Umgebung des Editors sind seine Spracherkennungsfähigkeiten nicht besonders herausragend und unterscheiden sich nicht wesentlich von den derzeit auf dem Markt erhältlichen Mainstream-ähnlichen Produkten. Sein größter Vorteil liegt in der ökologischen Kette. Über Xiaomi AI-Lautsprecher können Xiaomi-Schreibtischlampen, Xiaomi-Kehrroboter, Xiaomi-Bodenventilatoren und andere unterstützende Möbelgeräte gesteuert werden. Es besteht kein Zweifel, dass dies die Menschen dem intelligenten Leben einen Schritt näher bringen wird.

Im Bereich von Automobilen und intelligenten Mobilgeräten erfreuen sich Sprachinteraktionsfunktionen großer Beliebtheit. Beim Autofahren haben die Menschen oft keine Zeit übrig und sollten ihre Hände nicht zur Bedienung ihres Mobiltelefons benutzen. Heutzutage ist die Stimme im Auto zu einer Notwendigkeit und einer Standardfunktion des Internets der Fahrzeuge geworden. In der heutigen Zeit, in der intelligente Vernetzung und fahrerloses Fahren sehr beliebt sind, scheinen neue Autos, die nicht über eine schwarze Spracherkennungstechnologie verfügen, zu verlegen, diese zu nutzen. Das SYNC-System von Ford, das fahrzeuginterne Multimedia-Kommunikations- und Unterhaltungssystem von Ford, das speziell für Mobiltelefone und digitale Mediaplayer ausgestattet ist, ist derzeit ein erfolgreiches Beispiel für den Einsatz von Sprachinteraktionstechnologie in fahrzeuginternen Systemen und wird in vielen Serien von Ford-Fahrzeugen weit verbreitet eingesetzt. Nachdem der Internetriese Apple die intelligente Sprachassistentenanwendung Siri in seinem iPhone 4S eingeführt hatte, führte Google auch die intelligente Sprachsuche und den Frage- und Antwortdienst GoogleNow in seinem Android-Smartphone-Betriebssystem ein es zu gegebener Zeit.

Im Finanzbereich. Auch die Spracherkennungstechnologie hat ihren Platz. Kürzlich hat die China Construction Bank eine automatisierte Servicefiliale im Bezirk Huangpu in Shanghai eröffnet, in der Roboter Kunden bedienen. Der Roboter ist mit einer Gesichtsscan-Erkennungssoftware ausgestattet, die die meisten Kundenfragen beantworten und die meisten Geschäftsanforderungen gewöhnlicher Großbanken erfüllen kann. Er ist außerdem mit manuellen Assistenzdiensten und anderen professionellen Dienstleistungen ausgestattet, um individuelle Bedürfnisse zu erfüllen. Kunden werden von Robotern empfangen, die mithilfe von Spracherkennungsfunktionen mit Menschen kommunizieren und Fragen der Kunden beantworten. Sie können auch die meisten Aufgaben erledigen, die im Personalwesen möglich sind, darunter die Eröffnung von Konten, Geldüberweisungen und Investitionen.

Darüber hinaus nimmt auch im neuen Einzelhandelsbereich der Einsatz intelligenter Sprachtechnologie ständig zu. Beispielsweise gaben iFlytek und Red Star Macalline am 18. Dezember 2017 einen strategischen Kooperationsplan bekannt. Künftig soll der von iFlytek entwickelte intelligente Einkaufsführer-Roboter landesweit in Red Star Macalline-Filialen eingeführt werden.

Neben der Sprachinteraktion ist auch Speech-to-Text ein heißes Thema in der aktuellen Spracherkennungstechnologie. Früher war diese Funktion bei Journalisten beliebt. Die Verwendung dieser Funktion zum Organisieren von Interviewmanuskripten und Redemanuskripten kann heutzutage von normalen Menschen akzeptiert werden und kann von älteren und jungen Menschen genutzt werden an Faulheit und Krebs leiden. Diese Funktion ersetzt das Tippen.

Der Kapitalzufluss, die politische Unterstützung und die wiederholte Marktexpansion haben die Sprachtechnologie heute immer ausgereifter gemacht, und der globale Sprachmarkt hat auch eine goldene Entwicklungsphase für die Anwendungsimplementierung eingeläutet. Relevanten Statistiken zufolge lag der Umfang der intelligenten Sprachbranche im Jahr 2016 nahe bei der 6-Milliarden-Yuan-Marke und wird 2017 die 10-Milliarden-Yuan-Marke überschreiten, was einem Anstieg von etwa 69 % gegenüber dem Vorjahr entspricht.

Der aktuelle Stand der Technologie ist nicht zufriedenstellend

Im Gegensatz zur Verbreitung der Spracherkennung in vielen Bereichen ist die Entwicklung der Spracherkennungstechnologie in dieser Situation in vielen Fällen auf Schwierigkeiten gestoßen Fragen.

Viele Unternehmen sagen mittlerweile, dass ihre Spracherkennungsrate 97 % oder sogar 98 % erreicht habe, doch in tatsächlichen Anwendungen sind die Ergebnisse nicht zufriedenstellend. Um ein überzeugenderes Beispiel zu geben: Das vom IBMT.JWatson Research Institute entwickelte chinesische Spracherkennungssystem belegte drei Jahre in Folge den ersten Platz in dem von der DARPA in den Vereinigten Staaten gesponserten Wettbewerb, als das System das CCTV-Programm „News Network“ anerkannte Die Fehlerquote lag unter 5 %, aber bei der Identifizierung anderer Inhalte ist die Lücke sehr groß. In praktischen Anwendungen wird die Erkennungsrate hauptsächlich von folgenden Faktoren beeinflusst:

Bei der chinesischen Spracherkennung verringern Dialekt oder Akzent die Erkennungsrate.

Starker Lärm an öffentlichen Orten hat einen großen Einfluss auf den Erkennungseffekt. Selbst in einer Laborumgebung werden das Tippen auf der Tastatur und das Bewegen des Mikrofons zu Hintergrundgeräuschen.

Unterbrechende Fragen: Wenn jemand beim Sprechen eine Pause einlegt, kann sich die Maschine nicht gut mit dem Kontext verbinden, um die Bedeutung zu glätten.

Hier gibt es auch das Thema „mündliche Sprache“. Dabei geht es sowohl um das Verständnis natürlicher Sprache als auch um Akustik. Das ultimative Ziel der Spracherkennungstechnologie besteht darin, Benutzern eine „Mensch-Maschine-Konversation“ zu ermöglichen, die so natürlich ist wie eine „Mensch-zu-Mensch-Konversation“. Sobald der Benutzer jedoch eine Spracheingabe durchführt, indem er mit einem Menschen spricht, wird die Grammatik von Die gesprochene Sprache ist nicht standardisiert und die abnormale Wortreihenfolge führt zu Schwierigkeiten bei der semantischen Analyse und dem Verständnis.

Technische Iteration der Spracherkennung

Zuvor haben einige Leute darauf hingewiesen, dass Probleme wie Akzent und neues Vokabular durch Datenerfassung in praktischen Anwendungen der Spracherkennungstechnologie gelöst werden können. Mit zunehmender Datenmenge kann dieses Problem gelöst werden.

Andere Probleme wie „Unterbrechung“ erfordern verschiedene Deep-Learning-Modelle wie DNN, CNN, BLSTM (bidirektionales neuronales Netzwerk mit langem Kurzzeitgedächtnis) usw. sowie neue Algorithmen, um sie schrittweise zu lösen.

Der Einsatz von Technologie erfordert oft einen iterativen Prozess. Sie muss zuerst online sein und dann Daten in der Szene sammeln, um das Modell zu bewerten, zu optimieren und das Benutzererlebnis zu verbessern. Es sind mehrere Iterationen erforderlich, um die besten Ergebnisse zu erzielen. Andere KI-Technologien sind ähnlich. Viele Nutzer der KI-Technologie idealisieren heute leicht die Fähigkeiten der Technologie und sind der Meinung, dass sie unmittelbar nach ihrer Einführung sofortige Ergebnisse sehen sollten. Wenn Sie feststellen, dass die tatsächlichen Ergebnisse unbefriedigend sind, werden Sie eine große Lücke, Enttäuschung und Aufgeben verspüren. Zwar hat die intelligente Sprachtechnologie das Niveau der GF-Anwendung erreicht, aber wenn sie tatsächlich implementiert wird, müssen wir die möglicherweise auftretenden Schwierigkeiten vollständig verstehen und mental auf einen langwierigen Kampf vorbereitet sein.

So entwickeln Sie die Spracherkennung

Zusammenfassung

Es kann vorhergesagt werden, dass der Einsatz von Spracherkennungssystemen in den letzten fünf bis zehn Jahren weiter verbreitet sein wird. Es wird eine Vielzahl von Produkten für Spracherkennungssysteme auf den Markt kommen. Menschen passen ihre Sprachmuster auch an verschiedene Erkennungssysteme an. Es ist nicht möglich, kurzfristig ein mit dem Menschen vergleichbares Spracherkennungssystem aufzubauen. Wir können die Entwicklung von Spracherkennungssystemen nur Schritt für Schritt vorantreiben. Es ist schwer vorherzusagen, wann ein so vollständiges Spracherkennungssystem wie ein Mensch gebaut werden kann. Genau wie in den 1960er Jahren: Wer hätte ahnen können, dass die heutige VLSI-Technologie einen so großen Einfluss auf unsere Gesellschaft haben würde?

Das obige ist der detaillierte Inhalt vonSo entwickeln Sie die Spracherkennung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

So deaktivieren Sie die Spracherkennung in Windows 11 So deaktivieren Sie die Spracherkennung in Windows 11 May 01, 2023 am 09:13 AM

<p>Das neueste Betriebssystem von Microsoft, Windows 11, bietet auch Spracherkennungsoptionen ähnlich denen in Windows 10. </p><p>Es ist erwähnenswert, dass Sie die Spracherkennung offline oder über eine Internetverbindung verwenden können. Mit der Spracherkennung können Sie bestimmte Anwendungen mit Ihrer Stimme steuern und auch Text in Word-Dokumente diktieren. </p><p>Der Spracherkennungsdienst von Microsoft stellt Ihnen nicht alle Funktionen zur Verfügung. Interessierte Benutzer können sich einige unserer besten Spracherkennungs-Apps ansehen

Wie verwende ich Text-to-Speech- und Spracherkennungstechnologie unter Windows 11? Wie verwende ich Text-to-Speech- und Spracherkennungstechnologie unter Windows 11? Apr 24, 2023 pm 03:28 PM

Wie Windows 10 verfügen auch Windows 11-Computer über Text-to-Speech-Funktionen. Text-to-Speech, auch TTS genannt, ermöglicht es Ihnen, mit Ihrer eigenen Stimme zu schreiben. Wenn Sie in das Mikrofon sprechen, verwendet der Computer eine Kombination aus Texterkennung und Sprachsynthese, um Text auf den Bildschirm zu schreiben. Dies ist ein großartiges Hilfsmittel, wenn Sie Schwierigkeiten beim Lesen oder Schreiben haben, da Sie beim Sprechen einen Bewusstseinsstrom durchführen können. Mit diesem praktischen Tool können Sie Schreibblockaden überwinden. TTS kann Ihnen auch helfen, wenn Sie ein Voiceover-Skript für ein Video erstellen, die Aussprache bestimmter Wörter überprüfen oder Text über Microsoft Narrator laut vorlesen möchten. Darüber hinaus ist die Software gut darin, die richtige Zeichensetzung hinzuzufügen, sodass Sie auch gute Grammatik lernen können. Stimme

So erkennen Sie automatisch Sprache und generieren Untertitel in Filmausschnitten. Einführung in die Methode zur automatischen Generierung von Untertiteln So erkennen Sie automatisch Sprache und generieren Untertitel in Filmausschnitten. Einführung in die Methode zur automatischen Generierung von Untertiteln Mar 14, 2024 pm 08:10 PM

Wie implementieren wir die Funktion zur Generierung von Sprachuntertiteln auf dieser Plattform? Wenn wir einige Videos erstellen, müssen wir unsere Untertitel hinzufügen, um mehr Textur zu erhalten, oder wenn wir einige Geschichten erzählen, damit jeder die Informationen besser verstehen kann einige der Videos oben. Es spielt auch eine Rolle beim Ausdruck, aber viele Benutzer sind mit der automatischen Spracherkennung und der Untertitelgenerierung nicht sehr vertraut, wir können Sie in verschiedenen Aspekten problemlos dazu bringen, bessere Entscheidungen zu treffen Wir müssen einige funktionale Fähigkeiten langsam verstehen, also beeilen Sie sich und schauen Sie sich den Editor an, verpassen Sie es nicht.​

So implementieren Sie ein Online-Spracherkennungssystem mit WebSocket und JavaScript So implementieren Sie ein Online-Spracherkennungssystem mit WebSocket und JavaScript Dec 17, 2023 pm 02:54 PM

So implementieren Sie mit WebSocket und JavaScript ein Online-Spracherkennungssystem. Einführung: Mit der kontinuierlichen Weiterentwicklung der Technologie ist die Spracherkennungstechnologie zu einem wichtigen Bestandteil des Bereichs der künstlichen Intelligenz geworden. Das auf WebSocket und JavaScript basierende Online-Spracherkennungssystem zeichnet sich durch geringe Latenz, Echtzeit und plattformübergreifende Eigenschaften aus und hat sich zu einer weit verbreiteten Lösung entwickelt. In diesem Artikel wird erläutert, wie Sie mit WebSocket und JavaScript ein Online-Spracherkennungssystem implementieren.

Detaillierte Methode zum Deaktivieren der Spracherkennung im WIN10-System Detaillierte Methode zum Deaktivieren der Spracherkennung im WIN10-System Mar 27, 2024 pm 02:36 PM

1. Rufen Sie die Systemsteuerung auf, suchen Sie die Option [Spracherkennung] und schalten Sie sie ein. 2. Wenn die Spracherkennungsseite angezeigt wird, wählen Sie [Erweiterte Sprachoptionen]. 3. Deaktivieren Sie abschließend das Kontrollkästchen [Spracherkennung beim Start ausführen] in der Spalte „Benutzereinstellungen“ im Fenster „Spracheigenschaften“.

Probleme mit der Audioqualität bei der Spracherkennung Probleme mit der Audioqualität bei der Spracherkennung Oct 08, 2023 am 08:28 AM

Probleme mit der Audioqualität bei der Spracherkennung erfordern spezifische Codebeispiele. Mit der rasanten Entwicklung der Technologie der künstlichen Intelligenz wurde die Spracherkennung (Automatic Speech Recognition, kurz ASR) in großem Umfang eingesetzt und erforscht. In praktischen Anwendungen treten jedoch häufig Probleme mit der Audioqualität auf, die sich direkt auf die Genauigkeit und Leistung des ASR-Algorithmus auswirken. Dieser Artikel konzentriert sich auf Audioqualitätsprobleme bei der Spracherkennung und gibt spezifische Codebeispiele. Audioqualität für Sprachausgabe

Problem der Sprechervariation bei der Sprachgeschlechtserkennung Problem der Sprechervariation bei der Sprachgeschlechtserkennung Oct 08, 2023 pm 02:22 PM

Das Problem der Sprechervariation bei der Stimmgeschlechtserkennung erfordert spezifische Codebeispiele. Mit der rasanten Entwicklung der Sprachtechnologie ist die Stimmgeschlechtserkennung zu einem immer wichtigeren Bereich geworden. Es wird häufig in vielen Anwendungsszenarien eingesetzt, z. B. im telefonischen Kundenservice, bei Sprachassistenten usw. Bei der Sprachgeschlechtserkennung stoßen wir jedoch häufig auf eine Herausforderung, nämlich die Sprechervariabilität. Unter Sprechervariation versteht man Unterschiede in den phonetischen Eigenschaften der Stimmen verschiedener Personen. Denn individuelle Stimmeigenschaften werden von vielen Faktoren beeinflusst, wie zum Beispiel Geschlecht, Alter, Stimme usw.

Spracherkennung mit dem Whisper-Modell von OpenAI Spracherkennung mit dem Whisper-Modell von OpenAI Apr 12, 2023 pm 05:28 PM

Spracherkennung ist ein Bereich der künstlichen Intelligenz, der es Computern ermöglicht, menschliche Sprache zu verstehen und in Text umzuwandeln. Die Technologie wird in Geräten wie Alexa und verschiedenen Chatbot-Anwendungen eingesetzt. Am häufigsten führen wir Sprachtranskriptionen durch, die in Transkripte oder Untertitel umgewandelt werden können. Jüngste Entwicklungen bei hochmodernen Modellen wie wav2vec2, Conformer und Hubert haben das Gebiet der Spracherkennung erheblich vorangebracht. Diese Modelle verwenden Techniken, die aus Rohaudio lernen, ohne dass von Menschen beschriftete Daten erforderlich sind, sodass sie große Datensätze unbeschrifteter Sprache effizient nutzen können. Sie wurden außerdem auf die Nutzung von bis zu 1.000.000 Stunden Trainingsdaten erweitert, weit mehr als in akademischen Supervisionsdatensätzen

See all articles