Das tiefgreifende Verständnis natürlicher Sprache durch den Einsatz von Deep-Learning-Technologie stand schon immer im Mittelpunkt der Aufmerksamkeit der Menschen. Sie müssen nicht nachschlagen, um Musik zu hören, Sie müssen nicht Ihre Hände benutzen, um das Licht einzuschalten, und die Klimaanlage kann Ihre Stimme verstehen ... Diese Szenen werden in vielen Film- und Fernseharbeiten gezeigt , und sie repräsentieren in den Köpfen vieler Menschen auch das Konzept des „intelligenten Lebens“. Auf dieser Grundlage ist die Verarbeitung natürlicher Sprache im Zuge der rasanten Entwicklung der künstlichen Intelligenz zu einem Schlachtfeld für große Unternehmen und wissenschaftliche Forschungseinrichtungen geworden.
Der Sprachinteraktionspfad hat in den letzten Jahren Internetgiganten, bekannte Hardwareunternehmen, E-Commerce-Plattformen, traditionelle Haushaltsgerätehersteller und verschiedene Startups für künstliche Intelligenz zusammengebracht, insbesondere Sprachinteraktionsprodukte, die durch intelligente Lautsprecher repräsentiert werden Seine Popularität im In- und Ausland hat die Anwendung und Entwicklung der Sprachinteraktionstechnologie stark vorangetrieben.
In letzter Zeit ist die beliebteste Smart-Home-Hardware zweifellos der Xiaomi AI-Lautsprecher. Als dieses Produkt auf den Markt kam, löste es große Resonanz auf dem Markt aus. Viele nannten es „den Lautsprecher mit dem besten interaktiven Erlebnis“, „die verantwortliche Person in der Smart-Speaker-Branche“ und „derzeit die ‚beliebteste‘ Smart-Hardware“. Medien... Nach Meinung des Herausgebers sind die Xiaomi AI-Lautsprecher zwar ausgezeichnet, aber nicht in dem Maße, wie sie damit prahlen. Gemessen an der spezifischen Nutzungserfahrung der Menschen in der Umgebung des Editors sind seine Spracherkennungsfähigkeiten nicht besonders herausragend und unterscheiden sich nicht wesentlich von den derzeit auf dem Markt erhältlichen Mainstream-ähnlichen Produkten. Sein größter Vorteil liegt in der ökologischen Kette. Über Xiaomi AI-Lautsprecher können Xiaomi-Schreibtischlampen, Xiaomi-Kehrroboter, Xiaomi-Bodenventilatoren und andere unterstützende Möbelgeräte gesteuert werden. Es besteht kein Zweifel, dass dies die Menschen dem intelligenten Leben einen Schritt näher bringen wird.
Im Bereich von Automobilen und intelligenten Mobilgeräten erfreuen sich Sprachinteraktionsfunktionen großer Beliebtheit. Beim Autofahren haben die Menschen oft keine Zeit übrig und sollten ihre Hände nicht zur Bedienung ihres Mobiltelefons benutzen. Heutzutage ist die Stimme im Auto zu einer Notwendigkeit und einer Standardfunktion des Internets der Fahrzeuge geworden. In der heutigen Zeit, in der intelligente Vernetzung und fahrerloses Fahren sehr beliebt sind, scheinen neue Autos, die nicht über eine schwarze Spracherkennungstechnologie verfügen, zu verlegen, diese zu nutzen. Das SYNC-System von Ford, das fahrzeuginterne Multimedia-Kommunikations- und Unterhaltungssystem von Ford, das speziell für Mobiltelefone und digitale Mediaplayer ausgestattet ist, ist derzeit ein erfolgreiches Beispiel für den Einsatz von Sprachinteraktionstechnologie in fahrzeuginternen Systemen und wird in vielen Serien von Ford-Fahrzeugen weit verbreitet eingesetzt. Nachdem der Internetriese Apple die intelligente Sprachassistentenanwendung Siri in seinem iPhone 4S eingeführt hatte, führte Google auch die intelligente Sprachsuche und den Frage- und Antwortdienst GoogleNow in seinem Android-Smartphone-Betriebssystem ein es zu gegebener Zeit.
Im Finanzbereich. Auch die Spracherkennungstechnologie hat ihren Platz. Kürzlich hat die China Construction Bank eine automatisierte Servicefiliale im Bezirk Huangpu in Shanghai eröffnet, in der Roboter Kunden bedienen. Der Roboter ist mit einer Gesichtsscan-Erkennungssoftware ausgestattet, die die meisten Kundenfragen beantworten und die meisten Geschäftsanforderungen gewöhnlicher Großbanken erfüllen kann. Er ist außerdem mit manuellen Assistenzdiensten und anderen professionellen Dienstleistungen ausgestattet, um individuelle Bedürfnisse zu erfüllen. Kunden werden von Robotern empfangen, die mithilfe von Spracherkennungsfunktionen mit Menschen kommunizieren und Fragen der Kunden beantworten. Sie können auch die meisten Aufgaben erledigen, die im Personalwesen möglich sind, darunter die Eröffnung von Konten, Geldüberweisungen und Investitionen.
Darüber hinaus nimmt auch im neuen Einzelhandelsbereich der Einsatz intelligenter Sprachtechnologie ständig zu. Beispielsweise gaben iFlytek und Red Star Macalline am 18. Dezember 2017 einen strategischen Kooperationsplan bekannt. Künftig soll der von iFlytek entwickelte intelligente Einkaufsführer-Roboter landesweit in Red Star Macalline-Filialen eingeführt werden.
Neben der Sprachinteraktion ist auch Speech-to-Text ein heißes Thema in der aktuellen Spracherkennungstechnologie. Früher war diese Funktion bei Journalisten beliebt. Die Verwendung dieser Funktion zum Organisieren von Interviewmanuskripten und Redemanuskripten kann heutzutage von normalen Menschen akzeptiert werden und kann von älteren und jungen Menschen genutzt werden an Faulheit und Krebs leiden. Diese Funktion ersetzt das Tippen.
Der Kapitalzufluss, die politische Unterstützung und die wiederholte Marktexpansion haben die Sprachtechnologie heute immer ausgereifter gemacht, und der globale Sprachmarkt hat auch eine goldene Entwicklungsphase für die Anwendungsimplementierung eingeläutet. Relevanten Statistiken zufolge lag der Umfang der intelligenten Sprachbranche im Jahr 2016 nahe bei der 6-Milliarden-Yuan-Marke und wird 2017 die 10-Milliarden-Yuan-Marke überschreiten, was einem Anstieg von etwa 69 % gegenüber dem Vorjahr entspricht.
Im Gegensatz zur Verbreitung der Spracherkennung in vielen Bereichen ist die Entwicklung der Spracherkennungstechnologie in dieser Situation in vielen Fällen auf Schwierigkeiten gestoßen Fragen.
Viele Unternehmen sagen mittlerweile, dass ihre Spracherkennungsrate 97 % oder sogar 98 % erreicht habe, doch in tatsächlichen Anwendungen sind die Ergebnisse nicht zufriedenstellend. Um ein überzeugenderes Beispiel zu geben: Das vom IBMT.JWatson Research Institute entwickelte chinesische Spracherkennungssystem belegte drei Jahre in Folge den ersten Platz in dem von der DARPA in den Vereinigten Staaten gesponserten Wettbewerb, als das System das CCTV-Programm „News Network“ anerkannte Die Fehlerquote lag unter 5 %, aber bei der Identifizierung anderer Inhalte ist die Lücke sehr groß. In praktischen Anwendungen wird die Erkennungsrate hauptsächlich von folgenden Faktoren beeinflusst:
Bei der chinesischen Spracherkennung verringern Dialekt oder Akzent die Erkennungsrate.
Starker Lärm an öffentlichen Orten hat einen großen Einfluss auf den Erkennungseffekt. Selbst in einer Laborumgebung werden das Tippen auf der Tastatur und das Bewegen des Mikrofons zu Hintergrundgeräuschen.
Unterbrechende Fragen: Wenn jemand beim Sprechen eine Pause einlegt, kann sich die Maschine nicht gut mit dem Kontext verbinden, um die Bedeutung zu glätten.
Hier gibt es auch das Thema „mündliche Sprache“. Dabei geht es sowohl um das Verständnis natürlicher Sprache als auch um Akustik. Das ultimative Ziel der Spracherkennungstechnologie besteht darin, Benutzern eine „Mensch-Maschine-Konversation“ zu ermöglichen, die so natürlich ist wie eine „Mensch-zu-Mensch-Konversation“. Sobald der Benutzer jedoch eine Spracheingabe durchführt, indem er mit einem Menschen spricht, wird die Grammatik von Die gesprochene Sprache ist nicht standardisiert und die abnormale Wortreihenfolge führt zu Schwierigkeiten bei der semantischen Analyse und dem Verständnis.
Zuvor haben einige Leute darauf hingewiesen, dass Probleme wie Akzent und neues Vokabular durch Datenerfassung in praktischen Anwendungen der Spracherkennungstechnologie gelöst werden können. Mit zunehmender Datenmenge kann dieses Problem gelöst werden.
Andere Probleme wie „Unterbrechung“ erfordern verschiedene Deep-Learning-Modelle wie DNN, CNN, BLSTM (bidirektionales neuronales Netzwerk mit langem Kurzzeitgedächtnis) usw. sowie neue Algorithmen, um sie schrittweise zu lösen.
Der Einsatz von Technologie erfordert oft einen iterativen Prozess. Sie muss zuerst online sein und dann Daten in der Szene sammeln, um das Modell zu bewerten, zu optimieren und das Benutzererlebnis zu verbessern. Es sind mehrere Iterationen erforderlich, um die besten Ergebnisse zu erzielen. Andere KI-Technologien sind ähnlich. Viele Nutzer der KI-Technologie idealisieren heute leicht die Fähigkeiten der Technologie und sind der Meinung, dass sie unmittelbar nach ihrer Einführung sofortige Ergebnisse sehen sollten. Wenn Sie feststellen, dass die tatsächlichen Ergebnisse unbefriedigend sind, werden Sie eine große Lücke, Enttäuschung und Aufgeben verspüren. Zwar hat die intelligente Sprachtechnologie das Niveau der GF-Anwendung erreicht, aber wenn sie tatsächlich implementiert wird, müssen wir die möglicherweise auftretenden Schwierigkeiten vollständig verstehen und mental auf einen langwierigen Kampf vorbereitet sein.
Es kann vorhergesagt werden, dass der Einsatz von Spracherkennungssystemen in den letzten fünf bis zehn Jahren weiter verbreitet sein wird. Es wird eine Vielzahl von Produkten für Spracherkennungssysteme auf den Markt kommen. Menschen passen ihre Sprachmuster auch an verschiedene Erkennungssysteme an. Es ist nicht möglich, kurzfristig ein mit dem Menschen vergleichbares Spracherkennungssystem aufzubauen. Wir können die Entwicklung von Spracherkennungssystemen nur Schritt für Schritt vorantreiben. Es ist schwer vorherzusagen, wann ein so vollständiges Spracherkennungssystem wie ein Mensch gebaut werden kann. Genau wie in den 1960er Jahren: Wer hätte ahnen können, dass die heutige VLSI-Technologie einen so großen Einfluss auf unsere Gesellschaft haben würde?
Das obige ist der detaillierte Inhalt vonSo entwickeln Sie die Spracherkennung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!