Produkte wie Smart Speaker, die heute bei vielen Verbrauchern fast in Vergessenheit geraten, stehen nach der „Verrücktheit“ der Jahre 2017 und 2018 bei den meisten Verbrauchern längst nicht mehr im Fokus. Gerade als alle dachten, dass intelligente Lautsprecher eine Eintagsfliege wären, schien das Aufkommen von ChatGPT den intelligenten Lautsprechern eine zweite Chance zu geben und auch dieser rückläufigen Branche eine neue Chance zu geben. Können intelligente Lautsprecher und die mittlerweile beliebte generative KI Funken erzeugen?
Für die Smart-Speaker-Branche könnte generative KI wie Regen nach einer langen Dürre sein. Relevanten Marktumfragedaten zufolge beliefen sich die online überwachten Einzelhandelsverkäufe von inländischen Smart Speakern im ersten Quartal 2023 aufgrund der kombinierten Auswirkungen von Faktoren wie starker Produkthomogenität und sinkender Verbrauchernachfrage auf 1,57 Millionen Einheiten, was einem weiteren Rückgang um 40,6 % entspricht. , während im gesamten Jahr 2022 der inländische Omni-Channel-Absatz von intelligenten Lautsprechern 26,31 Millionen Einheiten betrug, was einem Rückgang von 28 % gegenüber dem Vorjahr entspricht.
Warum sind Smart Speaker, die einst große Hoffnungen bei den großen Giganten hatten und sogar als mögliche Einstiegspunkte ins Smart Home galten, in den letzten Jahren in den Abgrund gerutscht? Eigentlich gibt es nur einen Grund: Intelligente Lautsprecher sind einfach nicht intelligent genug.
Im Jahr 2017, als das Konzept der Smart Speaker sehr beliebt war, gab es in der Branche eine Diskussion darüber, ob der Fokus bei Smart Speakern auf „Intelligenz“ oder „Klangqualität“ liegen sollte. Am Ende nutzten eine Reihe von Produkten, die sich auf Klangqualität konzentrierten, wie Tencent Listening und Apple HomePod, ihre tragischen Misserfolge, um zu beweisen, dass das Verkaufsargument intelligenter Lautsprecher nur Intelligenz sein kann.
Allerdings kann das Intelligenzniveau der meisten intelligenten Lautsprecher leider nur als „erweitert“ beschrieben werden, während große Hersteller der künstlichen Intelligenz und akustischen Technologien wie ASR (Spracherkennung), natürlicher semantischer NLP-Verarbeitung und Fernfeld nur begrenzte Aufmerksamkeit schenken Der Fortschritt bei der Tonaufnahme ist etwas zu optimistisch. Tatsächlich ist der intelligente Lautsprecher aus technischer Sicht sehr einfach. Sein Arbeitsmodus besteht darin, die Stimme des Benutzers zu sammeln, dann das Audio an den Server zu senden, dann die Ergebnisse zu berechnen und zu erzeugen und schließlich die Ergebnisse an den intelligenten Lautsprecher zu senden in bestimmte Verhaltensweisen einbinden, beispielsweise eine Anwendung öffnen oder auf die Frage eines Benutzers antworten.
Ja, der Smart Speaker selbst hat nichts mit künstlicher Intelligenz zu tun. Die wahren Identitäten von Xiaoai, Xiaodu und Tmall Genie sind auf den entsprechenden Servern verborgen. All dies führt auch dazu, dass der Schlüssel zur Bestimmung des Erlebnisses intelligenter Lautsprecher in der Fernfeld-Schallaufnahmetechnologie liegt, also in der Fähigkeit, die Sprachbefehle des Benutzers in komplexen akustischen Umgebungen genau zu erfassen. Schließlich kann der Benutzer nicht „sagen“. ein Witz“ und der intelligente Lautsprecher hört zu. Nennen wir es „ein Lied spielen“.
Die Lösung für intelligente Lautsprecher besteht darin, ein großes Mikrofonarray zum Sammeln von Ton zu verwenden. Es gibt jedoch einen Problempunkt, der noch nicht gelöst wurde, nämlich das Aufwecken der Stimme (Stichwort Spotting). Wenn Sie intelligente Lautsprecher verwenden, müssen Sie Weckwörter wie „Hi, Siri“, „Xiao Ai Classmate“ und „Xiaodu Xiaodu“ verwenden, um dem intelligenten Lautsprecher mitzuteilen, dass Sie mit ihm sprechen, was bedeutet, dass er intelligent ist Redner Dem Redner fehlt die Fähigkeit, aktiv zu dienen. Noch wichtiger ist, dass intelligente Lautsprecher aufgrund technischer Einschränkungen lange Zeit nur einfache Anweisungen verstehen konnten, wie zum Beispiel „Lautstärke erhöhen/verringern“, „das Lied von dem und dem abspielen“ und komplexere Anweisungen Die Satzerkennung ist oft schwierig.
Die Bedeutung generativer KI wie ChatGPT und Wen Xinyiyan für intelligente Lautsprecher besteht darin, dass erstere intelligenten Lautsprechern dabei helfen kann, komplexere Sätze zu verstehen und eine natürlichere Kommunikation zu ermöglichen. Ich glaube, Freunde, die Microsoft Bing Chat, Baidu Wenxinyiyan oder ChatGPT verwendet haben, sollten wissen, dass es bei Gesprächen mit dieser Art generativer KI nicht nötig ist, eine einleitende Aussage wie „Hallo, ChatGPT“ zu verwenden, sondern direkt mit der Eingabe beginnen zu können Inhalt. Dialogprozess.
Da die generative KI auf einem groß angelegten Sprachmodell (LLM, Large Language Model) basiert, fügt sie manuelle Annotationsdaten und verstärkende Lerntechnologie aus menschlichem Feedback hinzu und wird durch die Knowledge-Graph-Technologie, eine Art Knowledge-Graph-Multi, ergänzt - Beziehungsdiagramme, die als strukturierte Tripel geschrieben sind (einschließlich Entitäten, Konzepten und Beziehungen), ermöglichen es der KI, die Bedeutung menschlicher Anweisungen zu verstehen und letztendlich Inhalte aus einer riesigen Informationsdatenbank auszuwählen, um sie zu beantworten.
Die größte Änderung bei Produkten wie ChatGPT im Vergleich zu Siri und Xiaoai ist die Möglichkeit, mehrere Gesprächsrunden zu führen. Im Vergleich zu Siri, das fast wie ein „Fischgedächtnis“ ist, kann ChatGPT immer mit Benutzern sprechen, gepaart mit einer klareren Wahrnehmung von Emotionen, sodass Benutzer das Gefühl haben, wirklich mit einer lebenden Person zu sprechen. Bei einem Verbraucherprodukt ist es den Benutzern offensichtlich egal, wie fortschrittlich die technischen Prinzipien dahinter sind, sondern sie konzentrieren sich darauf, ob es Probleme lösen oder Bedürfnisse erfüllen kann.
Der Reiz der generativen KI liegt in ihrer hohen Obergrenze an Fähigkeiten. Gleichzeitig kann sie in gewissem Maße auch die sozialen Bedürfnisse der Benutzer erfüllen ChatGPT hat einen „virtuellen Begleiter“ nach seinem Vorbild eingeführt und mehr als 1.000 Benutzer gewonnen. Im Allgemeinen kann die Kombination generativer KI mit intelligenten Lautsprechern deren Mängel nahezu ausgleichen und ihr ein Maß an Intelligenz verleihen, das auf dem Verbrauchermarkt eingesetzt werden kann.
Tatsächlich haben einige Hersteller intelligenter Lautsprecher bereits Maßnahmen ergriffen. Als Baidu beispielsweise im Februar dieses Jahres Wen Xin Yi Yan aufwärmte, hatte Xiaodu bereits im April angekündigt, Wen Genie hat auf „Niaodu“ zugegriffen. Der durch das „Vogel teilt den Vogel“-Modell geschaffene „KI-Mundersatz“ kündigte auch seinen Zugang zu Alibabas Tongyi Qianwen an.
Aber es muss darauf hingewiesen werden, dass generative KI kein „Allheilmittel“ ist. Derzeit steht jede generative KI vor einem unvermeidlichen Problem: der Knappheit der Rechenressourcen. Die jüngste Nachricht, dass die generative KI-Obergrenze GPT-4 „dumm“ geworden ist, hat im Vergleich zu dem Stand, als sie gerade veröffentlicht wurde, große Aufmerksamkeit erregt, und die Benutzer sind sich einig, dass die Qualität des Textcodes von GPT-4 verbessert wurde in jeder Hinsicht zurückgegangen.
Ja, tatsächlich haben nicht nur GPT-4, sondern auch öffentlich zugängliche Produkte wie ChatGPT und Wenxinyiyan ähnliche Situationen erlebt. Der Anstieg der Benutzerzahl hat zu einem Leistungsrückgang bei großen Modellen geführt.
Das Kernproblem im Bereich der generativen KI besteht derzeit darin, dass die Rechenressourcen knapp sind und den Zustrom von Benutzern nicht bewältigen können. Um die Benutzererfahrung sicherzustellen, können solche Produkte nur die Leistung großer Modelle verringern und die Menge des generierten Inhalts Zeit, um die Last auf dem Server zu reduzieren. Im Vergleich dazu ist der bestehende Markt für intelligente Lautsprecher zweifellos größer, so dass es nach dem Zugriff auf generative KI fast unvermeidlich ist, auf ähnliche Probleme zu stoßen.
Was in Zukunft wahrscheinlich passieren wird, ist, dass der Intelligenzgrad intelligenter Lautsprecher eine Parabel zeigen wird. Das anfängliche Benutzererlebnis wird sich sprunghaft verbessern, aber wenn die Anzahl der Benutzer weiter zunimmt, kann die intelligente Leistung steigen „degradieren“ „Rückkehr auf das Niveau von vor ein paar Jahren.“
Das obige ist der detaillierte Inhalt vonKann die angesagte generative KI intelligente Lautsprecher wieder zum Leben erwecken?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!