Im August 2022 gewann ein digitales Gemälde namens „Space Opera“ die Meisterschaft und sorgte häufig für große Kontroversen in der Öffentlichkeit. Das am 30. November desselben Jahres von OpenAI veröffentlichte Chat-Robotermodell ChatGPT ist kostenlos und für die Öffentlichkeit zugänglich und hat ein breites Interesse an AIGC geweckt. Verschiedene ausgefallene Fragen wie das Ändern von Codes, das Sprechen über Wissen und das Stellen von Fragen zum Leben. . ChatGPTs „Witz“ und „Gelehrsamkeit“ „Es ist beeindruckend und erfrischend.“
Der Grund, warum ChatGPT große Aufmerksamkeit erregt hat, ist, dass OpenAI drei Generationen von GPT-Modellen veröffentlicht hat, die im Vergleich zur vorherigen Generation um das Zehnfache oder sogar das Hundertfache gestiegen sind. Das Modell der GPT-3.5-Generation verwendet RLHF (von). Die Methode (Human Feedback Reinforcement Learning) kann die Bedeutung der menschlichen Sprache besser verstehen, d. h. bei der Interaktion mit Menschen beim Chatten, Schreiben von Artikeln, Beantworten von Anfragen, Überprüfen von Code usw. ähnelt sie eher einem „Menschen“, der Antworten gibt sorgfältig nach „ernsthaftem Nachdenken““.
Angesichts solch aktueller Themen im Kreis sagt Stephen, ein Forscher für den Sprach- und Audiosynthesealgorithmus von Huoshan: „Der Grund, warum AIGC in letzter Zeit so beliebt war, ist untrennbar mit der schrittweisen Verbesserung verbunden.“ Die Qualität der von KI produzierten Inhalte hat zu einer höheren Effizienz geführt. AIGC umfasst viele Richtungen wie Textgenerierung, Audiogenerierung, Bildgenerierung und Videogenerierung, was wiederum die schnelle Entwicklung der künstlichen Intelligenz anregen wird Technologie dahinter und spiegelt nach und nach ihren großen kommerziellen Wert wider.“
Es versteht sich, dass, damit die KI ausdrucksstark und in der Lage ist zu sprechen und zu handeln, zunächst sichergestellt werden muss, dass der Ausgabeinhalt nicht falsch gelesen wird, was ein Textanalysemodell zur Analyse erfordert. „In Tomato Novels verwenden wir das im NLP-Bereich weit verbreitete Transformer-Architekturmodell BERT für das Textanalyse-Frontend. Hauptsächlich durch das Regularisierungsmodell (TN) und das Multitask-Frontend-Modell des Neural Network Plus.“ Regelmischung, kombiniert mit langfristiger manueller Regelkorrektur, Wir verbessern kontinuierlich die Genauigkeit des Front-Ends auf Satzebene und reduzieren den Rechenleistungsbedarf durch Destillation, Quantifizierung und andere Technologien Um die Stimme besser klingen zu lassen, fügte das Team auch weitere Funktionsmodule hinzu, die auf dem regulären TTS-Prozess basieren, um eine emotionale Kontrolle zu erreichen. Beispielsweise wird die BERT-Struktur auch bei der Rollenzuordnung verwendet, um die beiden Aufgaben Dialogbestimmung und Referenzdisambiguierung zu modellieren. Darüber hinaus wird eine ähnliche Struktur auch für die Emotionsvorhersage verwendet. „Normalerweise gibt es in Romanen Gespräche mit mehreren Personen, und jeder Sprecher hat seine eigenen Emotionen. Wenn Klangfarbe und Emotion entkoppelt werden können, kann die Ausdruckskraft synthetisierter Sprache besser kontrolliert werden und es können unterschiedliche Klangfarben und Emotionen erzielt werden.“ „Eine flexible Kombination verschiedener Emotionen ist sehr wichtig.“ ist eine Reihe von Multitasking-Langtexten zum Verständnis von KI-Systemen. Es kann die Dialogcharaktere automatisch vom Romantext unterscheiden, die Emotionen identifizieren, die im Dialog ausgedrückt werden sollen, und angemessene Pausen zwischen den Sätzen vorhersagen, was die Produktionseffizienz hochwertiger KI-Hörbücher erheblich verbessert und manuelle Produktionsengpässe effektiv überwindet .
Modell „Al Text Understanding“Auf der Grundlage klarer Aussprache, kohärentem Rhythmus und Höhen und Tiefen der Intonation hat das Team von Volcano Voice selbst ein akustisches End-to-End-Stilkontrollmodell des halbüberwachten Lernens entwickelt, um den Klang dem Rad von Plutchik folgen zu lassen Emotionstyp, der eine Vielzahl emotionaler Farben wie Glück, Traurigkeit, Überraschung, Angst usw. zeigt und mithilfe der Methode der emotionalen Migration der ursprünglich emotionslosen Aussprache einen multiemotionalen Syntheseeffekt verleiht. Es drückt „Gefühle durch Klang ausdrücken“ besser aus und modelliert und stellt das in der menschlichen Sprache häufig vorkommende Phänomen der „Parasprache“ sorgfältig dar, indem es Pausen für Akzente, rhetorische Fragen, Lachen und Weinen sowie verschiedene andere häufige Phänomene in Hörbüchern realisiert. usw. erzielen eine wunderbare Interpretation des Textinhalts.
„Der Effekt, der dem realen Rundfunk nahe kommt, so dass die endgültige KI-Stimme die Wirkung verschiedener Charaktere in unterschiedlichen Kontexten widerspiegeln kann, ist das Ziel, das wir verfolgt haben. Wir hoffen, dies in Zukunft durch Text zu erreichen.“ -Sprachgelenktraining Das große Modell extrahiert Darstellungen von Texten in verschiedenen Kontexten und verbessert die Erfolgsquote der Charakteridentifizierung. Mit dem großen Multi-Talker-Sprachsynthesemodell werden Attribute wie Emotion, Stil, Klangfarbe und Akzent entkoppelt und können frei verwendet werden migriert; gleichzeitig werden auf der Grundlage von Textbeschreibungen passende Hintergrundgeräusche generiert, um das Gefühl des Eintauchens beim Hören von Hörbüchern zu verbessern. „
In dieser Hinsicht hat das Huoshan Voice-Team auch weitere damit verbundene innovative Versuche unternommen. Beispielsweise sind Kurzvideos heutzutage angesichts praktischer Faktoren wie der zufälligen Aufzeichnung von UGC-Gruppenvideos und der unkontrollierbaren Audioqualität zu einer nationalen Mode geworden Die intelligente Untertitellösung Huoshan Voice fügt der Videoerstellung automatisch Untertitel hinzu. Sie ist nicht nur mit häufig verwendeten Sprachen und Dialekten wie Chinesisch, Englisch und Kantonesisch kompatibel, sondern kann auch Lieder erkennen.
In diesem Zusammenhang fügte W, der Produktmanager von Huoshan Speech and Audio Understanding, hinzu: „Bei der Produktion von Videoinhalten erfordert die traditionelle Methode des Hinzufügens von Untertiteln, dass der Ersteller das Video mehrmals diktiert und Korrektur liest, und das ist auch nötig.“ Bild für Bild entsprechend der Startzeit auszurichten, oft 10 Ein 1-minütiges Video erfordert mehrere Stunden Postproduktionszeit. Darüber hinaus muss das Untertitelteam mehrere Sprachen beherrschen und mit der Produktion vertraut sein Die Gesamtkosten für die Videoproduktion sind sehr hoch, was für einzelne Ersteller im heutigen Zeitalter der kurzen Videos sehr schwierig ist. Es ist für Benutzer, die ihr Leben aufzeichnen, schon lange unerschwinglich Um die Schwelle der Erstellung zu senken und allen Erstellern die einfache Produktion hochwertiger Videoinhalte und die Aufzeichnung eines schönen Lebens zu ermöglichen, hat Huoshan Voice eine intelligente Untertitellösung auf den Markt gebracht. Es kann nicht nur Dialekte und Lieder effizient erkennen, sondern durch die Audioeigenschaften und die Domänenanalyse von vom Benutzer erstellten Inhalten auch einen guten Erkennungseffekt auf Szenen haben, in denen Sprachen gemischt sind und Sprechen und Singen gemischt sind. und Algorithmusoptimierung kann die Leistung der Spracherkennung in komplexen Szenen wie Lärmszenen und Gesprächen mehrerer Personen erheblich verbessert werden. Insbesondere mobile Benutzer haben höhere Anforderungen an die Reaktionszeit der Funktionen, das heißt, sie möchten, dass die Untertitel schnell und präzise sind. Zu diesem Zweck hat Huoshan Voice zahlreiche technische Optimierungen und Strategien vorgenommen nur 2-3 Sekunden.
Wie wir alle wissen, ist die Erfassungseffizienz von Audioinformationen beim Menschen viel geringer als die von Textinformationen. Der Schlüssel zur Umwandlung von Sprache in aufgezeichneten und verwendeten Text liegt in der Spracherkennung, z Die von Huoshan Voice eingeführte Echtzeit-Untertitellösung „Text sagt mehr als tausend Worte“ nutzt die KI-Verbindung „Spracherkennung + Sprachübersetzung“, um die länder- und sprachübergreifende Kommunikation automatisch reibungsloser zu gestalten Durch die Erstellung von Besprechungsaufzeichnungen und -protokollen kann die Arbeitseffizienz der Teilnehmer erheblich verbessert und der Arbeitsaufwand für die Organisation nach der Besprechung und die Aufzeichnung während der Besprechung erheblich reduziert werden. Es ist absehbar, dass KI-Sprache mit der rasanten Entwicklung der Technologie die Informationsausgabekanäle für die Mensch-Computer-Interaktion erweitern und die Effizienz der Informationserfassung verbessern wird.
Nach Ansicht von Y, dem Sprachinteraktionsproduktmanager von Huoshan Voice, steht AIGC ebenfalls vor dem Problem der Verbesserung von Qualität und Effizienz, das AIGC mit sich bringt, und erwartet tatsächlich, dass AIGC im Hilfsszenario der intelligenten Sprachinteraktion implementiert wird, was realisiert werden kann Gesprächszusammenfassung, Sprachempfehlung und Emotionsfunktionen für den Kundenservice wie Beschwichtigung und Arbeitsauftragszusammenfassung bieten Hilfslösungen zur Verbesserung der Produktionseffizienz. Wenn beispielsweise ein Mensch-Maschine-Gespräch ein Mensch-Maschine-Gespräch auslöst, kann automatisch eine Gesprächszusammenfassung des Mensch-Maschine-Gesprächs generiert werden, damit die Mensch-Maschine die Anforderungen des Benutzers schneller verstehen und die plötzliche Unterbrechung zum Überprüfen des Chat-Verlaufs vermeiden kann ; Während des Gesprächs mit der Person werden AIGC-Funktionen genutzt, um Antworten für den Kundendienst zu generieren, indem die Sprache des Benutzers verstanden wird, was die Effizienz des Kundendienstdialogs verbessert.
„Darüber hinaus kann es auch eine Rolle bei der Bewältigung ungewöhnlicher Situationen spielen. Wenn Benutzer beispielsweise gereizt, wütend usw. sind, kann AICG automatisch beruhigende Worte als Referenz für den Kundendienst generieren, um die Servicezufriedenheit usw. zu verbessern. Mit der multimodalen Technologie und der Weiterentwicklung der AIGC-Technologie können virtuelle digitale Menschen möglicherweise einen Teil der Arbeitskräfte ersetzen und Kunden in einer Mensch-Maschine-Symbiose direkt bedienen, wodurch die Arbeitskosten erheblich gesenkt und die Serviceeffizienz verbessert werden Es ist klar, dass die heutige AIGC noch nicht in der Lage ist, Inhalte wirklich unabhängig zu produzieren, sie befindet sich jedoch noch in der Phase, in der sie Menschen dabei unterstützt, die Effizienz der Inhaltsproduktion zu verbessern.
Ob es die erstaunliche Antwort von ChatGPT oder die bewegende Stimme der KI im Tomato-Roman ist, selbst Musk staunte: Wir stehen kurz vor einem gefährlich mächtigen Künstlichen Intelligenz Intelligenz ist nicht weit entfernt. Dies scheint darauf hinzudeuten, dass die Ära der AIGC naht.
Stephen, ein Forscher für den Huoshan-Sprach- und Audiosynthesealgorithmus, der seit vielen Jahren an vorderster Front der KI-Algorithmen arbeitet, hat jedoch ein nüchterneres Urteil: „Die Technologie hinter AIGC kann mehrere Aufgaben erfüllen.“ „In der Zukunft geht es um die Modalfusion, nicht nur um eine einzelne Modalität.“ Bei generativen Aufgaben geht es wie beim Prozess der menschlichen Inhaltserstellung nicht nur darum, neue Inhalte auf der Grundlage einer einzigen Wissensform zu konzipieren. Beispielsweise bei der Aufgabe, interaktive digitale Menschen zu generieren Derzeit besteht die Hauptaufgabe darin, Gesichtsausdrücke, Körperhaltungen und Aktionen separat vorherzusagen. In Zukunft kann ein generatives Modell zur Vorhersage dieser Merkmale verwendet werden, um die Synergie zwischen Merkmalen zu verbessern und den durch separate Aufzeichnungen verursachten Arbeitsaufwand zu verringern Darüber hinaus werden multimodale Verständnisaufgaben durchgeführt, die auf dem Ausdruck, Tonfall und den Körperbewegungen des sprechenden Benutzers basieren und eine entsprechende Rückmeldung über das erzeugte Bild und den Ton geben Eine Sache, die nicht ignoriert werden kann, ist, dass AIGC derzeit große Probleme in Bezug auf Kosten, Urheberrecht und Praktikabilität hat. Er glaubt, dass die aktuellen Kosten von AIGC weiterhin hoch sind. Der offensichtlichste Ausdruck ist, dass hochwertige Text-, Bild- und Videogenerierungstechnologien usw. alle mit dem Verbrauch einer großen Menge an Hardwareressourcen in der Trainings- und Inferenzphase einhergehen. Dies erschwert die Teilnahme von Universitäten und Forschungseinrichtungen, was der Förderung der Branchenentwicklung nicht förderlich ist.
„Außerdem können im Hinblick auf den Urheberrechtsschutz einige der derzeit generierten Inhalte für illegale Aktivitäten verwendet werden, sodass es immer wichtiger wird, den Inhalten Urheberrechtsschutz wie Bild- und Audiowasserzeichen hinzuzufügen.“ Beim Zusammenfügen muss jedoch berücksichtigt werden, dass das Wasserzeichen nicht durch Nachbearbeitungsmethoden wie Schneiden und Mischen ungültig wird Obwohl sich die Qualität erheblich verbessert hat, ist noch viel manuelles Screening erforderlich, bevor der Inhalt aktualisiert werden kann. Die Erstellung kontextbezogener Comics und Videos auf der Grundlage langer Textkapitel muss nicht nur die Kontinuität der Szene gewährleisten, sondern auch die Änderungen widerspiegeln In den Charakteren gibt es noch viele technische Probleme, die gelöst werden müssen. Es ist eine Herausforderung, zu verhindern, dass künstliche Intelligenz zu einer „künstlich verzögerten Herausforderung“ wird.
Wir denken vielleicht, dass der Grund, warum AIGC als neue Methode der Inhaltsproduktion Aufmerksamkeit erregt hat, den Wunsch aller Gesellschaftsschichten nach Inhalten, insbesondere der Internetplattform, voll und ganz verdeutlicht, wie man Inhalte effizient verstehen, erstellen, interagieren und verteilen kann . Es bringt Chancen und Herausforderungen für die heutige KI-Technologie mit sich.
Das obige ist der detaillierte Inhalt vonKI-Kreationen sind atemberaubend, aber es müssen noch viele Herausforderungen gemeistert werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!