Neuigkeiten vom 10. Januar: Microsoft hat kürzlich ein Tool für künstliche Intelligenz namens VALL-E veröffentlicht, das menschliche Sprache in nur 3 Sekunden Audio imitieren kann.
Das Tool basiert auf 60.000 Stunden englischer Sprachdaten und verwendet 3-Sekunden-Clips bestimmter Sprache, um Inhalte zu generieren. Im Gegensatz zu vielen aktuellen KI-Tools kann VALL-E die Stimmung und den Ton eines Sprechers nachbilden, selbst in Worten, die der Sprecher selbst noch nie gesprochen hat.
IT House hat erfahren, dass ein Artikel der Cornell University VALL-E verwendet hat, um mehrere Sounds zu synthetisieren. Sie können sich diese KI-synthetisierten Audios auf GitHub anhören.
Die Forscher stellen fest, dass Vall-E in vielen Fällen aktuelle Text-to-Speech-Modelle übertrifft. Allerdings schreibt die Studie auch, dass KI-Modelle derzeit mehrere Probleme hätten. Beispielsweise können einige Wörter in einer Textaufforderung unklar ausgesprochen werden, ganz fehlen oder in der Ausgabe zweimal vorkommen. Darüber hinaus hat das Modell derzeit Schwierigkeiten, bestimmte Stimmen zu imitieren, insbesondere solche mit Akzenten.
Wie andere neue KI-Technologien hat auch VALL-E Bedenken hinsichtlich Sicherheit, Ethik usw. geäußert. Microsoft hat eine Ethikerklärung zur Verwendung von VALL-E herausgegeben, es war jedoch unklar, ob es künftig verwendet werden soll.
Derzeit ist Microsoft Vall-E noch nicht Open Source. Microsoft hat auf GitHub ein Vall-E-Repository erstellt, das derzeit jedoch nur eine Beschreibungsdatei enthält.
Das obige ist der detaillierte Inhalt vonMicrosoft veröffentlicht VALL-E, ein KI-Sprachgenerierungstool, das menschliche Sprache in nur 3 Sekunden Audio nachahmen kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!