Meta-Open-Source-Text generiert ein großes Musikmodell. Wir haben es mit den Texten von „Qilixiang' versucht.-KI-php.cn

Inhaltsverzeichnis

Methodenübersicht

Experimentelle Ergebnisse

Heim

Technologie-Peripheriegeräte

Meta-Open-Source-Text generiert ein großes Musikmodell. Wir haben es mit den Texten von „Qilixiang' versucht.

王林

Jun 13, 2023 pm 09:16 PM

谷歌音乐

Bevor wir den Haupttext eingeben, hören wir uns zwei von MusicGen generierte Musikstücke an. Wir geben die Textbeschreibung „Ein Mann geht im Regen, stoßen auf ein schönes Mädchen und sie tanzen glücklich“

ein und versuchen dann, die ersten beiden Sätze in den Text von Jay Chous „Qili Xiang“ einzugeben: „Die Spatzen“. Draußen vor dem Fenster stehen sie gesprächig an den Telefonmasten. Du hast gesagt, dieser Satz lässt es sich wie im Sommer anfühlen Text zu Musik bezieht sich auf den Text im gegebenen Text. Die Aufgabe, eine musikalische Komposition in der beschriebenen Situation zu generieren, wie zum Beispiel „90er-Jahre-Gitarrenriff-Rocksong“. Beim Generieren von Musik ist das Modellieren langer Sequenzen eine anspruchsvolle Aufgabe. Im Gegensatz zu Sprache erfordert Musik die Nutzung des gesamten Spektrums, was bedeutet, dass das Signal mit einer höheren Rate abgetastet wird, d. h. die Standardabtastrate für Musikaufnahmen beträgt 44,1 kHz oder 48 kHz, während Sprache mit 16 kHz abgetastet wird.

Darüber hinaus enthält Musik die Harmonie und Melodie verschiedener Instrumente, was der Musik eine komplexe Struktur verleiht. Da menschliche Zuhörer jedoch sehr empfindlich auf Dissonanzen reagieren, haben sie keine große Toleranz gegenüber Melodien in generierter Musik. Natürlich ist die Fähigkeit, den Generierungsprozess auf vielfältige Weise zu steuern, für Musikschaffende unerlässlich, beispielsweise über Tonarten, Instrumente, Melodien, Genres usw.

Die jüngsten Fortschritte beim selbstüberwachten Lernen der Audiodarstellung, der Sequenzmodellierung und der Audiosynthese bieten die Voraussetzungen für die Entwicklung solcher Modelle. Um die Audiomodellierung zu vereinfachen, schlagen neuere Forschungsergebnisse vor, Audiosignale als einen Strom diskreter Token darzustellen, die „dasselbe Signal darstellen“. Dies ermöglicht eine hochwertige Audioerzeugung und eine effiziente Audiomodellierung. Dies erfordert jedoch die gemeinsame Modellierung mehrerer paralleler Abhängigkeitsflüsse.

Kharitonov et al. [2022] und Kreuk et al. [2022] schlugen vor, eine Verzögerungsmethode zu verwenden, um mehrere Streams von Sprachtokens parallel zu modellieren, d. h. Offsets zwischen verschiedenen Streams einzuführen. Agostinelli et al. [2023] schlugen vor, mehrere diskrete Token-Sequenzen unterschiedlicher Granularität zu verwenden, um Musikfragmente darzustellen und diese mithilfe einer Hierarchie autoregressiver Modelle zu modellieren. Unterdessen verfolgten Donahue et al. [2023] einen ähnlichen Ansatz, konzentrierten sich jedoch auf die Aufgabe des Singens auf die Generierung von Begleitung. Kürzlich schlugen Wang et al. [2023] vor, dieses Problem in zwei Schritten zu lösen: die Modellierung auf den ersten Token-Stream zu beschränken. Anschließend wird ein Post-Netzwerk angewendet, um die verbleibenden Flüsse gemeinsam auf nicht-autoregressive Weise zu modellieren.

In diesem Artikel schlagen Forscher von Meta AI MUSICGEN vor, ein einfaches und kontrollierbares Musikgenerierungsmodell, das anhand einer Textbeschreibung hochwertige Musik generieren kann. Der Forscher schlägt eine Methode zur Modellierung mehrerer paralleler akustischer Token-Streams vor s Der General Das Framework dient als Zusammenfassung früherer Forschungsarbeiten (siehe Abbildung 1 unten). Um die Steuerbarkeit generierter Samples zu verbessern, werden in diesem Artikel auch unbeaufsichtigte Melodiebedingungen eingeführt, die es dem Modell ermöglichen, strukturell passende Musik basierend auf gegebener Harmonie und Melodie zu erzeugen. In diesem Artikel wird eine umfassende Evaluierung von MUSICGEN durchgeführt, und die vorgeschlagene Methode übertrifft die Bewertungsgrundlagen bei weitem: MUSICGEN erhält eine subjektive Bewertung von 84,8 von 100, verglichen mit 80,5 für die beste Basislinie. Darüber hinaus enthält dieser Artikel eine Ablationsstudie, die die Bedeutung jeder Komponente für die Gesamtleistung des Modells veranschaulicht.

Abschließend zeigt die menschliche Auswertung, dass MUSICGEN qualitativ hochwertige Samples produziert, die sowohl der Textbeschreibung entsprechen als auch melodisch besser auf die vorgegebene harmonische Struktur abgestimmt sind.

Die Hauptbeiträge dieses Artikels sind wie folgt: Meta-Open-Source-Text generiert ein großes Musikmodell. Wir haben es mit den Texten von „Qilixiang versucht.

Schlägt ein einfaches und effizientes Modell vor: Kann hochwertige Musik mit 32 kHz produzieren. MUSICGEN kann durch eine effektive Codebuch-Interleaving-Strategie konsistente Musik mit einem einstufigen Sprachmodell erzeugen.
schlägt ein einziges Modell für die bedingte Text- und Melodiegenerierung vor, und das generierte Audio stimmt mit der bereitgestellten Melodie und der Einhaltung der Textbedingungen überein Informationen;
Eine umfassende objektive und manuelle Bewertung der wichtigsten Designentscheidungen des vorgeschlagenen Ansatzes.

Methodenübersicht

MUSICGEN enthält einen autoregressiven transformatorbasierten Decoder, der auf einer Text- oder Melodiedarstellung basiert. Das (Sprach-)Modell basiert auf der Quantisierungseinheit des EnCodec-Audio-Tokenizers, der eine High-Fidelity-Rekonstruktion aus diskreten Low-Frame-Darstellungen ermöglicht. Darüber hinaus erzeugen Komprimierungsmodelle mit Restvektorquantisierung (RVQ) mehrere parallele Streams. In dieser Einstellung besteht jeder Stream aus diskreten Token aus verschiedenen erlernten Codebüchern.

In früheren Arbeiten wurden einige Modellierungsstrategien zur Lösung dieses Problems vorgeschlagen. Die Forscher schlugen einen neuartigen Modellierungsrahmen vor, der auf verschiedene Codebuch-Interleaving-Modi verallgemeinert werden kann. Es gibt auch mehrere Variationen dieses Frameworks. Basierend auf Mustern können sie die interne Struktur quantisierter Audio-Tokens nutzen. Schließlich unterstützt MUSICGEN die bedingte Generierung basierend auf Text oder Melodie.

Audio-Tokenisierung

Die Forscher verwendeten EnCodec, einen Faltungs-Autoencoder mit einem latenten Raum unter Verwendung von RVQ-Quantisierung und einem kontradiktorischen Rekonstruktionsverlust. Gegeben sei eine Referenz-Audio-Zufallsvariable X ∈ R^d·f_s, wobei d die Audiodauer und f_s die Abtastrate darstellt. EnCodec kodiert diese Variable in einen kontinuierlichen Tensor mit der Bildrate f_r ≪ f_s, und dann wird die Darstellung als Q ∈ {1 , N}^K×d・f_r quantisiert, wobei K das in RVQ Quantity verwendete Codebuch darstellt. N stellt die Codebuchgröße dar.

Codebuch-Interleaved-Modus

Exakte abgeflachte autoregressive Zerlegung. Das autoregressive Modell erfordert eine diskrete Zufallsfolge U ∈ {1, . Konventionell verwenden Forscher U_0 = 0, ein deterministisches Spezialtoken, das den Anfang der Sequenz darstellt. Anschließend können sie die Verteilung modellieren.

Ungenaue autoregressive Zerlegung. Eine andere Möglichkeit besteht darin, die autoregressive Zerlegung in Betracht zu ziehen, wobei einige Codebücher parallele Vorhersagen erfordern. Definieren Sie beispielsweise eine andere Folge, V_0 = 0, und t∈ {1, . Wenn der Codebuchindex k entfernt wird (z. B. V_t), stellt dies die Verkettung aller Codebücher zum Zeitpunkt t dar.

Beliebiger Codebuch-Interleaving-Modus. Um mit solchen Zerlegungen zu experimentieren und die Auswirkungen der Verwendung ungenauer Zerlegungen genau zu messen, führten die Forscher einen Codebuch-Interleaving-Modus ein. Betrachten Sie zunächst Ω = {(t, k) : {1, . f_r}, k ∈ {1, . Das Codebuchmuster ist die Folge P=(P_0, P_1, P_2, . . , P_S), wobei P_0 = ∅ und 0

Modellkonditionalisierung

Textkonditionalisierung. Angenommen eine Textbeschreibung, die mit einem Eingabeaudio übereinstimmt

Melodienkonditionierung. Während Text heute der vorherrschende Ansatz für bedingte generative Modelle ist, besteht ein natürlicherer Ansatz für Musik darin, eine melodische Struktur aus einer anderen Audiospur oder sogar Pfeifen oder Summen als Bedingung zu verwenden. Dieser Ansatz ermöglicht auch eine iterative Optimierung der Modellausgaben. Um dies zu unterstützen, haben wir versucht, die Melodiestruktur durch gemeinsame Modulation des Eingabechromatogramms und der Textbeschreibung zu steuern. In ersten Experimenten stellten sie fest, dass die Konditionierung am Originalchromatogramm häufig die Originalprobe rekonstruierte, was zu einer Überanpassung führte. Zu diesem Zweck wählen Forscher in jedem Zeitschritt große Zeit-Frequenz-Bins aus, um Informationsengpässe zu verursachen.

Modellarchitektur

Codebuchprojektion und Positionseinbettung. Bei einem gegebenen Codebuchmuster existieren in jedem Musterschritt P_s nur einige Codebücher. Der Forscher ruft den Wert von Q ab, der dem Index in P_s entspricht. Jedes Codebuch erscheint in P_s höchstens einmal oder überhaupt nicht.

Transformator-Decoder. Der Eingang wird in einen Transformator mit L-Schichten und D-Dimensionen eingespeist, wobei jede Schicht aus einem kausalen Selbstaufmerksamkeitsblock besteht. Anschließend wird ein Queraufmerksamkeitsblock verwendet, der durch das Konditionierungssignal C bereitgestellt wird. Bei Verwendung der melodischen Konditionierung stellt der Forscher dem Transformatoreingang den konditionierten Tensor C voran.

Logits-Vorhersage. Im Musterschritt P_s wird die Ausgabe des Transformatordecoders in Logits-Vorhersagen von Q-Werten umgewandelt. Jedes Codebuch erscheint höchstens einmal in P_s+1. Wenn das Codebuch vorhanden ist, wird eine codebuchspezifische lineare Schicht vom D-Kanal zum N-Kanal angewendet, um Logits-Vorhersagen zu erhalten.

Experimentelle Ergebnisse

Audio-Tokenisierungsmodell. Die Studie verwendet ein nicht-kausales fünfschichtiges EnCodec-Modell für 32-kHz-Mono-Audio mit einem Schritt von 640, einer Bildrate von 50 Hz und einer anfänglichen versteckten Größe von 64, die in jeder der fünf Schichten des Modells verdoppelt wird .

Transformer-Modell, untersuchte und trainierte autoregressive Transformer-Modelle unterschiedlicher Größe: 300M-, 1,5B-, 3,3B-Parameter.

Trainingsdatensatz. Lernen Sie mit 20.000 Stunden lizenzierter Musik, um MUSICGEN zu trainieren. Im Detail verwendete die Studie einen internen Datensatz mit 10.000 hochwertigen Titeln sowie die Musikdatensätze ShutterStock und Pond5 mit 25.000 bzw. 365.000 reinen Instrumentaltiteln.

Bewertungsdatensatz. Die Studie bewertet die vorgeschlagene Methode anhand des MusicCaps-Benchmarks und vergleicht sie mit früheren Arbeiten. MusicCaps bestehen aus 5,5.000 Samples (10 Sekunden lang), die von erfahrenen Musikern erstellt wurden, und 1.000 Teilmengen, die über verschiedene Genres verteilt sind.

Tabelle 1 unten zeigt den Vergleich der vorgeschlagenen Methode mit Mousai, Riffusion, MusicLM und Noise2Music. Die Ergebnisse zeigen, dass MUSICGEN die von menschlichen Zuhörern bewerteten Basiswerte in Bezug auf Audioqualität und Konsistenz mit der bereitgestellten Textbeschreibung übertrifft. Noise2Music schneidet bei FAD auf MusicCaps am besten ab, gefolgt von MUSICGEN, das mit Textbedingungen trainiert wurde. Interessanterweise verschlechterte das Hinzufügen der Melodiebedingung die objektiven Messwerte, hatte jedoch keinen signifikanten Einfluss auf die menschlichen Bewertungen und war immer noch besser als die bewertete Basislinie.

Meta-Open-Source-Text generiert ein großes Musikmodell. Wir haben es mit den Texten von „Qilixiang versucht.

Die Forscher verwendeten objektive und subjektive Messungen des angegebenen Bewertungssatzes, um MUSICGEN unter den üblichen Bedingungen der Text- und Melodiedarstellung zu bewerten. Die Ergebnisse sind in Tabelle 2 unten aufgeführt. Die Ergebnisse zeigen, dass MUSICGEN, das mit Chromatogramm-Konditionalisierung trainiert wurde, erfolgreich Musik generiert, die einer bestimmten Melodie folgt, was eine bessere Kontrolle über die erzeugte Ausgabe ermöglicht. MUSICGEN ist robust gegenüber einem Abfall des Chromas zur Inferenzzeit unter Verwendung von OVL und REL.

Meta-Open-Source-Text generiert ein großes Musikmodell. Wir haben es mit den Texten von „Qilixiang versucht.

Die Auswirkungen des Codebuch-Interleaving-Modus. Wir haben verschiedene Codebuchmuster mithilfe des Frameworks in Abschnitt 2.2, K = 4, bewertet, das durch das Audio-Tokenisierungsmodell gegeben ist. In diesem Artikel werden objektive und subjektive Bewertungen in der folgenden Tabelle 3 aufgeführt. Obwohl das Flattening die Generierung verbessert, ist es rechenintensiv. Mit einfachen Verzögerungsmethoden kann eine ähnliche Leistung zu einem Bruchteil der Kosten erzielt werden.

Meta-Open-Source-Text generiert ein großes Musikmodell. Wir haben es mit den Texten von „Qilixiang versucht.

Der Effekt der Modellgröße. In der folgenden Tabelle 4 sind die Ergebnisse für verschiedene Modellgrößen aufgeführt, nämlich für die parametrischen Modelle 300M, 1,5B und 3,3B. Wie erwartet führt eine Vergrößerung der Modellgröße zu besseren Ergebnissen, allerdings nur auf Kosten längerer Trainings- und Inferenzzeiten. In Bezug auf die subjektive Bewertung ist die Gesamtqualität mit 1,5B optimal, größere Modelle können jedoch Textaufforderungen besser verstehen.

Meta-Open-Source-Text generiert ein großes Musikmodell. Wir haben es mit den Texten von „Qilixiang versucht.

Das obige ist der detaillierte Inhalt vonMeta-Open-Source-Text generiert ein großes Musikmodell. Wir haben es mit den Texten von „Qilixiang' versucht.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7563

CakePHP-Tutorial

1385

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie man Deepseek kommentiert Feb 19, 2025 pm 05:42 PM

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

So suchen Sie Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Feb 28, 2025 am 11:06 AM

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Feb 21, 2025 pm 10:57 PM

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Feb 28, 2025 am 10:51 AM

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Top 10 für Crypto Digital Asset Trading App (2025 Global Ranking) empfohlen Mar 18, 2025 pm 12:15 PM

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden

Sesam Open Door Exchange Webseite Login Neueste Version Gateio Offizieller Website Eingang Mar 04, 2025 pm 11:48 PM

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

Binance Binance Offizielle Website Neueste Version Anmeldeportal Feb 21, 2025 pm 05:42 PM

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

See all articles