Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse der Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Die Autoren dieses Artikels sind von der Shanghai Jiao Tong University, der Tsinghua University, der Cambridge University und dem Shanghai Artificial Intelligence Laboratory. Der Erstautor, Chen Zhe, ist Doktorand an der Shanghai Jiao Tong University und studiert bei Professor Wang Yu von der School of Artificial Intelligence der Shanghai Jiao Tong University. Die entsprechenden Autoren sind Professor Wang Yu (Homepage: https://yuwangsjtu.github.io/) und Professor Zhang Chao vom Department of Electronic Engineering der Tsinghua University (Homepage: https://mi.eng.cam.ac.uk). /~cz277).
- Papierlink: https://arxiv.org/abs/2403.14168
- Projekthomepage: https://jack-zc8.github.io/M3AV-dataset-page/
- Papiertitel: M3AV: Ein multimodaler, multigenre- und vielseitiger audiovisueller akademischer Vorlesungsdatensatz Online-Methoden. Diese Videos enthalten umfangreiche multimodale Informationen, darunter die Stimme, Mimik und Körperbewegungen des Sprechers, den Text und die Bilder in den Folien sowie die entsprechenden Papiertextinformationen. Derzeit gibt es „sehr wenige Datensätze, die gleichzeitig multimodale Aufgaben zur Inhaltserkennung und zum Verstehen unterstützen können“, was teilweise auf das Fehlen hochwertiger menschlicher Annotation zurückzuführen ist.
Diese Arbeit schlägt einen neuen multimodalen, vielfältigen und vielseitig einsetzbaren audiovisuellen akademischen Sprachdatensatz (M3AV) vor, der fast 367 Stunden Videos aus fünf Quellen aus den Bereichen Informatik, Mathematik, Medizin und Medizin enthält Biologische Themen. Mit hochwertigen menschlichen Anmerkungen, insbesondere hochwertigen benannten Entitäten, kann der Datensatz für eine Vielzahl audiovisueller Erkennungs- und Verständnisaufgaben verwendet werden. Auswertungen zu kontextueller Spracherkennung, Sprachsynthese sowie Folien- und Skripterstellungsaufgaben zeigen, dass die Vielfalt von M3AV es zu einem herausfordernden Datensatz macht. Diese Arbeit wurde von der ACL 2024-Hauptkonferenz angenommen. Der M3AV-Datensatz besteht hauptsächlich aus den folgenden Teilen:
1. Folien mit komplexen Blöcken werden entsprechend ihrer räumlichen Position angeordnet. Beziehungen werden zusammengeführt.
2. Sprachtranskribierter Text in gesprochener und geschriebener Form, einschließlich speziellem Vokabular und Zeitstempel auf Wortebene. 3. Der zum Video passende Papiertext. Wie aus der folgenden Tabelle ersichtlich ist, enthält der M3AV-Datensatz
die meisten manuell kommentierten Folien, Sprach- und Papierressourcen, sodass er nicht nur multimodale Inhaltserkennungsaufgaben, sondern auch
fortgeschrittene akademische Zwecke unterstützt Wissen Verstehen Sie die Aufgabe .
Gleichzeitig ist der M3AV-Datensatz in jeder Hinsicht inhaltsreicher als andere akademische Datensätze und außerdem eine zugängliche Ressource.
Der M3AV-Datensatz ist mit drei Aufgaben zur multimodalen Wahrnehmung und zum Verstehen konzipiert, nämlich kontextbasierte Spracherkennung, spontane Sprachsynthese sowie Folien- und Skriptgenerierung. Aufgabe 1: Kontextbasierte Spracherkennung Allgemeine End-to-End-Modelle haben Probleme bei der Erkennung seltener Wörter. Wie aus den AED- und RNN-T-Modellen in der folgenden Tabelle hervorgeht, ist die Rate seltener Wortfehler (BWER) im Vergleich zur Gesamtwortfehlerrate (WER) um mehr als das Doppelte gestiegen. Durch die Nutzung von OCR-Informationen für die kontextbasierte Spracherkennung mithilfe von TCPGen erreichte das RNN-T-Modell eine relative Reduzierung des BWER um 37,8 % bzw. 34,2 % im Entwicklungs- bzw. Testsatz.
Aufgabe 2: Sprachsynthese im Spontanstil Systeme zur Sprachsynthese im Spontanstil benötigen dringend Sprachdaten in realen Szenarien, um Sprache zu erzeugen, die natürlichen Gesprächsmustern näher kommt. Der Autor des Artikels stellte MQTTS als experimentelles Modell vor und stellte fest, dass MQTTS im Vergleich zu verschiedenen vorab trainierten Modellen die besten Bewertungsindikatoren aufweist. Dies zeigt, dass echte Sprache im M3AV-Datensatz KI-Systeme dazu veranlassen kann, natürlichere Sprache zu simulieren. Aufgabe 3: Erstellung von Folien und Skripten Iterieren Sie akademische Materialien, um akademische Forschung effektiv durchzuführen.
Wie aus der folgenden Tabelle ersichtlich ist, weist das Open-Source-Modell (LLaMA-2, InstructBLIP) bei der Erhöhung von 7B auf 13B eine begrenzte Leistungsverbesserung auf und bleibt hinter dem Closed-Source-Modell (GPT-4 und GPT-4V) zurück ). Daher ist der Autor des Papiers der Ansicht, dass neben der Vergrößerung der Modellgröße auch hochwertige multimodale Pre-Training-Daten erforderlich sind. Insbesondere hat das fortschrittliche multimodale Großmodell (GPT-4V) kaskadierte Modelle, die aus mehreren Einzelmodalmodellen bestehen, übertroffen. Darüber hinaus verbessert Retrieval Enhanced Generation (RAG) effektiv die Modellleistung: Die folgende Tabelle zeigt, dass der eingeführte Papiertext auch die Qualität der generierten Folien und Skripte verbessert.
Diese Arbeit veröffentlicht einen multimodalen, vielfältigen und vielseitigen audiovisuellen Datensatz (M3AV), der mehrere akademische Bereiche abdeckt. Der Datensatz enthält von Menschen kommentierte Sprachtranskriptionen, Folien und zusätzlich extrahierten Aufsatztext und bietet eine Grundlage für die Bewertung der Fähigkeit von KI-Modellen, multimodale Inhalte zu erkennen und akademisches Wissen zu verstehen. Die Autoren des Papiers beschreiben den Erstellungsprozess detailliert und führen verschiedene Analysen des Datensatzes durch. Darüber hinaus erstellten sie Benchmarks und führten mehrere Experimente rund um den Datensatz durch. Letztendlich stellten die Autoren des Papiers fest, dass bestehende Modelle bei der Wahrnehmung und dem Verständnis akademischer Vorlesungsvideos noch Verbesserungspotenzial haben. Partielle Anmerkungsschnittstelle
Das obige ist der detaillierte Inhalt vonACL 2024 |. Shanghai Jiao Tong University, Tsinghua University, Cambridge University und Shanghai AILAB haben gemeinsam den akademischen audiovisuellen Datensatz M3AV veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!