Heim > Technologie-Peripheriegeräte > KI > Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

WBOY
Freigeben: 2023-10-03 17:17:01
nach vorne
904 Leute haben es durchsucht

Aktualisierung der branchenweit besten Zero-Shot-Leistung in mehreren Benchmark-Tests.

Ein einheitliches Modell, das verschiedene modale Eingabeinhalte (Text, Bild, Video, Audio, IMU-Bewegungssensordaten) verstehen und Textantworten generieren kann. Die Technologie basiert auf Llama 2 und stammt von Meta.

Gestern erregte die Forschung am multimodalen Großmodell AnyMAL die Aufmerksamkeit der KI-Forschungsgemeinschaft.

Große Sprachmodelle (LLMs) sind für ihre enorme Größe und Komplexität bekannt, die die Fähigkeit von Maschinen, menschliche Sprache zu verstehen und auszudrücken, erheblich verbessern. Fortschritte bei LLMs haben erhebliche Fortschritte im Bereich der visuellen Sprache ermöglicht und die Lücke zwischen Bildkodierern und LLMs geschlossen, indem sie deren Inferenzfähigkeiten kombiniert haben. Frühere multimodale LLM-Forschung konzentrierte sich auf Modelle, die Text mit einer anderen Modalität kombinieren, beispielsweise Text- und Bildmodellen, oder auf proprietäre Sprachmodelle, die nicht Open Source sind.

Wenn es einen besseren Weg gibt, multimodale Funktionalität zu erreichen und verschiedene Modalitäten in LLM einzubetten, wird uns das eine andere Erfahrung bringen?

Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

Für Ausgabebeispiele 决 Um dieses Problem zu lösen, haben Forscher von META kürzlich Anymal (Any-Modality Augmented Language Model) gestartet. Dies ist eine Sammlung multimodaler Encoder, die darauf trainiert sind, Daten aus verschiedenen Modalitäten (einschließlich Bildern, Videos, Audio und IMU-Bewegungssensordaten) in den Texteinbettungsraum von LLM umzuwandeln. Papieradresse: https://huggingface. co/papers/2309.16058

Der Beschreibung zufolge sind die Hauptbeiträge dieser Forschung wie folgt:

Es wird eine effiziente und skalierbare Lösung für den Aufbau multimodalen LLM vorgeschlagen. Dieser Artikel bietet vorab trainierte Projektionsebenen für große Datensätze mit mehreren Modalitäten (z. B. 200 Millionen Bilder, 2,2 Millionen Audiosegmente, 500.000 IMU-Zeitreihen, 28 Millionen Videosegmente), die alle auf dasselbe große Modell ausgerichtet sind (LLaMA- 2-70B-Chat), der verschachtelte multimodale kontextbezogene Hinweise ermöglicht.

Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMALDiese Studie verfeinert das Modell mithilfe eines multimodalen Befehlssatzes über drei Modalitäten (Bild, Video und Audio) weiter und deckt eine Vielzahl uneingeschränkter Aufgaben ab, die über den Bereich der einfachen Fragebeantwortung (QA) hinausgehen. Dieser Datensatz enthält hochwertige, von Menschen gesammelte Befehlsdaten und wird daher in dieser Studie als Benchmark für komplexe multimodale Inferenzaufgaben verwendet. Das beste Modell in diesem Artikel erzielte gute Ergebnisse bei automatischen und menschlichen Bewertungen verschiedener Aufgaben und Modalitäten Im Vergleich zu den Modellen in der vorhandenen Literatur wurde die relative Genauigkeit von VQAv2 um 7,0 %, der CIDEr von COCO-Bilduntertiteln ohne Fehler um 8,4 % und der CIDEr von AudioCaps um 14,5 % erhöht SOTA

-Methodenmethodenübersicht
  • muss durch Verwendung gepaarter multimodaler Daten einschließlich spezifischer modaler Signal- und Textnarrative umgeschrieben werden). Diese Studie hat LLM vorgebracht, um Multi zu erreichen -modale Verständnisfähigkeiten, wie in Abbildung 2 dargestellt. Konkret trainieren wir für jede Modalität einen leichtgewichtigen Adapter, der das Eingangssignal in den Text-Token-Einbettungsraum eines bestimmten LLM projiziert. Auf diese Weise wird der Text-Token-Einbettungsraum von LLM zu einem gemeinsamen Token-Einbettungsraum, in dem Token Text oder andere Modalitäten darstellen können.
  • In Bezug auf die Untersuchung der Bildausrichtung haben wir eine saubere Teilmenge des LAION-2B-Datensatzes verwendet. Die CAT-Methode wird verwendet zum Filtern und alle erkennbaren Gesichter werden unscharf. Für die Forschung zur Audioausrichtung wurden die Datensätze AudioSet (2.1M), AudioCaps (46K) und CLOTHO (5K) verwendet. Darüber hinaus haben wir auch den Ego4D-Datensatz für IMU und Textausrichtung (528 KB) verwendet.

  • Bei großen Datensätzen erfordert die Skalierung vor dem Training auf ein 70B-Parametermodell viele Ressourcen und erfordert häufig die Verwendung von FSDP-Wrappern auf mehreren GPUs. Das Modell ist zersplittert. Um das Training effektiv zu skalieren, implementieren wir eine Quantisierungsstrategie (4-Bit und 8-Bit) in einer multimodalen Umgebung, in der der LLM-Teil des Modells eingefroren ist und nur der modale Tokenizer trainierbar ist. Dieser Ansatz reduziert den Speicherbedarf um eine Größenordnung. Daher kann 70B AnyMAL das Training auf einer einzelnen 80-GB-VRAM-GPU mit einer Stapelgröße von 4 abschließen. Im Vergleich zu FSDP verbraucht die in diesem Artikel vorgeschlagene Quantisierungsmethode nur die Hälfte der GPU-Ressourcen, erreicht aber den gleichen Durchsatz
  • Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    Die Verwendung multimodaler Befehlsdatensätze zur Feinabstimmung bedeutet die Verwendung multimodaler Befehlsdatensätze zur Feinabstimmung

    Um die Fähigkeit des Modells, Anweisungen für verschiedene Eingabemodalitäten zu befolgen, weiter zu verbessern, untersuchen wir die Verwendung multimodaler Befehlsdatensätze. Zusätzliche Feinabstimmungen wurden am hochmodernen Befehlsoptimierungsdatensatz (MM-IT) durchgeführt. Konkret verketten wir die Eingabe als [Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL], sodass das Antwortziel sowohl auf der Textanweisung als auch auf der modalen Eingabe basiert. Es werden folgende zwei Situationen untersucht: (1) Training der Projektionsschicht ohne Änderung der LLM-Parameter oder (2) Verwendung einer Low-Level-Anpassung (Low-Rank Adaptation) zur weiteren Anpassung des LM-Verhaltens; Die Studie verwendet sowohl manuell erfasste, durch Anweisungen abgestimmte Datensätze als auch synthetische Daten.

    Experimente und Ergebnisse

    Die Generierung von Bildunterschriften ist eine Technologie der künstlichen Intelligenz, mit der automatisch entsprechende Untertitel für Bilder generiert werden. Diese Technologie kombiniert Computer Vision und Methoden der Verarbeitung natürlicher Sprache, um beschreibende Bildunterschriften zu generieren, indem der Inhalt und die Eigenschaften des Bildes analysiert sowie die Semantik und Syntax verstanden werden. Die Generierung von Bildunterschriften hat vielfältige Anwendungsmöglichkeiten in vielen Bereichen, einschließlich Bildsuche, Bildanmerkung, Bildabruf usw. Durch die automatische Generierung von Titeln können die Verständlichkeit von Bildern und die Genauigkeit von Suchmaschinen verbessert werden, wodurch Benutzern ein besseres Bildabruf- und Browsing-Erlebnis geboten wird

    Tabelle 2 zeigt die Ergebnisse in COCO und Aufgaben, die mit „Detaillierte Beschreibung“ (MM-) gekennzeichnet sind. Leistung bei der Generierung von Bildunterschriften ohne Aufnahme einer Teilmenge des MM-IT-Datensatzes von IT-Cap. Wie man sehen kann, schneidet die AnyMAL-Variante bei beiden Datensätzen deutlich besser ab als die Basislinie. Bemerkenswert ist, dass zwischen den Varianten AnyMAL-13B und AnyMAL-70B kein nennenswerter Leistungsunterschied besteht. Dieses Ergebnis zeigt, dass die zugrunde liegende LLM-Funktion zur Generierung von Bildunterschriften eine Technik der künstlichen Intelligenz ist, die zur automatischen Generierung entsprechender Untertitel für Bilder verwendet wird. Diese Technologie kombiniert Computer Vision und Methoden der Verarbeitung natürlicher Sprache, um beschreibende Bildunterschriften zu generieren, indem der Inhalt und die Eigenschaften des Bildes analysiert sowie die Semantik und Syntax verstanden werden. Die Generierung von Bildunterschriften hat vielfältige Anwendungsmöglichkeiten in vielen Bereichen, einschließlich Bildsuche, Bildanmerkung, Bildabruf usw. Durch die Automatisierung der Bildunterschrift können die Bildverständlichkeit und die Suchmaschinengenauigkeit verbessert werden, wodurch den Benutzern ein besseres Bildabruf- und Browsing-Erlebnis geboten wird. Die Aufgabe ist weniger wirkungsvoll, hängt jedoch stark von der Datengröße und der Registrierungsmethode ab.

    Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    Die erforderliche Umschreibung lautet: Menschliche Bewertung der multimodalen Inferenzaufgabe

    Abbildung 3 zeigt, dass AnyMAL mit der Basislinie verglichen wird (LLaVA: 34,4 % Gewinnrate und MiniGPT4: 27,0 % Gewinnrate). Die Leistung ist stark und der Abstand zu echten, von Menschen kommentierten Proben ist gering (41,1 % Gewinnrate). Bemerkenswert ist, dass Modelle, die mit dem vollständigen Befehlssatz feinabgestimmt wurden, die höchste Prioritätsgewinnrate zeigten und visuelles Verständnis und Argumentationsfähigkeiten zeigten, die mit von Menschen kommentierten Antworten vergleichbar waren. Es ist auch erwähnenswert, dass BLIP-2 und InstructBLIP bei diesen offenen Abfragen eine schlechte Leistung erbringen (4,1 % bzw. 16,7 % Prioritätsgewinnrate), obwohl sie beim öffentlichen VQA-Benchmark gut abschneiden (siehe Tabelle 4).

    Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    VQA-Benchmarks

    In Tabelle 4 zeigen wir die Zero-Shot-Leistung des Hateful Meme-Datensatzes VQAv2, TextVQA, ScienceQA, VizWiz und OKVQA und vergleichen sie mit den jeweiligen Benchmarks, die im angegeben sind Literatur Die Ergebnisse der Nullstichprobe wurden verglichen. Unsere Forschung konzentriert sich auf die Zero-Shot-Bewertung, um die Modellleistung bei offenen Abfragen zum Inferenzzeitpunkt möglichst genau abzuschätzen Video-QA-Benchmarks.

    Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    Audio-Untertitel neu generieren

    Tabelle 5 zeigt die Ergebnisse der Regenerierung von Audio-Untertiteln im AudioCaps-Benchmark-Datensatz. AnyMAL übertrifft andere hochmoderne Audio-Untertitelmodelle in der Literatur deutlich (z. B. CIDEr +10,9pp, SPICE +5,8pp), was darauf hinweist, dass die vorgeschlagene Methode nicht nur auf das Sehen, sondern auch auf verschiedene Modalitäten anwendbar ist. Das Textmodell 70B weist klare Vorteile gegenüber den Varianten 7B und 13B auf.

    Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    Interessanterweise scheint Meta basierend auf der Methode, der Art und dem Zeitpunkt der Einreichung des AnyMAL-Papiers zu planen, multimodale Daten über sein neu eingeführtes Mixed Reality/Metaverse-Headset zu sammeln. Diese Forschungsergebnisse könnten in die Metaverse-Produktlinie von Meta integriert oder bald auf Verbraucheranwendungen angewendet werden

    Bitte lesen Sie den Originalartikel für weitere Details.

Das obige ist der detaillierte Inhalt vonDie multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage