Forscher aus Cambridge, NAIST und Tencent AI Lab haben kürzlich ein Forschungsergebnis namens PandaGPT veröffentlicht, bei dem es sich um eine Methode zum Ausrichten und Binden großer Sprachmodelle mit unterschiedlichen Modalitäten handelt, um eine modalübergreifende Technologie zur Befehlsfolgefähigkeit zu erreichen. PandaGPT kann komplexe Aufgaben erledigen, z. B. detaillierte Bildbeschreibungen erstellen, Geschichten aus Videos schreiben und Fragen zu Audio beantworten. Es kann multimodale Eingaben gleichzeitig empfangen und deren Semantik auf natürliche Weise kombinieren.
# 🎜 🎜#
Um die Funktionsräume des multimodalen Encoders von ImageBind und des großen Sprachmodells von Vicuna auszurichten, verwendete PandaGPT eine Kombination aus LLaVa und Mini-GPT4 und veröffentlichte insgesamt 160.000 Basierend auf den verbalen Anweisungen der Bilder folgen die Daten als Trainingsdaten. Jede Trainingsinstanz besteht aus einem Bild und einem entsprechenden Satz von Dialogrunden.
Um die multimodale Ausrichtung von ImageBind selbst nicht zu zerstören und die Schulungskosten zu senken, hat PandaGPT nur die folgenden Module aktualisiert:
#🎜🎜 #
Fügen Sie dem Codierungsergebnis von ImageBind eine lineare Projektionsmatrix hinzu, konvertieren Sie die von ImageBind generierte Darstellung und fügen Sie sie in die Eingabesequenz von Vicuna ein 🎜## 🎜🎜#Zusätzliche LoRA-Gewichte zum Aufmerksamkeitsmodul von Vicuna hinzugefügt. Die Gesamtzahl der Parameter der beiden macht etwa 0,4 % der Vicuna-Parameter aus. Die Trainingsfunktion ist ein traditionelles Ziel der Sprachmodellierung. Es ist zu beachten, dass während des Trainingsprozesses nur das Gewicht des entsprechenden Teils der Modellausgabe aktualisiert wird und der Benutzereingabeteil nicht berechnet wird. Der gesamte Trainingsprozess dauert auf 8×A100 (40G) GPUs etwa 7 Stunden.Bild:
#🎜 🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Audio:#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜 🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Video:#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜 🎜 #
Im Vergleich zu anderen multimodalen Sprachmodellen ist das herausragendste Merkmal von PandaGPT seine Fähigkeit, Informationen aus verschiedenen Modalitäten zu verstehen und auf natürliche Weise zu kombinieren.
Video + Audio:
Bild + Audio:
Die Autoren haben auch viele Probleme des aktuellen PandaGPT zusammengefasst und zukünftige Entwicklungsrichtungen. Obwohl PandaGPT über eine erstaunliche Fähigkeit verfügt, mehrere Modalitäten und deren Kombinationen zu verarbeiten, gibt es immer noch viele Möglichkeiten, die Leistung von PandaGPT erheblich zu verbessern.
Abschließend betonen die Autoren, dass PandaGPT nur ein Forschungsprototyp ist und noch nicht für den direkten Einsatz in einer Produktionsumgebung bereit ist.
Das obige ist der detaillierte Inhalt vonCambridge, Tencent AI Lab und andere haben das große Sprachmodell PandaGPT vorgeschlagen: Ein Modell vereint sechs Modalitäten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!