Heim Technologie-Peripheriegeräte KI ECCV 2024 |. Um die Leistung von GPT-4V- und Gemini-Erkennungsaufgaben zu verbessern, benötigen Sie dieses Prompt-Paradigma

ECCV 2024 |. Um die Leistung von GPT-4V- und Gemini-Erkennungsaufgaben zu verbessern, benötigen Sie dieses Prompt-Paradigma

Jul 22, 2024 pm 05:28 PM
工程

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les auteurs de cet article proviennent de l'Université du Zhejiang, du Laboratoire d'intelligence artificielle de Shanghai, de l'Université chinoise de Hong Kong, de l'Université de Sydney et de l'Université d'Oxford. Liste des auteurs : Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, Wanli Ouyang, Philip Torr, Jian Wu. Parmi eux, le co-premier auteur Wu Yixuan est doctorant à l'Université du Zhejiang et Wang Yizhou est assistant de recherche scientifique au Laboratoire d'intelligence artificielle de Shanghai. L'auteur correspondant Tang Shixiang est chercheur postdoctoral à l'Université chinoise de Hong Kong.

Les modèles multimodaux de langage étendu (MLLM) ont montré des capacités impressionnantes dans différentes tâches, malgré cela, le potentiel de ces modèles dans les tâches de détection est encore sous-estimé. Lorsque des coordonnées précises sont requises dans des tâches complexes de détection d'objets, les hallucinations des MLLM leur font souvent manquer des objets cibles ou donnent des cadres de délimitation inexacts. Afin de permettre la détection des MLLM, les travaux existants nécessitent non seulement de collecter de grandes quantités d'ensembles de données d'instructions de haute qualité, mais également d'affiner les modèles open source. Bien que long et laborieux, il ne parvient pas non plus à tirer parti des capacités de compréhension visuelle plus puissantes du modèle fermé. À cette fin, l'Université du Zhejiang, en collaboration avec le Laboratoire d'intelligence artificielle de Shanghai et l'Université d'Oxford, a proposé DetToolChain, un nouveau paradigme d'invite qui libère les capacités de détection des grands modèles de langage multimodaux. Les grands modèles multimodaux peuvent apprendre à détecter avec précision sans formation. Des recherches pertinentes ont été incluses dans ECCV 2024.

Afin de résoudre les problèmes de MLLM dans les tâches de détection, DetToolChain part de trois points : (1) Concevoir des invites visuelles pour la détection, qui sont plus directes et efficaces pour MLLM que les invites textuelles traditionnelles, ( 2) décomposer les tâches de détection détaillées en tâches petites et simples, (3) utiliser une chaîne de pensée pour optimiser progressivement les résultats de détection et éviter autant que possible l'illusion de grands modèles multimodaux.

Correspondant aux informations ci-dessus, DetToolChain contient deux conceptions clés : (1) Un ensemble complet d'invites de traitement visuel (invites de traitement visuel), qui sont dessinées directement dans l'image et peuvent réduire considérablement l'écart entre les informations visuelles et différence d'informations textuelles. (2) Un ensemble complet de raisonnements de détection incite à améliorer la compréhension spatiale de la cible de détection et à déterminer progressivement l'emplacement précis final de la cible grâce à une chaîne d'outils de détection adaptative à l'échantillon.

En combinant DetToolChain avec MLLM, comme GPT-4V et Gemini, diverses tâches de détection peuvent être prises en charge sans réglage d'instructions, y compris la détection de vocabulaire ouvert, la détection de cible de description, la compréhension d'expression référentielle et la détection de cible orientée.

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

  • Titre de l'article : DetToolChain : Un nouveau paradigme d'incitation pour libérer la capacité de détection du MLLM
  • Lien de l'article : https://arxiv.org/abs/2403.12488

Qu'est-ce que DetToolChain ?

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

                                                                                                                                                                                          Étapes :

I. Formatage : convertissez le format d'entrée d'origine de la tâche en un modèle d'instruction approprié comme entrée dans le MLLM ;
II Réfléchissez : décomposez une détection complexe spécifique. tâche en sous-tâches plus simples et sélectionnez des conseils efficaces dans la boîte à outils de conseils de détection (invites) ;
III. Exécuter : exécuter de manière itérative des invites spécifiques (invites) en séquence 
IV Répondre : utiliser les propres capacités de raisonnement de MLLM pour superviser l'ensemble du processus de détection ; et renvoie la réponse finale (réponse finale).
Boîte à outils d'invite de détection : invites de traitement visuel

Abbildung 2: Schematische Darstellung visueller Verarbeitungsaufforderungen. Wir haben (1) regionalen Verstärker, (2) räumlichen Messstandard und (3) Szenenbild-Parser entwickelt, um die Erkennungsfähigkeiten von MLLMs aus verschiedenen Perspektiven zu verbessern.

Wie in Abbildung 2 dargestellt, (1) zielt Regional Amplifier darauf ab, die Sichtbarkeit von MLLMs auf Regionen von Interesse (ROI) zu verbessern, einschließlich des Zuschneidens des Originalbilds in verschiedene Unterregionen, wobei der Schwerpunkt auf den Unterregionen liegt wo sich das Zielobjekt befindet; darüber hinaus ermöglicht die Zoomfunktion eine feinkörnige Betrachtung bestimmter Teilbereiche im Bild.

(2) Spatial Measurement Standard bietet eine klarere Referenz für die Zielerkennung, indem ein Lineal und ein Kompass mit linearen Skalen auf das Originalbild gelegt werden, wie in Abbildung 2 (2) dargestellt. Hilfslineale und Kompasse ermöglichen MLLMs die Ausgabe genauer Koordinaten und Winkel mithilfe von Translations- und Rotationsreferenzen, die dem Bild überlagert sind. Im Wesentlichen vereinfacht diese Hilfslinie die Erkennungsaufgabe und ermöglicht es MLLMs, die Koordinaten von Objekten zu lesen, anstatt sie direkt vorherzusagen.

(3) Der Scene Image Parser markiert die vorhergesagte Objektposition oder -beziehung und verwendet räumliche und kontextbezogene Informationen, um ein Verständnis der räumlichen Beziehung des Bildes zu erreichen. Scene Image Parser kann in zwei Kategorien unterteilt werden: Zuerst beschriften wir für ein einzelnes Zielobjekt das vorhergesagte Objekt mit Schwerpunkt, konvexer Hülle und Begrenzungsrahmen mit Beschriftungsname und Boxindex. Diese Markierungen stellen Objektpositionsinformationen in verschiedenen Formaten dar und ermöglichen es MLLM, verschiedene Objekte unterschiedlicher Form und mit unterschiedlichem Hintergrund zu erkennen, insbesondere Objekte mit unregelmäßigen Formen oder stark verdeckte Objekte. Der konvexe Hüllenmarker markiert beispielsweise die Grenzpunkte eines Objekts und verbindet sie zu einer konvexen Hülle, um die Erkennungsleistung sehr unregelmäßig geformter Objekte zu verbessern. Zweitens verbinden wir für Multiobjektive die Mittelpunkte verschiedener Objekte durch Szenendiagrammmarkierungen, um die Beziehung zwischen Objekten im Bild hervorzuheben. Basierend auf dem Szenendiagramm kann MLLM seine kontextbezogenen Argumentationsfunktionen nutzen, um vorhergesagte Begrenzungsrahmen zu optimieren und Halluzinationen zu vermeiden. Wie in Abbildung 2 (3) gezeigt, möchte Jerry beispielsweise Käse essen, daher sollten ihre Begrenzungsrahmen sehr nahe beieinander liegen.

Toolkit für Erkennungsbegründungsaufforderungen: Erkennungsbegründungsaufforderungen

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

Um die Zuverlässigkeit des Vorhersagefelds zu verbessern, haben wir Erkennungsbegründungsaufforderungen durchgeführt (siehe Tabelle 1), um die Vorhersageergebnisse zu überprüfen und mögliche potenzielle Probleme zu diagnostizieren . Zunächst schlagen wir den Problem Insight Guider vor, der schwierige Probleme hervorhebt und effektive Erkennungsvorschläge und ähnliche Beispiele für Abfragebilder bereitstellt. Beispielsweise definiert der Problem Insight Guider für Abbildung 3 die Abfrage als ein Problem der Erkennung kleiner Objekte und schlägt vor, es durch Vergrößern des Surfbrettbereichs zu lösen. Zweitens entwerfen wir den Spatial Relationship Explorer und den Contextual Object Predictor, um die inhärenten räumlichen und kontextbezogenen Fähigkeiten von MLLMs zu nutzen, um sicherzustellen, dass die Erkennungsergebnisse mit dem gesunden Menschenverstand übereinstimmen. Wie in Abbildung 3 dargestellt, kann ein Surfbrett gleichzeitig mit dem Ozean vorkommen (Kontextwissen), und es sollte sich ein Surfbrett in der Nähe der Füße des Surfers befinden (Raumwissen). Darüber hinaus verwenden wir den Self-Verification Promoter, um die Konsistenz der Antworten über mehrere Runden hinweg zu verbessern. Um die Argumentationsfähigkeiten von MLLMs weiter zu verbessern, übernehmen wir weit verbreitete Aufforderungsmethoden wie Debatten und Selbst-Debugging. Eine detaillierte Beschreibung finden Sie im Originaltext.

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

                                                                                         Erkennungsinferenzhinweise können MLLMs dabei helfen, Probleme bei der Erkennung kleiner Objekte zu lösen, indem sie beispielsweise mit gesundem Menschenverstand ein Surfbrett unter den Füßen einer Person lokalisieren und das Modell dazu ermutigen, Surfbretter im Meer zu erkennen.

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

Experiment: Sie können die Feinabstimmungsmethode übertreffen, ohne dass in der Tabelle wie in 2 gezeigt gezeigt wurde. Wir haben unsere Methode auf offenem Vokabularerkennung (OVD) bewertet. , wobei die AP50-Ergebnisse für 17 neue Klassen, 48 Basisklassen und alle Klassen im COCO OVD-Benchmark getestet wurden. Die Ergebnisse zeigen, dass die Leistung von GPT-4V und Gemini durch den Einsatz unserer DetToolChain deutlich verbessert wird.

Um die Wirksamkeit unserer Methode zum Verständnis referenzieller Ausdrücke zu demonstrieren, vergleichen wir unsere Methode mit anderen Zero-Shot-Methoden für die Datensätze RefCOCO, RefCOCO+ und RefCOCOg (Tabelle 5). Auf RefCOCO verbesserte DetToolChain die Leistung der GPT-4V-Basislinie um 44,53 %, 46,11 % bzw. 24,85 % bei val, test-A und test-B und demonstrierte damit das überlegene Verständnis und die Leistung von DetToolChain für referenzielle Ausdrücke unter Zero-Shot-Positionierungsbedingungen.

Das obige ist der detaillierte Inhalt vonECCV 2024 |. Um die Leistung von GPT-4V- und Gemini-Erkennungsaufgaben zu verbessern, benötigen Sie dieses Prompt-Paradigma. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1670
14
PHP-Tutorial
1274
29
C#-Tutorial
1256
24
Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit. LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit. Jul 15, 2024 pm 03:59 PM

Können Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gemäß Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit „Nein“ beantwortet werden) sollte die Antwort „Nein“ lauten. Die Tatsache scheint wahr zu sein: Ein so leistungsstarkes LLM kann mit Zeitreihendaten nicht gut umgehen. Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind. Die Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschließlich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe großer Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. Diese Arbeiten gehen davon aus, dass Sprachmodelle, die gut mit sequentiellen Abhängigkeiten in Texten umgehen können, auch auf Zeitreihen verallgemeinert werden können.

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler großer Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das

See all articles