4K-HD-Bilder ganz einfach verstehen! Dieses große multimodale Modell analysiert automatisch den Inhalt von Webplakaten und ist damit für Mitarbeiter sehr praktisch.-Hardware-Rezension-php.cn

Heim

4K-HD-Bilder ganz einfach verstehen! Dieses große multimodale Modell analysiert automatisch den Inhalt von Webplakaten und ist damit für Mitarbeiter sehr praktisch.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 23, 2024 am 08:04 AM

git composer 分辨率效果雷达美图 Die Chinesische Universität Hongkong lab

Ein großes Modell, das den Inhalt von PDFs, Webseiten, Postern und Excel-Diagrammen automatisch analysieren kann, ist für Teilzeitkräfte nicht besonders praktisch.

Das vom Shanghai AI Lab, der Chinese University of Hong Kong und anderen Forschungseinrichtungen vorgeschlagene Modell InternLM-XComposer2-4KHD (abgekürzt IXC2-4KHD) macht dies Wirklichkeit.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

Im Vergleich zu anderen multimodalen Großmodellen mit einer Auflösungsgrenze von nicht mehr als 1500 x 1500 erhöht diese Arbeit das maximale Eingabebild des multimodalen Großmodells auf eine Auflösung von mehr als 4K (3840 x 1600) und unterstützt alle Längen- und Breitenverhältnis und 336 Pixel ~ 4K dynamische Auflösungsänderungen.

Drei Tage nach seiner Veröffentlichung stand das Modell an der Spitze der Beliebtheitsliste der visuellen Frage-und-Antwort-Modelle „Hugging Face“.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

Einfaches Verständnis von 4K-Bildern

Werfen wir zunächst einen Blick auf den Effekt ~

Der Forscher hat einen Screenshot der Homepage des Artikels eingegeben (ShareGPT4V: Improving Large Multi-Modal Models with Better Captions) (Auflösung 2550 x 3300). ) und fragte, welches Papier Das Modell hat die höchste Leistung auf MMBench.

Es ist zu beachten, dass diese Informationen nicht im Textteil des Eingabe-Screenshots erwähnt werden, sondern nur in einem recht komplizierten Radardiagramm erscheinen. Angesichts einer solch kniffligen Frage hat IXC2-4KHD die Informationen in der Radarkarte erfolgreich verstanden und die Frage richtig beantwortet.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

Angesichts einer Bildeingabe mit extremerer Auflösung (816 x 5133) erkennt IXC2-4KHD leicht, dass das Bild aus 7 Teilen besteht, und erklärt den in jedem Teil enthaltenen Textinformationsinhalt genau.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

Anschließend testeten die Forscher die Fähigkeiten von IXC2-4KHD auch umfassend an 16 multimodalen Bewertungsindikatoren für große Modelle, von denen sich 5 Bewertungen (DocVQA, ChartQA, InfographicVQA, TextVQA, OCRBench) auf die hohe Auflösung von konzentrierten die Bildverständnisfähigkeit des Modells.

Mit nur 7B-Parametern erzielte IXC2-4KHD in 10 der Bewertungen Ergebnisse, die mit GPT4V und Gemini Pro vergleichbar sind oder diese sogar übertreffen, was zeigt, dass es sich nicht auf das Verständnis hochauflösender Bilder beschränkt, sondern vielseitig für verschiedene Aufgaben und Szenarien geeignet ist .

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

△Die Leistung von IXC2-4KHD ist mit nur 7B-Parametern vergleichbar mit GPT-4V und Gemini-Pro. Wie erreicht man eine dynamische 4K-Auflösung?

Um das Ziel einer dynamischen 4K-Auflösung zu erreichen, umfasst IXC2-4KHD drei Hauptdesigns:

(1) Dynamisches Auflösungstraining:

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

△Bildverarbeitungsstrategie mit 4K-Auflösung

In IXC2-4KHD Im Framework , wird das Eingabebild zufällig auf eine Zwischengröße zwischen dem Eingabebereich und dem maximalen Bereich (nicht mehr als 55 x 336 x 336, entspricht einer Auflösung von 3840 x 1617) vergrößert, während das Seitenverhältnis beibehalten wird.

Anschließend wird das Bild automatisch in mehrere 336x336-Bereiche geschnitten, um jeweils visuelle Merkmale zu extrahieren. Diese Trainingsstrategie mit dynamischer Auflösung ermöglicht es dem Modell, sich an visuelle Eingaben jeder Auflösung anzupassen und gleichzeitig das Problem unzureichender hochauflösender Trainingsdaten auszugleichen.

Experimente zeigen, dass das Modell mit zunehmender Obergrenze der dynamischen Auflösung eine stabile Leistungsverbesserung bei hochauflösenden Bildverständnisaufgaben (InfographicVQA, DocVQA, TextVQA) erreicht und bei 4K-Auflösung immer noch nicht die Obergrenze erreicht, was Potenzial für weitere Verbesserungen zeigt Erweiterung bei höheren Auflösungen.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

(2) Informationen zum Kachellayout hinzufügen:

Damit sich das Modell an sich ändernde dynamische Auflösungen anpassen kann, stellten Forscher fest, dass es notwendig ist, Informationen zum Kachellayout als zusätzliche Eingabe hinzuzufügen. Um dies zu erreichen, verfolgten die Forscher eine einfache Strategie: Nach jeder Kachelreihe wird ein spezielles „Newline“-Token („n“) eingefügt, um das Modell über die Anordnung der Kacheln zu informieren. Experimente zeigen, dass das Hinzufügen von Kachellayoutinformationen bei relativ kleinen Änderungen kaum Auswirkungen auf das dynamische Auflösungstraining hat (HD9 bedeutet, dass die Anzahl der Kachelbereiche 9 nicht überschreitet), aber erhebliche Leistungsverbesserungen beim dynamischen 4K-Auflösungstraining bringen kann.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

(3) Erweiterung der Auflösung während der Inferenzphase

Die Forscher fanden außerdem heraus, dass mithilfe eines dynamischen Auflösungsmodells die Auflösung während der Inferenzphase direkt erweitert werden kann, indem die maximale Kachelobergrenze erhöht wird, was zu zusätzlichen Leistungssteigerungen führt . Wenn beispielsweise ein trainiertes Modell auf HD9 (bis zu 9 Blöcke) direkt mit HD16 getestet wird, kann auf InfographicVQA eine Leistungsverbesserung von bis zu 8 % beobachtet werden.

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

IXC2-4KHD erhöht die von multimodalen großen Modellen unterstützte Auflösung auf das 4K-Niveau. Forscher sagten, dass die aktuelle Strategie der Unterstützung größerer Bildeingaben durch Erhöhung der Anzahl von Kacheln auf Einschränkungen bei den Rechenkosten und dem Videospeicher stößt. Daher planen sie, effizientere Strategien vorzuschlagen, um in Zukunft eine höhere Auflösungsunterstützung zu erreichen.

Papierlink:

https://arxiv.org/pdf/2404.06512.pdf

Projektlink:

https://github.com/InternLM/InternLM-XComposer

– Ende –

Bitte einsenden Ihre Einsendungen per E-Mail an:

ai@qbitai.com

Geben Sie den Titel an und sagen Sie uns:

Wer sind Sie, woher kommen Sie, den Inhalt Ihrer Einreichung

Fügen Sie den Link zur Arbeit/Projekthomepage und die Kontaktinformationen hinzu

Wir werden mein Bestes geben, um Ihnen rechtzeitig zu antworten über den neuesten Fortschritt von Wissenschaft und Technologie~

轻松拿捏 4K 高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

Das obige ist der detaillierte Inhalt von4K-HD-Bilder ganz einfach verstehen! Dieses große multimodale Modell analysiert automatisch den Inhalt von Webplakaten und ist damit für Mitarbeiter sehr praktisch.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7450

CakePHP-Tutorial

1374

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Welche Bibliotheken werden für die Operationen der schwimmenden Punktzahl in Go verwendet? Apr 02, 2025 pm 02:06 PM

In der Bibliothek, die für den Betrieb der Schwimmpunktnummer in der GO-Sprache verwendet wird, wird die Genauigkeit sichergestellt, wie die Genauigkeit ...

Gitee Pages statische Website -Bereitstellung fehlgeschlagen: Wie können Sie einzelne Dateien 404 Fehler beheben und beheben? Apr 04, 2025 pm 11:54 PM

GitePages statische Website -Bereitstellung fehlgeschlagen: 404 Fehlerbehebung und Auflösung bei der Verwendung von Gitee ...

Welche Bibliotheken in GO werden von großen Unternehmen entwickelt oder von bekannten Open-Source-Projekten bereitgestellt? Apr 02, 2025 pm 04:12 PM

Welche Bibliotheken in GO werden von großen Unternehmen oder bekannten Open-Source-Projekten entwickelt? Bei der Programmierung in Go begegnen Entwickler häufig auf einige häufige Bedürfnisse, ...

Wie löste ich das Problem des Typs des user_id -Typs bei der Verwendung von Redis -Stream, um Nachrichtenwarteschlangen in GO -Sprache zu implementieren? Apr 02, 2025 pm 04:54 PM

Das Problem der Verwendung von RETISTREAM zur Implementierung von Nachrichtenwarteschlangen in der GO -Sprache besteht darin, die Go -Sprache und Redis zu verwenden ...

So führen Sie das H5 -Projekt aus Apr 06, 2025 pm 12:21 PM

Ausführen des H5 -Projekts erfordert die folgenden Schritte: Installation der erforderlichen Tools wie Webserver, Node.js, Entwicklungstools usw. Erstellen Sie eine Entwicklungsumgebung, erstellen Sie Projektordner, initialisieren Sie Projekte und schreiben Sie Code. Starten Sie den Entwicklungsserver und führen Sie den Befehl mit der Befehlszeile aus. Vorschau des Projekts in Ihrem Browser und geben Sie die Entwicklungsserver -URL ein. Veröffentlichen Sie Projekte, optimieren Sie Code, stellen Sie Projekte bereit und richten Sie die Webserverkonfiguration ein.

Python Hourglass Graph Drawing: Wie vermeiden Sie variable undefinierte Fehler? Apr 01, 2025 pm 06:27 PM

Erste Schritte mit Python: Hourglas -Grafikzeichnung und Eingabeüberprüfung In diesem Artikel wird das Problem der Variablendefinition gelöst, das von einem Python -Anfänger im Hourglass -Grafikzeichnungsprogramm auftritt. Code...

TYPECHO ROOTE VERFÜGBARKLOUTE: Warum ist mein/test/tag/his/10086 passungstesttagindex anstelle von testTagpage? Apr 01, 2025 am 09:03 AM

Analyse und Problemuntersuchung von typten-Routing-Matching-Regeln und Problemuntersuchungen analysiert und beantworten Fragen zu den inkonsistenten Ergebnissen der Registrierung von Typecho-Plug-in-Routing-Registrierung und den tatsächlichen Übereinstimmungsgebnissen ...

Wie gibt ich die mit dem Modell in Beego Orm zugeordnete Datenbank an? Apr 02, 2025 pm 03:54 PM

Wie kann man im Beegoorm -Framework die mit dem Modell zugeordnete Datenbank angeben? In vielen BeEGO -Projekten müssen mehrere Datenbanken gleichzeitig betrieben werden. Bei Verwendung von BeEGO ...

See all articles