Das Ali-Riesenmodell ist wieder Open Source! Es verfügt über vollständige Bildverständnis- und Objekterkennungsfunktionen. Es basiert auf dem allgemeinen Problemsatz 7B und ist für kommerzielle Anwendungen geeignet.-KI-php.cn

Das Ali-Riesenmodell ist wieder Open Source! Es verfügt über vollständige Bildverständnis- und Objekterkennungsfunktionen. Es basiert auf dem allgemeinen Problemsatz 7B und ist für kommerzielle Anwendungen geeignet.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2023-09-03 13:01:08

nach vorne

797 Leute haben es durchsucht

Alibaba hat ein neues großes Modell als Open Source bereitgestellt, was sehr aufregend ist ~

Nach Tongyi Qianwen-7B(Qwen-7B) hat Alibaba Cloud das groß angelegte visuelle Sprachmodell Qwen-VL auf den Markt gebracht, und das wird auch so sein direkt Open Source, sobald es online geht.

Qwen-VL ist ein großes multimodales Modell, das auf Tongyi Qianwen-7B basiert. Insbesondere unterstützt es mehrere Eingaben wie Bilder, Text und Erkennungsrahmen und kann nicht nur Text, sondern auch Erkennungsrahmen ausgeben Ausgabe

Zum Beispiel geben wir ein Bild von Aniya ein. Durch die Form von Frage und Antwort kann Qwen-VL-Chat den Inhalt des Bildes zusammenfassen und Aniya im Bild genau lokalisieren. Qwen-VL demonstrierte die Stärke des „Hexagonal Warrior“ und belegte den ersten Platz in der standardmäßigen englischen Bewertung der vier Hauptkategorien multimodaler Aufgaben (Zero-shot Caption/VQA/DocVQA/Grounding).

Sobald die Open-Source-Nachrichten herauskamen, erregten sie sofort große Aufmerksamkeit

Das erste allgemeine Modell, das die chinesische Open-Domain-Positionierung unterstützt Das Ali-Riesenmodell ist wieder Open Source! Es verfügt über vollständige Bildverständnis- und Objekterkennungsfunktionen. Es basiert auf dem allgemeinen Problemsatz 7B und ist für kommerzielle Anwendungen geeignet.

Lassen Sie uns zunächst einen Gesamtblick auf die Funktionen der Modelle der Qwen-VL-Serie werfen:

Mehrsprachiger Dialog: Unterstützt mehrsprachigen Dialog, Ende -durchgängige Unterstützung für Chinesisch und Englisch in Bildern. Zweisprachige Langtexterkennung erstes allgemeines Modell zur Unterstützung der chinesischen Open-Domain-Positionierung: Erkennung von Frame-Anmerkungen durch chinesische Open-Domain-Sprachausdrücke, d Anderes Open-Source-LVLM

(groß angelegtes visuelles Sprachmodell)

Ohne die ursprüngliche Bedeutung zu ändern, muss der Inhalt neu geschrieben werden: Qwen-VL kann in Szenarien wie Wissensfrage und -antwort, Bildfrage und -antwort, Dokumentfrage und -antwort, feinkörniger visueller Positionierung usw. verwendet werden .
Zum Beispiel versteht ein ausländischer Freund es nicht. Wenn Sie auf Chinesisch ins Krankenhaus gehen, um einen Arzt aufzusuchen, durch die Navigationskarte verwirrt sind und nicht wissen, wie Sie zur entsprechenden Abteilung gelangen, können Sie die Bilder direkt weitergeben und Fragen an Qwen-VL und lassen Sie es als Übersetzer auf der Grundlage der Bildinformationen fungieren (manueller Hundekopf)
In Bezug auf die visuelle Positionierungsfähigkeit kann Qwen-VL auch dann, wenn das Bild sehr komplex ist und viele Charaktere vorhanden sind, den Anforderungen gerecht werden. Hulk und Spider-Man genau identifizieren

Der spezifische Trainingsprozess ist in drei Schritte unterteilt:

Vor dem Training: Optimieren Sie nur den visuellen Encoder und den visuellen Sprachadapter und frieren Sie das Sprachmodell ein. Bei Verwendung umfangreicher gepaarter Bild-Text-Daten beträgt die Eingabebildauflösung 224 x 224.
Multitasking-Vortraining: Führen Sie visuelle Multitasking-Sprachdaten mit höherer Auflösung (448 x 448) wie VQA, Text-VQA, referenzielles Verständnis usw. für das gemeinsame Vortraining mit mehreren Aufgaben ein.
Überwachte Feinabstimmung: Visuelle Encoder einfrieren, Sprachmodelle und Adapter optimieren. Verwenden Sie Dialoginteraktionsdaten zur sofortigen Abstimmung, um das endgültige Qwen-VL-Chat-Modell mit interaktiven Funktionen zu erhalten.

In der standardmäßigen englischen Bewertung von Qwen-VL testeten die Forscher vier Hauptkategorien multimodaler Aufgaben (Zero-shot Caption/VQA/DocVQA/Grounding)

Den Ergebnissen zufolge war Qwen-VL das Beste Ergebnisse wurden beim Vergleich mit Open-Source-LVLM derselben Größe erzielt. Darüber hinaus erstellten die Forscher einen Testsatz

TouchStone

basierend auf dem GPT-4-Bewertungsmechanismus.

Wer sich für Qwen-VL interessiert, findet die Demo auf der Magic Community und Huggingface Kommen Sie vorbei und probieren Sie es direkt aus. Der Link befindet sich am Ende des Artikels

Qwen-VL unterstützt Forscher und Entwickler bei der Sekundärentwicklung und ermöglicht die kommerzielle Nutzung. Es ist jedoch zu beachten, dass Sie, wenn Sie es kommerziell nutzen möchten, zuerst den Fragebogenantrag ausfüllen müssen

Projektlink: https://modelscope.cn/models/qwen/Qwen-VL/summary

https://modelscope .cn/models/qwen/Qwen-VL-Chat/summary
https://huggingface.co/Qwen/Qwen-VL
https://huggingface.co/Qwen/Qwen -VL-Chat
https://github.com/QwenLM/Qwen-VL

Bitte klicken Sie auf den folgenden Link, um das Papier anzusehen: https://arxiv.org/abs/2308.12966

Das obige ist der detaillierte Inhalt vonDas Ali-Riesenmodell ist wieder Open Source! Es verfügt über vollständige Bildverständnis- und Objekterkennungsfunktionen. Es basiert auf dem allgemeinen Problemsatz 7B und ist für kommerzielle Anwendungen geeignet.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!