Inhaltsverzeichnis
Methode. Einführung
Heim Technologie-Peripheriegeräte KI „MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.'

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.'

Apr 24, 2023 am 11:16 AM
ai gpt

Für Menschen ist das Verstehen der Informationen eines Bildes nichts weiter als eine triviale Angelegenheit. Menschen können die Bedeutung eines Bildes beiläufig erkennen, ohne darüber nachzudenken. Genau wie auf dem Bild unten ist das Ladegerät, an das das Telefon angeschlossen ist, etwas ungeeignet. Menschen können das Problem auf einen Blick erkennen, aber für KI ist es immer noch sehr schwierig.

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

Das Aufkommen von GPT-4 hat begonnen, diese Probleme zu erleichtern, und es kann schnell auf die Bilder hinweisen . Das Problem: VGA-Kabel zum Aufladen des iPhone.

Tatsächlich ist der Charme von GPT-4 weitaus geringer. Noch aufregender ist es, handgezeichnete Skizzen zu verwenden, um Websites direkt zu erstellen Gekritzeltes Diagramm auf dem Entwurfspapier und machen Sie ein Foto. Senden Sie dann das Foto an GPT-4 und lassen Sie es den Website-Code gemäß dem Diagramm schreiben. Whoosh, GPT-4 hat den Webseiten-Code geschrieben.

Leider ist diese Funktion von GPT-4 noch nicht für die Öffentlichkeit zugänglich und es ist unmöglich, damit anzufangen und sie zu erleben. Einige Leute können jedoch nicht länger warten und ein Team der King Abdullah University of Science and Technology (KAUST) hat ein ähnliches Produkt wie GPT-4 entwickelt – MiniGPT-4. Zu den Teamforschern gehören Zhu Deyao, Chen Jun, Shen Xiaoqian, Li Xiang und Mohamed H. Elhoseiny, die alle der Vision-CAIR-Forschungsgruppe von KAUST angehören.

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

  • Papieradresse: https:/ /github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
  • Paper-Homepage: https:/ /minigpt-4.github.io/
  • Code-Adresse: https://github.com/Vision-CAIR/MiniGPT- MiniGPT-4 verfügt über viele GPT-4-ähnliche Funktionen, z. B. das Generieren detaillierter Bildbeschreibungen und das Erstellen einer Website aus handschriftlichen Entwürfen. Darüber hinaus beobachteten die Autoren andere neue Funktionen von MiniGPT-4, darunter das Erstellen von Geschichten und Gedichten auf der Grundlage vorgegebener Bilder, die Bereitstellung von Lösungen für in Bildern gezeigte Probleme, das Erlernen des Kochens für Benutzer anhand von Lebensmittelfotos usw.
  • MiniGPT-4 Es ist leicht zu reden, wenn man sich nur die Bilder ansieht

MiniGPT-4 Was ist der Effekt? Beginnen wir mit ein paar Beispielen. Um eine bessere Erfahrung mit MiniGPT-4 zu erzielen, wird außerdem empfohlen, zum Testen die englische Eingabe zu verwenden.

Lassen Sie uns zunächst die Fähigkeit von MiniGPT-4 untersuchen, Bilder zu beschreiben. Für das Bild links lautet die Antwort von MiniGPT-4 ungefähr: „Das Bild beschreibt einen Kaktus, der auf einem zugefrorenen See wächst. Um den Kaktus herum befinden sich riesige Eiskristalle und in der Ferne sind schneebedeckte Gipfel zu sehen …“ „Wenn Sie als nächstes fragen: Könnte dieses Szenario in der realen Welt passieren? Die Antwort von MiniGPT-4 lautet, dass dieses Bild in der realen Welt nicht häufig vorkommt und warum.

Als nächstes werfen wir einen Blick auf die MiniGPT-4-Bildfrage und Antwortfähigkeit. Frage: „Was stimmt mit dieser Pflanze nicht? Was soll ich tun?“ MiniGPT-4 wies nicht nur auf das Problem hin, sondern gab auch an, dass die Blätter mit braunen Flecken durch eine Pilzinfektion verursacht werden könnten, und gab Behandlungsschritte an:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

Betrachtet man einige Beispiele, ist die Bild-Chat-Funktion von MiniGPT-4 bereits sehr leistungsstark. Darüber hinaus kann MiniGPT-4 Websites aus Skizzen erstellen. Lassen Sie MiniGPT-4 beispielsweise eine Webseite gemäß dem Entwurfsdiagramm auf der linken Seite zeichnen. Nach Erhalt der Anweisung gibt MiniGPT-4 den entsprechenden HTML-Code und die entsprechende Website nach Bedarf aus:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.#🎜 🎜## 🎜🎜#

Mit MiniGPT-4 ist das Schreiben von Werbeslogans für Bilder ganz einfach geworden. Bitten Sie MiniGPT-4, einen Werbetext für die Tasse links zu schreiben. MiniGPT-4 hat das verschlafene Katzenmuster auf der Tasse genau hervorgehoben, was für Kaffeeliebhaber und Katzenliebhaber sehr gut geeignet ist. Es hat auch auf das Material der Tasse usw. hingewiesen:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

MiniGPT-4 Kann auch ein Rezept aus einem Bild erzeugen und ein Küchenexperte werden:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

Erklären Sie das weit verbreitete Meme:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

Rite ein Gedicht basierend auf dem Bild:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

Erwähnenswert ist außerdem, dass die MiniGPT-4-Demo jetzt geöffnet ist und online gespielt werden kann (es wird empfohlen, den Test auf Englisch durchzuführen):

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

Demo-Adresse: https://0810e8582bcad31944.gradio.live/

Nach der Veröffentlichung des Projekts erregte es große Aufmerksamkeit bei den Internetnutzern. Lassen Sie zum Beispiel MiniGPT-4 die Objekte im Bild erklären:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

Weitere Testerfahrungen von Internetnutzern finden Sie unten:

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

Methode. Einführung

Autor Es wird angenommen, dass das fortschrittliche Large Language Model (LLM) von GPT-4 der Hauptgrund für seine fortschrittlichen multimodalen Generierungsfunktionen ist. Um dieses Phänomen zu untersuchen, schlagen die Autoren MiniGPT-4 vor, das eine Projektionsebene verwendet, um einen eingefrorenen visuellen Encoder und ein eingefrorenes LLM (Vicuna) auszurichten.

MiniGPT-4 besteht aus einem vorab trainierten visuellen ViT- und Q-Former-Encoder, einer separaten linearen Projektionsschicht und einem erweiterten Vicuna-Sprachmodell in großem Maßstab. MiniGPT-4 erfordert lediglich das Training linearer Ebenen, um visuelle Merkmale an Vicuna auszurichten.

„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.

MiniGPT-4 wurde in zwei Stufen trainiert. Die erste herkömmliche Vortrainingsphase dauerte 10 Stunden, um auf 4 A100-GPUs mit etwa 5 Millionen ausgerichteten Bild-Text-Paaren zu trainieren. Nach der ersten Stufe war Vicuna in der Lage, Bilder zu verstehen. Aber Vicunas Textgenerierungsfähigkeiten waren stark beeinträchtigt.

Um dieses Problem zu lösen und die Benutzerfreundlichkeit zu verbessern, schlugen Forscher eine neuartige Möglichkeit vor, mithilfe des Modells selbst und ChatGPT hochwertige Bild-Text-Paare zu erstellen. Auf dieser Grundlage erstellte die Studie einen kleinen, aber qualitativ hochwertigen Datensatz (insgesamt 3500 Paare).

In der zweiten Feinabstimmungsstufe wird dieser Datensatz mithilfe von Konversationsvorlagen trainiert, um dessen Generierungszuverlässigkeit und allgemeine Benutzerfreundlichkeit deutlich zu verbessern. Diese Phase ist recheneffizient und erfordert nur eine A100GPU in etwa 7 Minuten.

Andere verwandte Arbeiten:

  • VisualGPT: https://github.com/ Vision-CAIR/VisualGPT
  • ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner
#🎜 🎜#

Darüber hinaus werden im Projekt auch Open-Source-Codebibliotheken wie BLIP2, Lavis und Vicuna verwendet.

Das obige ist der detaillierte Inhalt von„MiniGPT-4 beweist seine erstaunlichen Bilderkennungsfähigkeiten und vielfältigen Funktionen: Chatten mit Bildern, Erstellen von Websites mit Skizzen usw.'. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Crossplay haben?
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

CentOS Shutdown -Befehlszeile CentOS Shutdown -Befehlszeile Apr 14, 2025 pm 09:12 PM

Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

Was sind die Backup -Methoden für Gitlab auf CentOS? Was sind die Backup -Methoden für Gitlab auf CentOS? Apr 14, 2025 pm 05:33 PM

Backup- und Wiederherstellungsrichtlinie von GitLab im Rahmen von CentOS -System Um die Datensicherheit und Wiederherstellung der Daten zu gewährleisten, bietet GitLab on CentOS eine Vielzahl von Sicherungsmethoden. In diesem Artikel werden mehrere gängige Sicherungsmethoden, Konfigurationsparameter und Wiederherstellungsprozesse im Detail eingeführt, um eine vollständige GitLab -Sicherungs- und Wiederherstellungsstrategie aufzubauen. 1. Manuell Backup Verwenden Sie den GitLab-RakegitLab: Backup: Befehl erstellen, um die manuelle Sicherung auszuführen. Dieser Befehl unterstützt wichtige Informationen wie GitLab Repository, Datenbank, Benutzer, Benutzergruppen, Schlüssel und Berechtigungen. Die Standardsicherungsdatei wird im Verzeichnis/var/opt/gitlab/backups gespeichert. Sie können /etc /gitlab ändern

So überprüfen Sie die CentOS -HDFS -Konfiguration So überprüfen Sie die CentOS -HDFS -Konfiguration Apr 14, 2025 pm 07:21 PM

Vollständige Anleitung zur Überprüfung der HDFS -Konfiguration in CentOS -Systemen In diesem Artikel wird die Konfiguration und den laufenden Status von HDFS auf CentOS -Systemen effektiv überprüft. Die folgenden Schritte helfen Ihnen dabei, das Setup und den Betrieb von HDFs vollständig zu verstehen. Überprüfen Sie die Hadoop -Umgebungsvariable: Stellen Sie zunächst sicher, dass die Hadoop -Umgebungsvariable korrekt eingestellt ist. Führen Sie im Terminal den folgenden Befehl aus, um zu überprüfen, ob Hadoop ordnungsgemäß installiert und konfiguriert ist: Hadoopsion-Check HDFS-Konfigurationsdatei: Die Kernkonfigurationsdatei von HDFS befindet sich im/etc/hadoop/conf/verzeichnis, wobei core-site.xml und hdfs-site.xml von entscheidender Bedeutung sind. verwenden

Wie ist die GPU -Unterstützung für Pytorch bei CentOS? Wie ist die GPU -Unterstützung für Pytorch bei CentOS? Apr 14, 2025 pm 06:48 PM

Aktivieren Sie die Pytorch -GPU -Beschleunigung am CentOS -System erfordert die Installation von CUDA-, CUDNN- und GPU -Versionen von Pytorch. Die folgenden Schritte führen Sie durch den Prozess: Cuda und Cudnn Installation Bestimmen Sie die CUDA-Version Kompatibilität: Verwenden Sie den Befehl nvidia-smi, um die von Ihrer NVIDIA-Grafikkarte unterstützte CUDA-Version anzuzeigen. Beispielsweise kann Ihre MX450 -Grafikkarte CUDA11.1 oder höher unterstützen. Download und installieren Sie Cudatoolkit: Besuchen Sie die offizielle Website von Nvidiacudatoolkit und laden Sie die entsprechende Version gemäß der höchsten CUDA -Version herunter und installieren Sie sie, die von Ihrer Grafikkarte unterstützt wird. Installieren Sie die Cudnn -Bibliothek:

CentOS installieren MySQL CentOS installieren MySQL Apr 14, 2025 pm 08:09 PM

Die Installation von MySQL auf CentOS umfasst die folgenden Schritte: Hinzufügen der entsprechenden MySQL Yum -Quelle. Führen Sie den Befehl mySQL-server aus, um den MySQL-Server zu installieren. Verwenden Sie den Befehl mySQL_SECURE_INSTALLATION, um Sicherheitseinstellungen vorzunehmen, z. B. das Festlegen des Stammbenutzerkennworts. Passen Sie die MySQL -Konfigurationsdatei nach Bedarf an. Tune MySQL -Parameter und optimieren Sie Datenbanken für die Leistung.

Detaillierte Erklärung des Docker -Prinzips Detaillierte Erklärung des Docker -Prinzips Apr 14, 2025 pm 11:57 PM

Docker verwendet Linux -Kernel -Funktionen, um eine effiziente und isolierte Anwendungsumgebung zu bieten. Sein Arbeitsprinzip lautet wie folgt: 1. Der Spiegel wird als schreibgeschützte Vorlage verwendet, die alles enthält, was Sie für die Ausführung der Anwendung benötigen. 2. Das Union File System (UnionFS) stapelt mehrere Dateisysteme, speichert nur die Unterschiede, speichert Platz und beschleunigt. 3. Der Daemon verwaltet die Spiegel und Container, und der Kunde verwendet sie für die Interaktion. 4. Namespaces und CGroups implementieren Container -Isolation und Ressourcenbeschränkungen; 5. Mehrere Netzwerkmodi unterstützen die Containerverbindung. Nur wenn Sie diese Kernkonzepte verstehen, können Sie Docker besser nutzen.

CentOS8 startet SSH CentOS8 startet SSH Apr 14, 2025 pm 09:00 PM

Der Befehl zum Neustart des SSH -Dienstes lautet: SystemCTL Neustart SSHD. Detaillierte Schritte: 1. Zugriff auf das Terminal und eine Verbindung zum Server; 2. Geben Sie den Befehl ein: SystemCTL Neustart SSHD; 1. Überprüfen Sie den Dienststatus: SystemCTL -Status SSHD.

So sehen Sie sich Gitlab -Protokolle unter CentOS So sehen Sie sich Gitlab -Protokolle unter CentOS Apr 14, 2025 pm 06:18 PM

Eine vollständige Anleitung zum Anzeigen von GitLab -Protokollen unter CentOS -System In diesem Artikel wird in diesem Artikel verschiedene GitLab -Protokolle im CentOS -System angezeigt, einschließlich Hauptprotokolle, Ausnahmebodi und anderen zugehörigen Protokollen. Bitte beachten Sie, dass der Log -Dateipfad je nach GitLab -Version und Installationsmethode variieren kann. Wenn der folgende Pfad nicht vorhanden ist, überprüfen Sie bitte das GitLab -Installationsverzeichnis und die Konfigurationsdateien. 1. Zeigen Sie das Hauptprotokoll an. Verwenden Sie den folgenden Befehl, um die Hauptprotokolldatei der GitLabRails-Anwendung anzuzeigen: Befehl: Sudocat/var/log/gitlab/gitlab-rails/production.log Dieser Befehl zeigt das Produkt an

See all articles