


Hier erfahren Sie, wie Sie ChatGPT das Lesen von Bildern beibringen
Das Modell „Wen Sheng Tu“ wird 2022 beliebt sein, was wird 2023 beliebt sein?
Die Antwort des Machine-Learning-Ingenieurs Daniel Bourke lautet: Umgekehrt!
Nein, ein neu veröffentlichtes „bildbasiertes Text“-Modell ist im Internet explodiert, und seine hervorragenden Effekte haben viele Internetnutzer dazu veranlasst, es erneut zu veröffentlichen und zu mögen.
ist nicht nur eine grundlegende Funktion zum Ansehen von Bildern und Sprechen, sondern auch zum Schreiben von Liebesgedichten und zum Erklären von Handlungen , und Designobjekte in Bildern usw., diese KI kann alles problemlos bewältigen!
Wenn Sie beispielsweise online ein verlockendes Essen finden, senden Sie ihm einfach das Bild und es werden sofort die erforderlichen Zutaten und Kochschritte angezeigt:
#🎜 🎜##🎜 🎜#
Auf die Frage, wie man aus dem auf dem Kopf stehenden Haus auf dem Bild herauskommt, antwortete AI: Gibt es an der Seite nicht eine Rutsche?
Das Wichtigste ist, dass BLIP-2 im Gegensatz zu früheren Untersuchungen ein universelles Pre-Training-Framework verwendet, sodass es beliebig mit Ihrem eigenen Sprachmodell verbunden werden kann.
Einige Internetnutzer denken bereits über die leistungsstarke Kombination nach, nachdem sie die Benutzeroberfläche auf ChatGPT umgestellt haben.
Erstklassige Verständnisfähigkeit
Das Gameplay von BLIP-2 kann als sehr abwechslungsreich bezeichnet werden.
Sie müssen nur ein Bild bereitstellen und können mit ihm sprechen. Es kann verschiedene Anforderungen erfüllen, z. B. das Erzählen von Geschichten, das Argumentieren und das Generieren personalisierter Texte durch Betrachten des Bildes.
Zum Beispiel kann BLIP-2 nicht nur den malerischen Ort im Bild leicht als die Chinesische Mauer identifizieren, sondern auch die Geschichte der Chinesischen Mauer vorstellen:
Die Große Die Chinesische Mauer wurde 221 v. Chr. errichtet. Sie wurde von Qin Shihuang errichtet, um die kaiserliche Hauptstadt vor einer Invasion aus dem Norden zu schützen.
Auf die Frage, was der Gesichtsausdruck des Mannes auf diesem Bild sei und warum er so sei, antwortete BLIP-2: Er hatte Angst vor dem Huhn, weil es auf ihn zuflog.
Lassen Sie es einen romantischen Satz basierend auf dem Bild unten schreiben:
Katze: Hey, Hund, kann ich auf deinem Rücken reiten?
Hund: Natürlich, warum nicht?
Katze: Ich habe es satt, im Schnee zu laufen.
Wie erreicht BLIP-2 also eine so starke Verständnisfähigkeit?
Implementierung neuer SOTA für mehrere visuelle Sprachaufgaben
Angesichts der Tatsache, dass die End-to-End-Schulungskosten für große Modelle immer höher werden, verwendet BLIP-2 a Allgemeine und effiziente Pre-Training-Strategien:
Bootstrap-Vortraining für visuelle Sprache aus handelsüblichen, eingefrorenen, vorab trainierten Bildcodierern und eingefrorenen großen Sprachmodellen.
Das bedeutet auch, dass sich jeder das Modell aussuchen kann, das er nutzen möchte.
Um die Lücke zwischen den Modi zu schließen, schlug der Forscher einen leichten Abfragetransformator vor.
Der Transformer wird in zwei Stufen vorab trainiert:
Die erste Stufe leitet das Lernen der visuellen Sprachdarstellung aus dem Encoder für eingefrorene Bilder, und die zweite Stufe leitet das Lernen der visuellen Sprachdarstellung Das eingefrorene Sprachmodell. Leitfaden zum generativen Sprachenlernen.
Um die Leistung von BLIP-2 zu testen, begannen die Forscher mit der Bildtextgenerierung ohne Stichprobe , visuelle Beantwortung von Fragen. Es wird anhand von Aufgaben zum Abrufen von Bildtexten und Bildunterschriften bewertet.
Die Endergebnisse zeigen, dass BLIP-2 SOTA bei mehreren visuellen Sprachaufgaben erreicht hat.
Unter diesen ist BLIP-2 8,7 % höher als Flamingo 80B auf Zero-Shot VQAv2 und dem Training Parameter werden immer noch um das 54-fache reduziert.
Und es ist offensichtlich, dass ein stärkerer Bildencoder oder ein stärkeres Sprachmodell eine bessere Leistung bringt.
Es ist erwähnenswert, dass der Forscher am Ende des Papiers auch erwähnte, dass BLIP-2 immer noch eine hat Das Manko ist die mangelnde Fähigkeit zum Kontextlernen:
Jede Probe enthält nur ein Bild-Text-Paar, und es ist derzeit unmöglich, die Korrelation zwischen mehreren Bild-Text-Paaren in einer einzigen Sequenz zu lernen.
Forschungsteam
Das Forschungsteam von BLIP-2 stammt von Salesforce Research.
Der erste Autor ist Junnan Li, der auch der Autor von BLIP ist, das vor einem Jahr gestartet wurde.
ist derzeit leitender Forschungswissenschaftler am Salesforce Asia Research Institute. Absolvent der University of Hong Kong mit einem Bachelor-Abschluss und einem Ph.D. von der National University of Singapore.
Das Forschungsfeld ist sehr breit und umfasst selbstüberwachtes Lernen, halbüberwachtes Lernen, schwach überwachtes Lernen und visuelle Sprache.
Das Folgende ist der Papierlink und der GitHub-Link von BLIP-2. Interessierte Freunde können ihn abholen~
Papierlink: https://arxiv.org/ pdf /2301.12597.pdf
GitHub-Link: https://github.com/salesforce/LAVIS/tree/main/projects/blip2
Referenzlink: [1] https: //twitter.com/mrdbourke/status/1620353263651688448
[2]https://twitter.com/LiJunnan0409/status/1620259379223343107
Das obige ist der detaillierte Inhalt vonHier erfahren Sie, wie Sie ChatGPT das Lesen von Bildern beibringen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



DALL-E 3 wurde im September 2023 offiziell als deutlich verbessertes Modell gegenüber seinem Vorgänger eingeführt. Er gilt als einer der bisher besten KI-Bildgeneratoren und ist in der Lage, Bilder mit komplexen Details zu erstellen. Zum Start war es jedoch exklusiv

Tomato Novel ist eine sehr beliebte Roman-Lesesoftware. Jeder Roman und Comic ist sehr interessant und möchte auch Romane schreiben Also, wie schreiben wir den Roman darin? Meine Freunde wissen es nicht, also lasst uns gemeinsam auf diese Seite gehen und uns eine Einführung zum Schreiben eines Romans ansehen. Teilen Sie das Tomato-Roman-Tutorial zum Schreiben eines Romans. 1. Öffnen Sie zunächst die kostenlose Tomato-Roman-App auf Ihrem Mobiltelefon und klicken Sie auf „Personal Center – Writer Center“. 2. Gehen Sie zur Seite „Tomato Writer Assistant“ – klicken Sie auf „Neues Buch erstellen“. am Ende des Romans.

Colorful-Motherboards erfreuen sich auf dem chinesischen Inlandsmarkt großer Beliebtheit und Marktanteil, aber einige Benutzer von Colorful-Motherboards wissen immer noch nicht, wie sie im BIOS Einstellungen vornehmen sollen? Als Reaktion auf diese Situation hat Ihnen der Herausgeber speziell zwei Methoden zum Aufrufen des farbenfrohen Motherboard-BIOS vorgestellt. Kommen Sie und probieren Sie es aus! Methode 1: Verwenden Sie die U-Disk-Start-Tastenkombination, um das U-Disk-Installationssystem direkt aufzurufen. Die Tastenkombination für das Colorful-Motherboard zum Starten der U-Disk ist zunächst ESC oder F11, um ein Black zu erstellen Wenn Sie den Startbildschirm sehen, drücken Sie kontinuierlich die ESC- oder F11-Taste auf der Tastatur, um ein Fenster zur Auswahl der Startelementsequenz aufzurufen. Bewegen Sie den Cursor an die Stelle, an der „USB“ angezeigt wird " wird angezeigt, und dann

Leider löschen Menschen aus bestimmten Gründen oft versehentlich bestimmte Kontakte. WeChat ist eine weit verbreitete soziale Software. Um Benutzern bei der Lösung dieses Problems zu helfen, wird in diesem Artikel erläutert, wie gelöschte Kontakte auf einfache Weise wiederhergestellt werden können. 1. Verstehen Sie den WeChat-Kontaktlöschmechanismus. Dies bietet uns die Möglichkeit, gelöschte Kontakte wiederherzustellen. Der Kontaktlöschmechanismus in WeChat entfernt sie aus dem Adressbuch, löscht sie jedoch nicht vollständig. 2. Nutzen Sie die integrierte „Kontaktbuch-Wiederherstellung“-Funktion von WeChat, um Zeit und Energie zu sparen. Mit dieser Funktion können Benutzer schnell gelöschte Kontakte wiederherstellen. 3. Rufen Sie die WeChat-Einstellungsseite auf und klicken Sie auf die untere rechte Ecke, öffnen Sie die WeChat-Anwendung „Me“ und klicken Sie auf das Einstellungssymbol in der oberen rechten Ecke, um die Einstellungsseite aufzurufen.

Das Festlegen der Schriftgröße ist zu einer wichtigen Personalisierungsanforderung geworden, da Mobiltelefone zu einem wichtigen Werkzeug im täglichen Leben der Menschen geworden sind. Um den Bedürfnissen verschiedener Benutzer gerecht zu werden, wird in diesem Artikel erläutert, wie Sie das Nutzungserlebnis Ihres Mobiltelefons verbessern und die Schriftgröße des Mobiltelefons durch einfache Vorgänge anpassen können. Warum müssen Sie die Schriftgröße Ihres Mobiltelefons anpassen? Durch Anpassen der Schriftgröße kann der Text klarer und leichter lesbar werden. Geeignet für die Lesebedürfnisse von Benutzern unterschiedlichen Alters. Praktisch für Benutzer mit Sehbehinderung, die Schriftgröße zu verwenden Einstellungsfunktion des Mobiltelefonsystems – So rufen Sie die Systemeinstellungsoberfläche auf – Suchen und geben Sie die Option „Anzeige“ in der Einstellungsoberfläche ein – suchen Sie die Option „Schriftgröße“ und passen Sie sie mit einem Drittanbieter an Anwendung – Laden Sie eine Anwendung herunter und installieren Sie sie, die die Anpassung der Schriftgröße unterstützt – öffnen Sie die Anwendung und rufen Sie die entsprechende Einstellungsoberfläche auf – je nach Person

Mobile Spiele sind mit der Entwicklung der Technologie zu einem festen Bestandteil des Lebens der Menschen geworden. Mit seinem niedlichen Drachenei-Bild und dem interessanten Schlüpfvorgang hat es die Aufmerksamkeit vieler Spieler auf sich gezogen, und eines der Spiele, das viel Aufmerksamkeit erregt hat, ist die mobile Version von Dragon Egg. Um den Spielern dabei zu helfen, ihre eigenen Drachen im Spiel besser zu kultivieren und zu züchten, erfahren Sie in diesem Artikel, wie Sie Dracheneier in der mobilen Version ausbrüten. 1. Wählen Sie den geeigneten Drachenei-Typ aus, der Ihnen gefällt und zu Ihnen passt, basierend auf den verschiedenen Arten von Drachenei-Attributen und -Fähigkeiten, die im Spiel zur Verfügung stehen. 2. Verbessern Sie die Stufe der Brutmaschine, indem Sie Aufgaben erledigen und Requisiten sammeln. Die Stufe der Brutmaschine bestimmt die Schlüpfgeschwindigkeit und die Erfolgsquote beim Schlüpfen. 3. Sammeln Sie die Ressourcen, die die Spieler zum Schlüpfen benötigen

In der heutigen Gesellschaft sind Mobiltelefone zu einem unverzichtbaren Bestandteil unseres Lebens geworden. Als wichtiges Werkzeug für unsere tägliche Kommunikation, Arbeit und unser Leben wird WeChat häufig genutzt. Allerdings kann es bei der Abwicklung unterschiedlicher Transaktionen erforderlich sein, zwei WeChat-Konten zu trennen, was erfordert, dass das Mobiltelefon die gleichzeitige Anmeldung bei zwei WeChat-Konten unterstützt. Als bekannte inländische Marke werden Huawei-Mobiltelefone von vielen Menschen genutzt. Wie können also zwei WeChat-Konten auf Huawei-Mobiltelefonen eröffnet werden? Lassen Sie uns das Geheimnis dieser Methode lüften. Zunächst müssen Sie zwei WeChat-Konten gleichzeitig auf Ihrem Huawei-Mobiltelefon verwenden. Der einfachste Weg ist

Der Unterschied zwischen Methoden und Funktionen der Go-Sprache liegt in ihrer Verknüpfung mit Strukturen: Methoden sind mit Strukturen verknüpft und werden zum Betrieb von Strukturdaten verwendet, oder Methodenfunktionen sind unabhängig von Typen und werden zum Ausführen allgemeiner Operationen verwendet.
