


Entdecken Sie eine neue Generation kleiner Modelle, die über GPT 3.5 hinausgehen.
Ende letzten Jahres stellte OpenAI ChatGPT der Öffentlichkeit vor. Nach seiner Veröffentlichung rückten KI-gesteuerte Chatbots sofort in den Mittelpunkt des Mainstream-Diskurses. Viele Forscher starteten Diskussionsrunden darüber, wie sie Unternehmen, Bildung usw. verändern können . Eine Diskussionsrunde.
Anschließend folgten Technologieriesen diesem Beispiel und investierten in wissenschaftliche Forschungsteams, und auch ihre sogenannte „generative KI“-Technologie (Technologie, die Dialogtexte, Grafiken usw. erzeugen kann) war bereit.
Wie wir alle wissen, basiert ChatGPT auf der Grundlage der GPT-3.5-Modellreihe. Im Vergleich zu ChatGPT sind die neuen Forschungsergebnisse jedoch sehr gut ? Kürzlich schlugen sie in einem von Amazon veröffentlichten Artikel „Multimodal Chain-of-Thought Reasoning in Language Models“ vor, dass diese Architektur im ScienceQA-Benchmark gut abschneidet, wenn die Anzahl der Parameter weniger als 1 Milliarde beträgt. 16 Prozentpunkte höher als GPT-3,5 (75,17 % → 91,68 %) und übertrifft sogar viele Menschen.
Hier ist eine kurze Einführung in den ScienceQA-Benchmark. Es handelt sich um den ersten multimodalen wissenschaftlichen Frage- und Antwortdatensatz mit detaillierten Erläuterungen. Er wurde hauptsächlich von der UCLA vorgeschlagen Wird zum Testen der Multimodalität des Modells verwendet. Die Fähigkeit zum dynamischen Denken weist eine sehr reiche Feldvielfalt auf, die die Bereiche Naturwissenschaften, Sprachwissenschaft und Sozialwissenschaften abdeckt, und stellt hohe Anforderungen an die Fähigkeit zum logischen Denken des Modells.
Papieradresse: https://arxiv.org/abs/2302.00923
Projektadresse: https://github.com/amazon-science/mm-cot
Werfen wir einen Blick darauf, wie das Sprachmodell von Amazon GPT-3.5 übertrifft.
Multimodal-CoT einschließlich visueller Funktionen
Das Large Language Model (LLM) eignet sich gut für komplexe Argumentationsaufgaben, was untrennbar mit der Unterstützung von Chain of Thought (CoT)-Eingabeaufforderungen verbunden ist. Die bestehende CoT-Forschung konzentriert sich jedoch nur auf Sprachmodalitäten. Um eine CoT-Inferenz in Multimodalität auszulösen, besteht eine mögliche Lösung in der Feinabstimmung eines kleinen Sprachmodells, um eine CoT-Inferenz durch die Verschmelzung visueller und sprachlicher Merkmale durchzuführen.
Es wurde jedoch beobachtet, dass kleine Models häufiger Dinge erfinden als große Models. Dieses Verhalten von Models wird oft als „Halluzination“ bezeichnet. Eine frühere Google-Studie hat auch gezeigt (Papier „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models“), dass CoT-basierte Eingabeaufforderungen nur dann nützlich sind, wenn das Modell mindestens 100 Milliarden Parameter hat!
Das heißt, CoT-Hinweise haben keinen positiven Einfluss auf die Leistung kleiner Modelle und führen nur zu Leistungssteigerungen, wenn sie mit Modellen mit ∼100B-Parametern verwendet werden.
In diesem Artikel wird jedoch die Leistungsverbesserung mit weniger als 1 Milliarde Parametern untersucht. Vereinfacht ausgedrückt schlägt dieses Papier ein multimodales CoT vor, das visuelle Merkmale enthält, und verwendet dieses Paradigma (multimodales CoT), um CoT-Argumentation in mehreren Modalitäten zu finden.
Multimodal-CoT kombiniert visuelle Funktionen in einem einzigen Trainingsrahmen, um die Auswirkungen von Sprachmodellen zu reduzieren, die dazu neigen, illusorische Argumentationsmuster zu erzeugen. Insgesamt unterteilt dieses Framework den Argumentationsprozess in zwei Teile: Begründungsgenerierung (Gründe finden) und Antwortbegründung (Antworten finden).
Multimodaler CoT Zweistufiger Prozess: Verwenden Sie Text (Frage + Kontext) und visuelle Funktionen, um eine logische Begründung zu generieren.
Datensatz
Dieser Artikel konzentriert sich auf den ScienceQA-Datensatz, der Bilder und Text als Teil des Kontexts enthält. Darüber hinaus enthält der Datensatz auch Erläuterungen zu den Antworten, damit das Modell in Ordnung sein kann -Abgestimmt, um CoT-Begründung zu generieren. Darüber hinaus nutzt dieser Artikel das DETR-Modell, um visuelle Merkmale zu generieren.
Kleinere LMs neigen bei der Generierung von CoT/Grundprinzipien zu Halluzinationen. Der Autor spekuliert, dass das Modell bei einer modifizierten Architektur die vom LM generierten Textfunktionen und die von der generierten visuellen Funktionen nutzen kann Bildmodell, Dann können Sie besser begründen und Fragen beantworten.
Architektur
Generell brauchen wir eine Architektur, die das kann Modelle, die Text- und visuelle Funktionen generieren und diese zur Generierung von Textantworten verwenden.
Es ist auch bekannt, dass es eine gewisse Interaktion zwischen Text und visuellen Merkmalen gibt, bei der es sich im Wesentlichen um eine Art gemeinsamen Aufmerksamkeitsmechanismus handelt, der dabei hilft, die Informationen der beiden Modalitäten zu kapseln Das, was in ihnen vorhanden ist, ermöglicht es, auf Ideen zurückzugreifen. Um all dies zu erreichen, wählten die Autoren das T5-Modell, das über eine Encoder-Decoder-Architektur verfügt, und wie oben erwähnt, wird das DETR-Modell zur Generierung visueller Funktionen verwendet.
Der Encoder des T5-Modells ist für die Generierung von Textfunktionen verantwortlich, der Decoder des T5-Modells nutzt jedoch nicht die vom Encoder generierten Textfunktionen, sondern die Vom Autor vorgeschlagene gemeinsame Aufmerksamkeit Die Ausgabe der Interaktionsschicht im Co-Aufmerksamkeitsstil.
Demontage, vorausgesetzt, H_Sprache ist die Ausgabe des T5-Encoders. X_vision ist die Ausgabe von DETR. Der erste Schritt besteht darin, sicherzustellen, dass die visuellen Merkmale und die Textmerkmale dieselbe verborgene Größe haben, damit wir die Aufmerksamkeitsebene verwenden können.
Hinweis: Alle Codeausschnitte stammen vom GitHub des Artikels: https://github.com/amazon-science/mm-cot/blob/main/model.py
self.image_dense = nn.Linear(self.patch_dim, config.d_model)
W_h ist im Wesentlichen eine lineare Ebene und H_vision entspricht den endgültigen visuellen Merkmalen. W_h hilft dabei, die Größe der visuellen Merkmale an die Größe der Textmerkmale anzupassen.
Als nächstes müssen wir eine Aufmerksamkeitsebene hinzufügen, damit visuelle und textliche Funktionen miteinander interagieren können. Zu diesem Zweck verwenden die Autoren eine Single-Head-Aufmerksamkeitsschicht mit H_Language als Abfragevektor und H_Vision als Schlüssel- und Wertvektoren.
self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size, kdim=config.hidden_size, vdim=config.hidden_size, num_heads=1, batch_first=True) image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)
Jetzt haben wir eine Einbettung, die Informationen aus Text- und visuellen Funktionen enthält. Anschließend nutzen die Autoren Gated Fusion, um einen endgültigen Satz von Funktionen zu generieren, die an den Decoder gesendet werden. Es gibt zwei Schritte zur Gated Fusion:
- Erhalten Sie einen Bewertungsvektor zwischen 0 und 1, um die Wichtigkeit jedes Aufmerksamkeitsmerkmalsgeschlechts zu bestimmen.
- Verwenden Sie Score, um Text- und Aufmerksamkeitsfunktionen zu verschmelzen. W_I und W_v sind im Wesentlichen zwei lineare Schichten.
self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) self.sigmoid = nn.Sigmoid() hidden_states = encoder_outputs[0] merge = torch.cat([hidden_states, image_att], dim=-1) gate = self.sigmoid(self.gate_dense(merge)) hidden_states = (1 - gate) * hidden_states + gate * image_att
Zuletzt werden die fusionierten Features an den Decoder übergeben.
decoder_outputs = self.decoder( input_ids=decoder_input_ids, attention_mask=decoder_attention_mask, inputs_embeds=decoder_inputs_embeds, past_key_values=past_key_values, encoder_hidden_states=hidden_states,
Ergebnisse
Die Autoren verwendeten die Gewichte des UnifiedQA-Modells als Initialisierungspunkt des T5-Modells und optimierten es auf ScienceQA Datensatz. Sie stellten fest, dass ihre multimodale CoT-Methode alle vorherigen Basislinien, einschließlich GPT-3.5, übertraf.
Das Interessante ist, dass selbst das Basismodell mit nur 223 Millionen Parametern GPT-3.5 und andere visuelle QA-Modelle übertrifft! Dies unterstreicht die Leistungsfähigkeit einer multimodalen Architektur.
Die Autoren zeigen auch, dass ihr zweistufiger Ansatz den einstufigen Ansatz übertrifft.
Fazit
Dieses Papier bringt das Größte Man kann daraus ablesen, wie leistungsfähig multimodale Funktionen sind, wenn es darum geht, Probleme sowohl mit visuellen als auch mit textlichen Merkmalen zu lösen.
Die Autoren zeigen, dass durch die Nutzung visueller Funktionen sogar ein kleines Sprachmodell (LM) sinnvolle Gedankenketten/Argumentation mit viel weniger Halluzinationen erzeugen kann, was die Rolle des Visuellen offenbart Modelle können bei der Entwicklung von Lerntechniken auf der Grundlage von Gedankenketten eine Rolle spielen.
Aus Experimenten sehen wir, dass das Hinzufügen visueller Funktionen auf Kosten von Millionen von Parametern einen größeren Mehrwert bringen kann als die Skalierung eines Klartextmodells auf Milliarden von Parametern.
Das obige ist der detaillierte Inhalt vonEntdecken Sie eine neue Generation kleiner Modelle, die über GPT 3.5 hinausgehen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.
