Die abschließende Schlussfolgerung des ACL 2024-Papiers: großes Sprachmodell ≠ Weltsimulator, Yann LeCun: Das ist so richtig-KI-php.cn

Heim

Die abschließende Schlussfolgerung des ACL 2024-Papiers: großes Sprachmodell ≠ Weltsimulator, Yann LeCun: Das ist so richtig

PHPz

Jun 16, 2024 pm 10:31 PM

工程 ACL 2024

Wenn GPT-4 bei der Simulation von Zustandsänderungen auf der Grundlage von Aufgaben des gesunden Menschenverstandes nur etwa 60 % genau ist, sollten wir dann trotzdem darüber nachdenken, große Sprachmodelle als Weltsimulatoren zu verwenden?

In den letzten zwei Tagen hat ein für ACL 2024 ausgewählter Beitrag „Can Language Models Serve as Text-Based World Simulators?“ hitzige Diskussionen in den sozialen Medien ausgelöst, und sogar Turing-Award-Gewinner Yann LeCun hat es geschafft beteiligt.

Die in diesem Artikel untersuchte Frage lautet: Können aktuelle Sprachmodelle selbst als Weltsimulatoren fungieren und korrekt vorhersagen, wie Aktionen verschiedene Weltzustände verändern, wodurch die Notwendigkeit einer umfangreichen manuellen Codierung vermieden wird?

Als Antwort auf dieses Problem haben Forscher der University of Arizona, der New York University, der Johns Hopkins University, Microsoft Research, dem Allen Institute for Artificial Intelligence und anderen Institutionen im Kontext „textbasierter Simulatoren“ ihre Antworten gegeben gegeben in .

Sie glauben: Sprachmodelle können nicht als Weltsimulatoren verwendet werden. GPT-4 ist beispielsweise nur etwa 60 % genau, wenn es Zustandsänderungen simuliert, die auf Aufgaben des gesunden Menschenverstands wie dem Kochen von Wasser basieren.

Die Genauigkeit des Aufgabentrainings kann 60 % erreichen. Bedeutet das nicht, dass sie mindestens „weltweit“ sind? Modelle bis zu einem gewissen Grad“? Und es wird sich mit LLM-Iterationen weiter verbessern. LeCun erklärte auch, dass das Weltmodell kein LLM sein werde.

Zurück in der Arbeit erstellten und verwendeten die Forscher einen neuen Benchmark namens „ByteSized32-State-Prediction“, der einen Datensatz enthält, der aus textuellen Spielzustandsübergängen und begleitenden Spielaufgaben besteht. Sie nutzen diesen Benchmark erstmals, um die Leistung großer Sprachmodelle (LLMs) als textbasierte Weltsimulatoren direkt zu quantifizieren. Beim Testen von GPT-4 an diesem Datensatz stellten die Forscher fest, dass es trotz seiner beeindruckenden Leistung ein unzuverlässiger Weltsimulator ohne weitere Innovationen bleibt.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了 Daher glauben die Forscher, dass ihre Arbeit sowohl neue Erkenntnisse über die Fähigkeiten und Schwächen aktueller LLMs als auch eine neue Grundlage für die Verfolgung zukünftiger Fortschritte bei der Entstehung neuer Modelle liefert.

Papieradresse: https://arxiv.org/pdf/2406.06485

Methodenübersicht

Die Forscher untersuchten die Fähigkeit von LLM, als Weltsimulator in einer textbasierten virtuellen Umgebung zu fungieren. In dieser Umgebung empfängt ein Agent Beobachtungen und schlägt Aktionen in natürlicher Sprache vor, um ein Ziel zu erreichen.

Jede Textumgebung kann formal als zielkonditionierter teilweise beobachtbarer Markov-Entscheidungsprozess (POMDP) mit einem 7-Tupel (S,A,T,O,R,C,D) dargestellt werden, das S darstellt Zustandsraum, A repräsentiert den Aktionsraum, T: S×A→S repräsentiert die Transformationsfunktion, O repräsentiert die Beobachtungsfunktion, R: S×A→R repräsentiert die Belohnungsfunktion, C repräsentiert die natürliche Sprache „Kontextnachricht“, die die beschreibt Ziel- und Aktionssemantik, D: S×A→{0,1} repräsentiert die binäre Abschlussindikatorfunktion.

Große Modellsimulator-Aufgabe (LLM-Sim)

Die Forscher schlugen eine Vorhersageaufgabe namens LLM as-a-Simulator (LLM-Sim) zur quantitativen Bewertung der Leistungsfähigkeit von Sprachmodellen vor als zuverlässige Simulatoren dienen.

LLM-Sim-Aufgabe besteht darin, eine Funktion F : C×S×A→S×R×{0,1} als Weltsimulator zu implementieren. In der Praxis sollte ein vollständiger Zustandsübergangssimulator F zwei Arten von Zustandsübergängen berücksichtigen: aktionsgesteuerte Übergänge und umgebungsgesteuerte Übergänge.

Abbildung 1 ist ein Beispiel für die Verwendung von LLM als Textspielsimulator: Nachdem die Spüle geöffnet wurde, wird der Becher in der Spüle mit Wasser gefüllt. Der aktionsgesteuerte Übergang besteht darin, dass nach dem Ausführen der Aktion zum Öffnen des Spülbeckens das Spülbecken geöffnet wird (isOn=true), während beim umgebungsgesteuerten Übergang beim Öffnen des Spülbeckens Wasser den Becher im Spülbecken füllt.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Um die Fähigkeit von LLM, jeden Übergang zu modellieren, besser zu verstehen, haben die Forscher die Simulatorfunktion F weiter in drei Schritte zerlegt:

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Aktionsgesteuerter Übergangssimulator: Gegeben sind c, s_t und a_t , F_act: C×S×A→S sagt s^act_t+1 voraus, wobei s^act_t+1 die durch die Aktion verursachte direkte Zustandsänderung darstellt.
Umgebungsgesteuerter Übergangssimulator: Gegeben c und s^act_t+1 sagt F_env: C×S→S s_t+1 voraus, wobei s_t+1 der Zustand ist, der sich aus jedem umgebungsgesteuerten Übergang ergibt.
Spielfortschrittssimulator: Bei gegebenen c, s_t+1 und a_t sagt F_R: C×S×A→R×{0,1} die Belohnung r_t+1 und den Spielabschlussstatus d_t+1 voraus.

Darüber hinaus betrachteten die Forscher zwei Varianten der LLM-Sim-Aufgabe

Vollständige Zustandsvorhersage: LLM gibt den vollständigen Zustand aus.
Zustandsdifferenzvorhersage: LLM gibt nur die Differenz zwischen Eingabe- und Ausgabezuständen aus.

Daten und Auswertung

Um diese Aufgabe zu erfüllen, führten die Forscher einen neuen Textspiel-Zustandsübergangsdatensatz ein. Der Datensatz ist „BYTESIZED32-State-Prediction (BYTESIZED32-SP)“, der 76.369 Transformationen enthält, ausgedrückt als (c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1 ,d_t +1) Tupel . Diese Übergänge wurden aus 31 verschiedenen Textspielen gesammelt.

Tabelle 1 unten fasst zusätzliche Korpusstatistiken zusammen.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Die Leistung von LLM-Sim wird durch die Vorhersagegenauigkeit des Modells im Verhältnis zu den tatsächlichen Bezeichnungen im Testbeispieldatensatz bestimmt. Gemäß den experimentellen Bedingungen muss LLM Objekteigenschaften (Simulation von F_act, F_env oder F) und/oder Spielfortschritt (Simulation von F_R oder F) simulieren, die wie folgt definiert sind:

Objekteigenschaften: alle Objekte in Das Spiel umfasst jeweils die Eigenschaften eines Objekts (z. B. Temperatur, Größe) und seine Beziehung zu anderen Objekten (z. B. dass es sich innerhalb oder auf einem anderen Objekt befindet).
Spielfortschritt: Der Status des Agenten im Verhältnis zum Gesamtziel, einschließlich der aktuell gesammelten Belohnungen, ob das Spiel beendet wurde und ob das Gesamtziel erreicht wurde.

Die Forscher stellten fest, dass LLM in jedem Fall den vorherigen Ground-Truth-Zustand (wenn die Funktion F_env ist, ist der vorherige Zustand s^act_t+1) sowie den gesamten Aufgabenkontext bereitstellte. Das heißt, LLM führt immer eine einstufige Vorhersage durch.

Experimentelle Ergebnisse

Abbildung 1 oben zeigt, wie der Forscher kontextuelles Lernen nutzt, um die Leistung des Modells in der LLM-Sim-Aufgabe zu bewerten. Sie bewerteten die Genauigkeit von GPT-4 in den vollständigen Vorhersagemechanismen für Zustände und Zustandsdifferenzen. Das Modell empfängt den vorherigen Zustand (kodiert als JSON-Objekt), frühere Aktionen und Kontextmeldungen und erzeugt den nachfolgenden Zustand (als vollständiges JSON-Objekt oder Differenz).

Tabelle 2 unten zeigt die Genauigkeit von GPT-4 für die Simulation vollständiger Zustandsübergänge sowie für die individuelle Simulation aktionsgesteuerter Übergänge und umgebungsgesteuerter Übergänge.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Die Forscher kamen zu folgenden wichtigen Erkenntnissen:

Es ist einfacher, aktionsgesteuerte Conversions vorherzusagen, als umgebungsgesteuerte Conversions vorherzusagen. Im besten Fall ist GPT-4 in der Lage, 77,1 % der dynamischen aktionsgesteuerten Übergänge korrekt zu modellieren. Im Vergleich dazu simuliert GPT-4 höchstens 49,7 % der dynamischen, umgebungsgesteuerten Transformationen korrekt.

Statische Übergänge lassen sich leichter vorhersagen als dynamische Übergänge. Wie erwartet ist es in den meisten Fällen viel einfacher, statische Transformationen zu modellieren als dynamische Transformationen.

Bei dynamischen Zuständen ist es einfacher, den gesamten Spielzustand vorherzusagen, während es bei statischen Zuständen einfacher ist, Zustandsunterschiede vorherzusagen. Die Vorhersage von Zustandsunterschieden in dynamischen Zuständen kann die Leistung bei der Simulation statischer Übergänge erheblich verbessern (> 10 %), während die Leistung bei der Simulation dynamischer Übergänge abnimmt.

Spielregeln sind sehr wichtig, LLM kann ausreichend gute Spielregeln generieren. Wenn in der Kontextnachricht keine Spielregeln angegeben sind, verschlechtert sich in den meisten Fällen die Leistung von GPT-4 bei allen drei Simulationsaufgaben.

GPT-4 kann in den meisten Fällen den Spielfortschritt vorhersagen. Tabelle 3 unten zeigt die Ergebnisse der GPT-4-Vorhersage des Spielfortschritts. Mit Spielregelinformationen im Kontext kann GPT-4 den Spielfortschritt in 92,1 % der Testfälle korrekt vorhersagen. Das Vorhandensein dieser Regeln ist im Kontext von entscheidender Bedeutung: Ohne sie sinkt die Vorhersagegenauigkeit von GPT-4 auf 61,5 %.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Die menschliche Leistung bei LLM-Sim-Aufgaben ist besser als bei GPT-4. Die Forscher führten vorläufige Studien am Menschen zur LLM-Sim-Aufgabe durch. Die Ergebnisse sind in Tabelle 4 unten aufgeführt.

Es wurde festgestellt, dass die Gesamtgenauigkeit von Menschen 80 % betrug, während die Genauigkeit von abgetasteten LLM 50 % betrug, wobei es kaum Unterschiede zwischen verschiedenen Annotatoren gab. Dies zeigt, dass die Aufgabe zwar im Allgemeinen intuitiv und für Menschen relativ einfach ist, für LLMs jedoch noch erheblicher Raum für Verbesserungen besteht.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

GPT-4 ist fehleranfälliger, wenn Arithmetik, gesunder Menschenverstand oder wissenschaftliche Kenntnisse erforderlich sind. Abbildung 2 unten zeigt den Anteil der vorhergesagten Ergebnisse, die richtig waren, den Anteil, der das Attribut auf einen falschen Wert gesetzt hat, oder den Anteil, der den Attributwert nicht geändert hat, für allgemeine Zustandsübergänge, aktionsgesteuerte Übergänge und umgebungsgesteuerte Übergänge.

Wir können beobachten, dass GPT-4 die meisten einfachen booleschen Attribute sehr gut verarbeiten kann. Fehler konzentrieren sich auf nicht triviale Eigenschaften, die Arithmetik (z. B. Temperatur, timeAboveMaxTemp), gesunden Menschenverstand (z. B. aktuelle_Apertur, aktueller_Fokus) oder wissenschaftliche Kenntnisse (z. B. on) erfordern.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Weitere technische Details und experimentelle Ergebnisse finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonDie abschließende Schlussfolgerung des ACL 2024-Papiers: großes Sprachmodell ≠ Weltsimulator, Yann LeCun: Das ist so richtig. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1671

CakePHP-Tutorial

1428

Laravel-Tutorial

1331

PHP-Tutorial

1276

C#-Tutorial

1256

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit. Jul 15, 2024 pm 03:59 PM

Können Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gemäß Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit „Nein“ beantwortet werden) sollte die Antwort „Nein“ lauten. Die Tatsache scheint wahr zu sein: Ein so leistungsstarkes LLM kann mit Zeitreihendaten nicht gut umgehen. Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind. Die Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschließlich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe großer Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. Diese Arbeiten gehen davon aus, dass Sprachmodelle, die gut mit sequentiellen Abhängigkeiten in Texten umgehen können, auch auf Zeitreihen verallgemeinert werden können.

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler großer Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das

See all articles