Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka' schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor-KI-php.cn

Heim

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka' schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

PHPz

Oct 12, 2023 pm 06:29 PM

工程 Großer Modellschnitt llm-shearing

Welche Auswirkungen hat das Schneiden der Alpakahaare des Modells Llama 2? Heute hat das Chen Danqi-Team der Princeton University eine Methode zur Beschneidung großer Modelle namens LLM-Shearing vorgeschlagen, mit der mit geringem Rechen- und Kostenaufwand eine bessere Leistung als Modelle gleicher Größe erzielt werden kann.

Seit dem Aufkommen großer Sprachmodelle (LLM) haben sie bei verschiedenen Aufgaben der natürlichen Sprache bemerkenswerte Ergebnisse erzielt. Für das Training großer Sprachmodelle sind jedoch enorme Rechenressourcen erforderlich. Infolgedessen ist die Branche zunehmend daran interessiert, gleichermaßen leistungsstarke Modelle mittlerer Größe zu bauen, mit dem Aufkommen von LLaMA, MPT und Falcon, die eine effiziente Inferenz und Feinabstimmung ermöglichen.

Diese LLMs unterschiedlicher Größe eignen sich für unterschiedliche Anwendungsfälle, aber das Training jedes einzelnen Modells von Grund auf (selbst eines kleinen Modells mit 1 Milliarde Parametern) erfordert immer noch viele Rechenressourcen, was für die meisten wissenschaftlichen Forschungen immer noch schwierig ist Institutionen. Es ist eine große Belastung.

In diesem Artikel versucht das Chen Danqi-Team der Princeton University, das folgende Problem zu lösen: Können vorhandene vorab trainierte LLM verwendet werden, um ein kleineres, universelles und leistungswettbewerbsfähiges LLM aufzubauen und es gleichzeitig von Grund auf zu trainieren? Erfordert viel weniger Rechenaufwand?

Forscher erforschen den Einsatz von strukturiertem Beschneiden, um ihre Ziele zu erreichen. Das Problem hierbei besteht darin, dass es bei Allzweck-LLMs zu Leistungseinbußen beim bereinigten Modell kommt, insbesondere wenn nach der Bereinigung kein erheblicher Rechenaufwand anfällt. Die von ihnen verwendete effiziente Pruning-Methode kann zur Entwicklung kleinerer, aber dennoch leistungswettbewerbsfähiger LLMs verwendet werden, und das Training erfordert deutlich weniger Rechenaufwand als das Training von Grund auf.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Papieradresse: https://arxiv.org/abs/2310.06694
Codeadresse: https://github.com/princeton-nlp/LLM-Shearing
ModelsSheared-LLaMA -1.3B, Sheared-LLaMA-2.7B

Vor dem Beschneiden von LLM identifizierten die Forscher zwei wichtige technische Herausforderungen: Wie lässt sich die endgültige Beschneidungsstruktur mit leistungsstarker Leistung und effizienter Argumentation bestimmen? Die aktuelle strukturierte Pruning-Technologie von LLM verfügt nicht über eine spezifizierte Zielstruktur, was zu einer unbefriedigenden Leistung und Inferenzgeschwindigkeit des bereinigten Modells führt. Zweitens: Wie kann das bereinigte Modell vorab trainiert werden, um die erwartete Leistung zu erreichen? Sie beobachteten, dass das Training mit Rohdaten vor dem Training zu unterschiedlichen Verlustreduzierungen in den verschiedenen Domänen führte, verglichen mit dem Training des Modells von Grund auf.

Um diese beiden Herausforderungen anzugehen, schlugen Forscher den „LLM – Shearing“-Algorithmus vor. Dieser neuartige Bereinigungsalgorithmus, genannt „gerichtete strukturierte Bereinigung“, beschneidet das Quellmodell auf eine bestimmte Zielarchitektur, die durch die Konfiguration des vorhandenen vorab trainierten Modells bestimmt wird. Sie zeigen, dass die Pruning-Methode nach Unterstrukturen im Quellmodell sucht und die Leistung unter Ressourcenbeschränkungen maximiert. Darüber hinaus wurde ein dynamischer Batch-Ladealgorithmus entwickelt, der die Trainingsdaten jeder Domäne proportional zur Verlustreduzierungsrate laden kann, wodurch die Daten effizient genutzt und die Gesamtleistungsverbesserung beschleunigt wird.

Schließlich zerlegte der Forscher das LLaMA2-7B-Modell in zwei kleinere LLMs, nämlich Sheared-LLaMA-1.3B und Sheared-LLaMA-2.7B, und bestätigte damit die Wirksamkeit seiner Methode.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Sie verwendeten nur 50 Milliarden Token (d. h. 5 % des OpenLLaMA-Vortrainingsbudgets) für das Beschneiden und das weitere Vortraining, aber für 11 repräsentative nachgelagerte Aufgaben (wie Allgemeinwissen, Leseverständnis und Weltwissen) und Selbst mit der Anpassung der durch Formeln generierten Anweisungen übertrifft die Leistung dieser beiden Modelle immer noch andere beliebte LLMs derselben Größe, einschließlich Pythia, INCITE und OpenLLaMA.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Aber es sollte erwähnt werden, dass bei der Veröffentlichung von Sheared-LLaMA-3B in diesem Artikel der Rekord des stärksten 3B-Open-Source-Modells von StableLM-3B gebrochen wurde.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Darüber hinaus deuten nachgelagerte Aufgabenleistungsverläufe darauf hin, dass die Verwendung von mehr Token zum weiteren Trainieren des bereinigten Modells größere Vorteile bringt. Die Forscher experimentierten nur mit Modellen mit bis zu 7 Milliarden Parametern, aber LLM-Shearing ist sehr allgemein und kann in zukünftigen Arbeiten auf große Sprachmodelle jeder Größe ausgeweitet werden.

Einführung in die Methode

Anhand eines vorhandenen großen Modells M_S (Quellmodell) besteht das Ziel dieses Artikels darin, zu untersuchen, wie effektiv ein kleineres und stärkeres Modell M_T (Zielmodell) generiert werden kann. Die Studie geht davon aus, dass hierfür zwei Stufen erforderlich sind:

Die erste Stufe beschneidet M_S auf M_T. Dies führt zwar zwangsläufig zu einer Leistungsverschlechterung;
Die zweite Stufe ist ein kontinuierliches Vortraining M_T, um seine Leistung zu steigern.

Strukturierte Beschneidung

Strukturierte Beschneidung kann eine große Anzahl von Parametern des Modells entfernen, wodurch der Effekt einer Komprimierung des Modells und einer Beschleunigung der Inferenz erzielt wird. Allerdings können bestehende strukturierte Bereinigungsmethoden dazu führen, dass Modelle von herkömmlichen Architekturkonfigurationen abweichen. Beispielsweise erzeugt die CoFiPruning-Methode Modelle mit uneinheitlichen Schichtkonfigurationen, was im Vergleich zu standardmäßigen einheitlichen Schichtkonfigurationen einen zusätzlichen Inferenzaufwand mit sich bringt.

Dieser Artikel erweitert CoFiPruning, um das Beschneiden des Quellmodells auf jede angegebene Zielkonfiguration zu ermöglichen. In diesem Artikel wird beispielsweise die INCITE-Base-3B-Architektur als Zielstruktur beim Generieren des 2.7B-Modells verwendet.

Darüber hinaus lernt dieser Artikel auch eine Reihe von Beschneidungsmasken (Beschneidungsmasken) für Modellparameter unterschiedlicher Granularität kennen. Die Maskenvariablen lauten wie folgt:

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Jede Maskenvariable steuert, ob relevante Unterstrukturen beschnitten werden sollen bleiben erhalten. Wenn beispielsweise die entsprechende z^layer= 0 ist, muss diese Ebene gelöscht werden. Abbildung 2 unten zeigt, wie Beschneidungsmasken steuern, welche Strukturen beschnitten werden.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Nach dem Bereinigen finalisieren wir die beschnittene Architektur, indem wir die Komponenten mit der höchsten Bewertung in Bezug auf die Maskenvariablen in jeder Unterstruktur beibehalten und fahren mit der Vorbereinigung des beschnittenen Modells mithilfe des Sprachmodellierungsziels fort.

Dynamisches Batch-Laden

Diese Studie geht davon aus, dass ein umfassendes Vortraining der beschnittenen Modelle erforderlich ist, um die Modellleistung wiederherzustellen.

Inspiriert von anderen Forschungsergebnissen schlägt dieses Papier einen effizienteren Algorithmus vor, das dynamische Stapelladen, mit dem die Domänenskala einfach basierend auf der Modellleistung dynamisch angepasst werden kann. Der Algorithmus lautet wie folgt:

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Experimente und Ergebnisse

Modellkonfiguration: Dieser Artikel verwendet das LLaMA2-7B-Modell als Quellmodell und führt dann strukturierte Bereinigungsexperimente durch zwei kleinere. Die Zielgröße beträgt 2,7B und 1,3B, und die Leistung des gescherten Modells wird mit Modellen derselben Größe verglichen, einschließlich OPT-1.3B, Pythia-1.4B, OPT-2.7B, Pythia-2.8 B, INCITE-Base -3B, OpenLLaMA-3B-v1, OpenLLaMA-3B-v2. Tabelle 8 fasst die Modellarchitekturdetails für alle diese Modelle zusammen.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Daten: Da die Trainingsdaten von LLaMA2 nicht öffentlich zugänglich sind, verwendet dieser Artikel den RedPajama-Datensatz. Tabelle 1 enthält die von unserem Modell und Basismodell verwendeten Vortrainingsdaten.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Training: Die Forscher verwendeten in allen Experimenten bis zu 16 Nvidia A100 GPUs (80 GB).

SHEARED-LLAMA übertrifft LMs vergleichbarer Größe

Dieser Artikel zeigt, dass Sheared-LLaMA bestehende LLMs ähnlicher Größe deutlich übertrifft und dabei nur einen Bruchteil des Rechenbudgets verbraucht, um diese Modelle von Grund auf zu trainieren.

Downstream-Aufgaben: Tabelle 2 zeigt die Null-Schuss- und Wenig-Schuss-Leistung von Sheared-LLaMA und vorhandenen vorab trainierten Modellen ähnlicher Größe bei Downstream-Aufgaben.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Anweisungsabstimmung: Wie in Abbildung 3 dargestellt, erzielt das auf Anweisungen abgestimmte Sheared-LLaMA eine höhere Gewinnquote im Vergleich zu allen anderen vorab trainierten Modellen desselben Maßstabs.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Abbildung 4 zeigt, dass das INCITEBase-3B-Modell mit einer viel höheren Genauigkeit beginnt, seine Leistung jedoch während des laufenden Vortrainingsprozesses abflacht.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Analyse

Abschließend analysierte der Forscher die Vorteile dieser Methode.

Wirksamkeit des dynamischen Stapelladens

Unter anderem analysieren Forscher die Wirksamkeit des dynamischen Stapelladens anhand der folgenden drei Aspekte: (1) domänenübergreifender endgültiger LM-Verlust, (2) Datennutzung für jede Domäne während des gesamten Trainingsprozesses, (3) nachgelagerte Aufgabenleistung. Die Ergebnisse basieren auf dem Sheared-LaMA-1.3B-Algorithmus.

Domainübergreifender Verlustunterschied. Der Zweck des dynamischen Stapelladens besteht darin, die Verlustreduzierungsrate jeder Domäne so auszugleichen, dass der Verlust den Referenzwert in ungefähr derselben Zeit erreicht. Der Unterschied zwischen dem Modellverlust (ursprüngliches Batch-Laden und dynamisches Batch-Laden) und dem Referenzverlust ist in Abbildung 5 dargestellt. Im Gegensatz dazu reduziert das dynamische Batch-Laden den Verlust gleichmäßig und der Verlustunterschied zwischen den Domänen ist ebenfalls sehr ähnlich, was dies zeigt die Daten effizienter nutzen.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Datennutzung. Tabelle 3 vergleicht die Rohdatenanteile von RedPajama und die Nutzung dynamisch geladener Domänendaten (Abbildung 7 zeigt die Änderungen der Domänengewichte während des Trainingsprozesses). Dynamisches Massenladen erhöht die Gewichtung der Book- und C4-Domänen im Vergleich zu anderen Domänen, was darauf hindeutet, dass diese Domänen aus dem bereinigten Modell schwieriger wiederherzustellen sind.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Downstream-Leistung. Wie in Abbildung 6 dargestellt, erzielte das bereinigte Modell, das mit dynamischem Batch-Laden trainiert wurde, eine bessere Downstream-Leistung im Vergleich zu dem Modell, das mit der ursprünglichen RedPajama-Verteilung trainiert wurde. Dies deutet darauf hin, dass die ausgewogenere Verlustreduzierung durch dynamisches Batch-Laden die Downstream-Leistung verbessern kann.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Vergleich mit anderen Beschneidungsmethoden

Darüber hinaus verglichen die Forscher die LLM-Schermethode mit anderen Beschneidungsmethoden und berichteten über die Validierungsperplexität, die ein Maß für die Gesamtfähigkeit des Modells und ein aussagekräftiger Indikator ist.

Aufgrund rechnerischer Einschränkungen steuern die folgenden Experimente das gesamte Rechenbudget aller verglichenen Methoden, anstatt jede Methode bis zum Ende auszuführen.

Wie in Tabelle 4 gezeigt, ist der Inferenzdurchsatz des Zielbeschneidungsmodells in diesem Artikel bei gleicher Sparsity höher als der des CoFiPruning-Modells mit ungleichmäßigem Beschneiden, aber die Verwirrung ist etwas höher.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Andere Analyse

Tabelle 5 zeigt, dass eine Erhöhung des Beschneidungsaufwands die Perplexität kontinuierlich verbessern und gleichzeitig die Gesamtmenge der Token kontrollieren kann. Da das Beschneiden jedoch teurer ist als ein kontinuierliches Vortraining, weisen die Forscher dem Beschneiden 0,4 Milliarden Token zu.

Das Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor

Weitere Forschungsdetails finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonDas Team von Chen Danqi bringt Ihnen Schritt für Schritt bei, wie man „Alpaka' schert, und schlägt die LLM-Shearing-Methode zum Beschneiden großer Modelle vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7478

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Jul 17, 2024 am 10:14 AM

Zeigen Sie LLM die Kausalkette und es lernt die Axiome. KI hilft Mathematikern und Wissenschaftlern bereits bei der Forschung. Beispielsweise hat der berühmte Mathematiker Terence Tao wiederholt seine Forschungs- und Forschungserfahrungen mit Hilfe von KI-Tools wie GPT geteilt. Damit KI in diesen Bereichen konkurrenzfähig sein kann, sind starke und zuverlässige Fähigkeiten zum kausalen Denken unerlässlich. Die in diesem Artikel vorgestellte Forschung ergab, dass ein Transformer-Modell, das auf die Demonstration des kausalen Transitivitätsaxioms für kleine Graphen trainiert wurde, auf das Transitivitätsaxiom für große Graphen verallgemeinern kann. Mit anderen Worten: Wenn der Transformer lernt, einfache kausale Überlegungen anzustellen, kann er für komplexere kausale Überlegungen verwendet werden. Der vom Team vorgeschlagene axiomatische Trainingsrahmen ist ein neues Paradigma zum Erlernen des kausalen Denkens auf der Grundlage passiver Daten, nur mit Demonstrationen

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Verbreitung der nächsten Token-Vorhersage und vollständige Sequenzverbreitung Jul 23, 2024 pm 02:05 PM

Derzeit sind autoregressive groß angelegte Sprachmodelle, die das nächste Token-Vorhersageparadigma verwenden, auf der ganzen Welt populär geworden. Gleichzeitig haben uns zahlreiche synthetische Bilder und Videos im Internet bereits die Leistungsfähigkeit von Diffusionsmodellen gezeigt. Kürzlich hat ein Forschungsteam am MITCSAIL (darunter Chen Boyuan, ein Doktorand am MIT) erfolgreich die leistungsstarken Fähigkeiten des Vollsequenz-Diffusionsmodells und des nächsten Token-Modells integriert und ein Trainings- und Sampling-Paradigma vorgeschlagen: Diffusion Forcing (DF). ). Papiertitel: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Papieradresse: https:/

See all articles