


Die Fusion mehrerer heterogener Großmodelle bringt erstaunliche Ergebnisse
Mit dem Erfolg großer Sprachmodelle wie LLaMA und Mistral haben viele Unternehmen begonnen, ihre eigenen großen Sprachmodelle zu erstellen. Allerdings ist das Training eines neuen Modells von Grund auf teuer und kann über redundante Funktionen verfügen.
Kürzlich haben Forscher der Sun Yat-sen-Universität und des Tencent AI Lab FuseLLM vorgeschlagen, das verwendet wird, um „mehrere heterogene große Modelle zu fusionieren“.
Im Gegensatz zu herkömmlichen Methoden zur Modellintegration und Gewichtszusammenführung bietet FuseLLM eine neue Möglichkeit, das Wissen mehrerer heterogener großer Sprachmodelle zusammenzuführen. Anstatt mehrere große Sprachmodelle gleichzeitig bereitzustellen oder die Zusammenführung von Modellergebnissen zu erfordern, verwendet FuseLLM eine leichte kontinuierliche Trainingsmethode, um das Wissen und die Fähigkeiten einzelner Modelle in ein fusioniertes großes Sprachmodell zu übertragen. Das Einzigartige an diesem Ansatz ist seine Fähigkeit, mehrere heterogene große Sprachmodelle zum Zeitpunkt der Inferenz zu verwenden und ihr Wissen in ein fusioniertes Modell zu externalisieren. Auf diese Weise verbessert FuseLLM effektiv die Leistung und Effizienz des Modells.
Dieser Artikel wurde gerade auf arXiv veröffentlicht und hat bei Internetnutzern viel Aufmerksamkeit und Weiterleitung erregt.
Jemand dachte, es wäre interessant, ein Modell in einer anderen Sprache zu trainieren, und ich habe darüber nachgedacht.
Derzeit wurde dieses Papier vom ICLR 2024 angenommen.
- Papiertitel: Knowledge Fusion of Large Language Models
- Papieradresse: https://arxiv.org/abs/2401.10491 .
- Papierlager: https://github.com/fanqiwan/FuseLLM
Einführung in die Methode
Der Schlüssel zu FuseLLM besteht darin, die Fusion großer Sprachmodelle aus der Perspektive der Wahrscheinlichkeitsverteilungsdarstellung zu untersuchen Text, der Autor Es wird angenommen, dass die von verschiedenen großen Sprachmodellen erzeugten Darstellungen deren intrinsisches Wissen zum Verständnis dieser Texte widerspiegeln. Daher verwendet FuseLLM zunächst mehrere Quellmodelle für große Sprachen, um Darstellungen zu generieren, externalisiert deren kollektives Wissen und ihre jeweiligen Vorteile, integriert dann die generierten Mehrfachdarstellungen, um sich gegenseitig zu ergänzen, und migriert schließlich durch leichtes kontinuierliches Training zum Zielmodell für große Sprachen. Die folgende Abbildung zeigt einen Überblick über den FuseLLM-Ansatz.
Angesichts der Unterschiede bei Tokenisierern und Vokabularlisten mehrerer heterogener großer Sprachmodelle ist die Ausrichtung der Wortsegmentierungsergebnisse ein Schlüsselfaktor beim Zusammenführen mehrerer Darstellungen: FuseLLM basiert auf einem vollständigen Abgleich auf Vokabularebene Die auf dem minimalen Bearbeitungsabstand basierende Ausrichtung ist außerdem darauf ausgelegt, die verfügbaren Informationen in der Darstellung weitestgehend beizubehalten.
Um das kollektive Wissen mehrerer großer Sprachmodelle zu kombinieren und gleichzeitig ihre jeweiligen Vorteile beizubehalten, müssen Strategien für fusionierte modellgenerierte Darstellungen sorgfältig entworfen werden. Insbesondere bewertet FuseLLM, wie gut verschiedene große Sprachmodelle diesen Text verstehen, indem es die Kreuzentropie zwischen der generierten Darstellung und dem Beschriftungstext berechnet, und führt dann zwei auf Kreuzentropie basierende Fusionsfunktionen ein:
- MinCE: Input Multiple Large Modelle generieren Darstellungen für den aktuellen Text und geben die Darstellung mit der kleinsten Kreuzentropie aus.
- AvgCE: Geben Sie die von mehreren großen Modellen generierten Darstellungen für den aktuellen Text ein und geben Sie eine gewichtete Durchschnittsdarstellung basierend auf dem durch Kreuz erhaltenen Gewicht aus Entropie;
In der kontinuierlichen Trainingsphase verwendet FuseLLM die Fusionsdarstellung als Ziel zur Berechnung des Fusionsverlusts und behält gleichzeitig den Sprachmodellverlust bei. Die endgültige Verlustfunktion ist die Summe aus Fusionsverlust und Sprachmodellverlust.
Experimentelle Ergebnisse
Im experimentellen Teil betrachtet der Autor ein allgemeines, aber anspruchsvolles Fusionsszenario für große Sprachmodelle, bei dem die Quellmodelle geringfügige Gemeinsamkeiten in Struktur oder Fähigkeiten aufweisen. Konkret wurden Experimente im 7B-Maßstab durchgeführt und drei repräsentative Open-Source-Modelle ausgewählt: Llama-2, OpenLLaMA und MPT als große Modelle zur Fusion.
Der Autor bewertete FuseLLM in Szenarien wie allgemeines Denken, gesundes Denken, Codegenerierung, Textgenerierung und Befolgen von Anweisungen und stellte fest, dass es im Vergleich zu allen Quellmodellen und kontinuierlichen Trainingsbasismodellen erhebliche Leistungsverbesserungen erzielte.
Allgemeines Denken und Denken mit gesundem Menschenverstand
Auf dem Big-Bench Hard Benchmark, der die Fähigkeit zum allgemeinen Denken testet, wird Llama-2 CLM nach kontinuierlichem Training mit Llama-2 bei 27 An verglichen Bei jeder Aufgabe wurde eine durchschnittliche Verbesserung von 1,86 % erreicht, während FuseLLM im Vergleich zu Llama-2 eine Verbesserung von 5,16 % erzielte, was deutlich besser ist als Llama-2 CLM, was darauf hindeutet, dass FuseLLM die Vorteile mehrerer großer Sprachmodelle kombinieren kann Leistungsverbesserungen erzielen.
Beim Common Sense Benchmark, der die Fähigkeit zum gesunden Menschenverstand testet, übertraf FuseLLM alle Quellmodelle und Basismodelle und erzielte bei allen Aufgaben die beste Leistung.
Codegenerierung und Textgenerierung
Beim MultiPL-E-Benchmark, der die Codegenerierungsfähigkeiten testet, übertraf FuseLLM Llama-2 in 9 von 10 Aufgaben und erzielte eine durchschnittliche Leistungsverbesserung von 6,36 %. Der Grund, warum FuseLLM MPT und OpenLLaMA nicht übertrifft, liegt möglicherweise in der Verwendung von Llama-2 als Zielmodell für große Sprachen, das über schwache Codegenerierungsfähigkeiten und einen geringen Anteil an Codedaten im kontinuierlichen Trainingskorpus verfügt, der nur etwa 10 % ausmacht 7,59 %.
Bei mehreren Textgenerierungs-Benchmarks, die die Beantwortung von Wissensfragen (TrivialQA), das Leseverständnis (DROP), die Inhaltsanalyse (LAMBADA), die maschinelle Übersetzung (IWSLT2017) und die Theoremanwendung (SciBench) messen, übertrifft FuseLLM auch in allen Aufgaben alle Quellen Modelle und übertraf Llama-2 CLM in 80 % der Aufgaben.
Anweisungen folgen
Da FuseLLM nur die Darstellungen mehrerer Quellmodelle für die Fusion extrahieren und dann das Zielmodell kontinuierlich trainieren muss, kann es auch zur Feinabstimmung großer Modelle verwendet werden Sprachmodelle mit Anweisungen Fusion. Beim Vicuna Benchmark, der die Fähigkeit zur Befehlsfolge bewertet, erzielte FuseLLM ebenfalls eine hervorragende Leistung und übertraf alle Quellmodelle und CLM.
FuseLLM vs. Wissensdestillation & Modellintegration & Gewichtszusammenführung
In Anbetracht der Tatsache, dass Wissensdestillation auch eine Methode zur Verwendung von Darstellung zur Verbesserung der Leistung großer Sprachmodelle ist, kombiniert der Autor FuseLLM und Llama-2 13B destilliertes Llama-2 KD wurde verglichen. Die Ergebnisse zeigen, dass FuseLLM die Destillation aus einem einzelnen 13B-Modell übertrifft, indem es drei 7B-Modelle mit unterschiedlichen Architekturen fusioniert.
Um FuseLLM mit vorhandenen Fusionsmethoden (wie Modellensemble und Gewichtszusammenführung) zu vergleichen, simulierten die Autoren ein Szenario, in dem mehrere Quellmodelle von einem Basismodell derselben Struktur stammten, aber kontinuierlich auf verschiedenen Korpora trainiert wurden , und testete die Verwirrung verschiedener Methoden an verschiedenen Testbenchmarks. Es ist ersichtlich, dass obwohl alle Fusionstechniken die Vorteile mehrerer Quellmodelle kombinieren können, FuseLLM die niedrigste durchschnittliche Verwirrung erreichen kann, was darauf hindeutet, dass FuseLLM das Potenzial hat, das kollektive Wissen von Quellmodellen effektiver zu kombinieren als Modellensemble- und Gewichtszusammenführungsmethoden.
Obwohl die Community derzeit der Fusion großer Modelle Aufmerksamkeit schenkt, basieren aktuelle Ansätze größtenteils auf der Gewichtszusammenführung und können nicht auf Modellfusionsszenarien unterschiedlicher Struktur und Größe ausgeweitet werden. Obwohl es sich bei FuseLLM nur um eine vorläufige Forschung zur heterogenen Modellfusion handelt, stellt sich die Frage, wie die Fusion dieser heterogenen Modelle aussehen wird, wenn man bedenkt, dass es in der technischen Gemeinschaft derzeit eine große Anzahl sprachlicher, visueller, akustischer und multimodaler Großmodelle unterschiedlicher Struktur und Größe gibt in der Zukunft ausbrechen? Erstaunliche Leistung? lasst uns abwarten und sehen!
Das obige ist der detaillierte Inhalt vonDie Fusion mehrerer heterogener Großmodelle bringt erstaunliche Ergebnisse. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Die Größe einer Bootstrap -Liste hängt von der Größe des Containers ab, der die Liste enthält, nicht die Liste selbst. Die Verwendung von Bootstraps Grid -System oder Flexbox kann die Größe des Containers steuern und dadurch indirekt die Listenelemente ändern.

Verschachtelte Listen in Bootstrap erfordern die Verwendung des Grid -Systems von Bootstrap, um den Stil zu steuern. Verwenden Sie zunächst die äußere Schicht & lt; ul & gt; und & lt; li & gt; Um eine Liste zu erstellen, wickeln Sie die Liste der inneren Ebenen in & lt; div class = & quot; row & gt; und add & lt; div class = & quot; col-md-6 & quot; & gt; In der Liste der inneren Ebenen, um anzugeben, dass die Liste der inneren Ebenen die halbe Breite einer Reihe einnimmt. Auf diese Weise kann die innere Liste die richtige haben

Bei der Konvertierung von Zeichenfolgen in Objekte in Vue.js wird JSON.Parse () für Standard -JSON -Zeichenfolgen bevorzugt. Bei nicht standardmäßigen JSON-Zeichenfolgen kann die Zeichenfolge durch Verwendung regelmäßiger Ausdrücke verarbeitet und Methoden gemäß dem Format oder dekodierten URL-kodiert reduziert werden. Wählen Sie die entsprechende Methode gemäß dem String -Format aus und achten Sie auf Sicherheits- und Codierungsprobleme, um Fehler zu vermeiden.

So fügen Sie Symbole zur Bootstrap -Liste hinzu: Direkt das Symbol in das Listenelement & lt; li & gt;, Verwenden des von der Symbibliothek angegebenen Klassennamens (z. B. fantastisch). Verwenden Sie die Bootstrap-Klasse, um Symbole und Text auszurichten (z. B. D-Flex, Justify-Content-dazwischen, Align-items-Center). Verwenden Sie die Bootstrap -Tag -Komponente (Abzeichen), um Zahlen oder Status anzuzeigen. Passen Sie die Symbolposition an (Flex-Richtung: Reihen-Umkehr;), steuern Sie den Stil (CSS-Stil). Häufiger Fehler: Das Symbol wird nicht angezeigt (nicht

Das Maschensystem von Bootstrap ist eine Regel für das schnelle Erstellen von Reaktionslayouts, die aus drei Hauptklassen bestehen: Container (Container), Zeile (Zeile) und COL (Spalte). Standardmäßig werden 12-Kolumn-Gitter bereitgestellt, und die Breite jeder Spalte kann durch Auxiliary-Klassen wie Col-MD- angepasst werden, wodurch die Layout-Optimierung für verschiedene Bildschirmgrößen erreicht wird. Durch die Verwendung von Offset -Klassen und verschachtelten Maschen kann die Layoutflexibilität verlängert werden. Stellen Sie bei der Verwendung eines Gittersystems sicher, dass jedes Element die korrekte Verschachtelungsstruktur aufweist, und berücksichtigen Sie die Leistungsoptimierung, um die Ladegeschwindigkeit der Seiten zu verbessern. Nur durch eingehendes Verständnis und Üben können wir das Bootstrap Grid-System kompetent beherrschen.

Die Änderungen des Bootstrap 5 -Listenstils sind hauptsächlich auf die Detailoptimierung und die semantische Verbesserung zurückzuführen, einschließlich: Die Standardmargen ungeordneter Listen sind vereinfacht, und die visuellen Effekte sind sauberer und ordentlich. Der Listenstil betont die Semantik, verbessert die Zugänglichkeit und die Wartbarkeit.

Frage: Wie registriert man eine Vue -Komponente, die durch Exportverlagerung exportiert wird? Antwort: Es gibt drei Registrierungsmethoden: Globale Registrierung: Verwenden Sie die Methode vue.comPonent (), um sich als globale Komponente zu registrieren. Lokale Registrierung: Registrieren Sie sich in der Komponentenoption, die nur in der aktuellen Komponente und in den Unterkomponenten verfügbar ist. Dynamische Registrierung: Verwenden Sie die Methode vue.comPonent (), um sich nach dem Laden der Komponente zu registrieren.

Verarbeiten Sie 7 Millionen Aufzeichnungen effizient und erstellen Sie interaktive Karten mit Geospatial -Technologie. In diesem Artikel wird untersucht, wie über 7 Millionen Datensätze mithilfe von Laravel und MySQL effizient verarbeitet und in interaktive Kartenvisualisierungen umgewandelt werden können. Erstes Herausforderungsprojektanforderungen: Mit 7 Millionen Datensätzen in der MySQL -Datenbank wertvolle Erkenntnisse extrahieren. Viele Menschen erwägen zunächst Programmiersprachen, aber ignorieren die Datenbank selbst: Kann sie den Anforderungen erfüllen? Ist Datenmigration oder strukturelle Anpassung erforderlich? Kann MySQL einer so großen Datenbelastung standhalten? Voranalyse: Schlüsselfilter und Eigenschaften müssen identifiziert werden. Nach der Analyse wurde festgestellt, dass nur wenige Attribute mit der Lösung zusammenhängen. Wir haben die Machbarkeit des Filters überprüft und einige Einschränkungen festgelegt, um die Suche zu optimieren. Kartensuche basierend auf der Stadt
