Inhaltsverzeichnis
Der Bedarf an effizienter Feinabstimmung von Parametern
LoRA
Robust Adaptation (RoSA)
Experimente und Ergebnisse
Zusammenfassung
Heim Technologie-Peripheriegeräte KI RoSA: Eine neue Methode zur effizienten Feinabstimmung großer Modellparameter

RoSA: Eine neue Methode zur effizienten Feinabstimmung großer Modellparameter

Jan 18, 2024 pm 05:27 PM
语言模型 大型语言模型

Da Sprachmodelle in beispiellosem Umfang skaliert werden, wird eine umfassende Feinabstimmung nachgelagerter Aufgaben kostspielig. Um dieses Problem zu lösen, begannen Forscher, der PEFT-Methode Aufmerksamkeit zu schenken und sie zu übernehmen. Die Hauptidee der PEFT-Methode besteht darin, den Umfang der Feinabstimmung auf einen kleinen Satz von Parametern zu beschränken, um die Rechenkosten zu senken und gleichzeitig eine hochmoderne Leistung bei Aufgaben zum Verstehen natürlicher Sprache zu erzielen. Auf diese Weise können Forscher Rechenressourcen einsparen und gleichzeitig eine hohe Leistung aufrechterhalten, wodurch neue Forschungsschwerpunkte auf dem Gebiet der Verarbeitung natürlicher Sprache entstehen.

RoSA: 一种新的大模型参数高效微调方法

RoSA ist eine neue PEFT-Technik. Durch Experimente mit einer Reihe von Benchmarks wurde festgestellt, dass RoSA bei gleichem Parameterbudget und reiner Sparse-Feinleistung eine bessere Leistung erbringt als die vorherige Low-Rank-Adaption (LoRA). -Tuning-Methoden.

In diesem Artikel werfen wir einen detaillierten Blick auf die RoSA-Prinzipien, -Methoden und -Ergebnisse und erläutern, wie ihre Leistung einen sinnvollen Fortschritt markiert. Für diejenigen, die große Sprachmodelle effektiv verfeinern möchten, bietet RoSA eine neue Lösung, die früheren Lösungen überlegen ist.

RoSA: 一种新的大模型参数高效微调方法

Der Bedarf an effizienter Feinabstimmung von Parametern

NLP wurde durch transformatorbasierte Sprachmodelle wie GPT-4 revolutioniert. Diese Modelle erlernen leistungsstarke Sprachdarstellungen durch Vortraining an großen Textkorpora. Anschließend übertragen sie diese Darstellungen durch einen einfachen Prozess auf nachgelagerte Sprachaufgaben.

Da die Modellgröße von Milliarden auf Billionen Parameter anwächst, bringt die Feinabstimmung einen enormen Rechenaufwand mit sich. Bei einem Modell wie GPT-4 mit 1,76 Billionen Parametern kann die Feinabstimmung beispielsweise Millionen von Dollar kosten. Dies macht den Einsatz in realen Anwendungen sehr unpraktisch. Die

PEFT-Methode verbessert die Effizienz und Genauigkeit, indem sie den Parameterbereich der Feinabstimmung begrenzt. In jüngster Zeit sind verschiedene PEFT-Technologien entstanden, die einen Kompromiss zwischen Effizienz und Genauigkeit bieten.

LoRA

Eine bekannte PEFT-Methode ist die Low-Rank-Adaption (LoRA). LoRA wurde 2021 von Forschern von Meta und MIT ins Leben gerufen. Dieser Ansatz basiert auf der Beobachtung, dass der Transformator in seiner Kopfmatrix eine Struktur mit niedrigem Rang aufweist. Es wird vorgeschlagen, dass LoRA diese Struktur mit niedrigem Rang nutzt, um die Rechenkomplexität zu reduzieren und die Effizienz und Geschwindigkeit des Modells zu verbessern.

LoRA optimiert nur die ersten k singulären Vektoren, während andere Parameter unverändert bleiben. Dies erfordert lediglich O(k) zusätzliche Parameter zur Optimierung anstelle von O(n).

Durch die Nutzung dieser Struktur mit niedrigem Rang kann LoRA aussagekräftige Signale erfassen, die für die Generalisierung nachgelagerter Aufgaben erforderlich sind, und die Feinabstimmung auf diese obersten singulären Vektoren beschränken, wodurch Optimierung und Inferenz effizienter werden.

Experimente zeigen, dass LoRA die vollständig fein abgestimmte Leistung des GLUE-Benchmarks erreichen kann und dabei mehr als 100-mal weniger Parameter verwendet. Da die Modellgröße jedoch weiter zunimmt, erfordert das Erreichen einer starken Leistung durch LoRA eine Erhöhung des Rangs k, wodurch die Recheneinsparungen im Vergleich zur vollständigen Feinabstimmung verringert werden.

Vor RoSA stellte LoRA den neuesten Stand der PEFT-Methoden dar, mit nur bescheidenen Verbesserungen durch Techniken wie unterschiedliche Matrixfaktorisierung oder das Hinzufügen einer kleinen Anzahl zusätzlicher Feinabstimmungsparameter.

Robust Adaptation (RoSA)

Robust Adaptation (RoSA) führt eine neue Parameter-effiziente Feinabstimmungsmethode ein. RoSA basiert auf einer robusten Hauptkomponentenanalyse (robuste PCA) und verlässt sich nicht ausschließlich auf Strukturen mit niedrigem Rang.

In der traditionellen Hauptkomponentenanalyse die Datenmatrix Robust PCA geht noch einen Schritt weiter und zerlegt X in ein sauberes L mit niedrigem Rang und ein „kontaminiertes/beschädigtes“ spärliches S.

RoSA lässt sich hiervon inspirieren und unterteilt die Feinabstimmung des Sprachmodells in:

Eine LoRA-ähnliche Low-Rank-Adaptive (L)-Matrix, feinabgestimmt, um das dominante aufgabenrelevante Signal anzunähern

A height Eine spärliche Feinabstimmungsmatrix (S), die eine sehr kleine Anzahl großer, selektiv feinabgestimmter Parameter enthält, die das von L übersehene Restsignal kodieren.

Durch die explizite Modellierung der verbleibenden Sparse-Komponente kann RoSA eine höhere Genauigkeit erreichen als LoRA allein.

RoSA konstruiert L, indem es eine Low-Rank-Zerlegung der Kopfmatrix des Modells durchführt. Dadurch werden zugrunde liegende semantische Darstellungen codiert, die für nachgelagerte Aufgaben nützlich sind. RoSA passt dann selektiv die obersten m wichtigsten Parameter jeder Schicht auf S an, während alle anderen Parameter unverändert bleiben. Dieser Schritt erfasst Restsignale, die für die Anpassung mit niedrigem Rang nicht geeignet sind.

Die Anzahl der Feinabstimmungsparameter m ist eine Größenordnung kleiner als der Rang k, der allein von LoRA benötigt wird. In Kombination mit der Kopfmatrix mit niedrigem Rang in L behält RoSA daher eine extrem hohe Parametereffizienz bei.

RoSA verwendet auch einige andere einfache, aber effektive Optimierungen:

Rest-sparse-Verbindung: S-Residuen werden direkt zum Ausgang jedes Transformatorblocks hinzugefügt, bevor er die Schichtnormalisierung und Feedforward-Unterschichten durchläuft. Dadurch können von L verpasste Signale simuliert werden.

Unabhängige Sparse-Masken: Die in S zur Feinabstimmung ausgewählten Metriken werden für jede Transformatorschicht unabhängig generiert.

Gemeinsame Struktur mit niedrigem Rang: Die gleichen U- und V-Basismatrizen mit niedrigem Rang werden von allen Schichten von L gemeinsam genutzt, genau wie in LoRA. Dadurch werden semantische Konzepte in einem konsistenten Unterraum erfasst.

Diese Architekturoptionen bieten der RoSA-Modellierung eine Flexibilität, die einer vollständigen Feinabstimmung ähnelt, während gleichzeitig die Parametereffizienz für Optimierung und Inferenz erhalten bleibt. Mithilfe dieser PEFT-Methode, die robuste Low-Rank-Adaption und äußerst spärliche Residuen kombiniert, erreicht RoSA eine neue Technologie für den Kompromiss zwischen Genauigkeit und Effizienz.

Experimente und Ergebnisse

Die Forscher bewerteten RoSA anhand eines umfassenden Benchmarks von 12 NLU-Datensätzen, die Aufgaben wie Texterkennung, Stimmungsanalyse, Inferenz natürlicher Sprache und Robustheitstests abdeckten. Sie führten Experimente mit RoSA auf Basis des künstlichen Intelligenzassistenten LLM und einem 12-Milliarden-Parametermodell durch.

Bei jeder Aufgabe schneidet RoSA bei Verwendung der gleichen Parameter deutlich besser ab als LoRA. Die Gesamtparameter beider Methoden betragen ca. 0,3 % des gesamten Modells. Dies bedeutet, dass es in beiden Fällen für k = 16 für LoRA und m = 5120 für RoSA etwa 4,5 Millionen Feinabstimmungsparameter gibt.

RoSA: 一种新的大模型参数高效微调方法

RoSA erreicht oder übertrifft auch die Leistung reiner, spärlicher, fein abgestimmter Basislinien.

Beim ANLI-Benchmark, der die Robustheit gegenüber gegnerischen Beispielen bewertet, erreicht RoSA einen Wert von 55,6, während LoRA einen Wert von 52,7 erreicht. Dies zeigt Verbesserungen bei der Generalisierung und Kalibrierung.

Für die Stimmungsanalyseaufgaben SST-2 und IMDB erreicht die Genauigkeit von RoSA 91,2 % und 96,9 %, während die Genauigkeit von LoRA 90,1 % und 95,3 % erreicht.

Beim WIC, einem anspruchsvollen Wortsinn-Begriffsklärungstest, erreichte RoSA einen F1-Wert von 93,5, während LoRA einen F1-Wert von 91,7 erreichte.

Über alle 12 Datensätze hinweg zeigt RoSA bei übereinstimmenden Parameterbudgets im Allgemeinen eine bessere Leistung als LoRA.

Bemerkenswert ist, dass RoSA diese Vorteile erzielen kann, ohne dass eine aufgabenspezifische Abstimmung oder Spezialisierung erforderlich ist. Dadurch eignet sich RoSA als universelle PEFT-Lösung.

Zusammenfassung

Da der Umfang von Sprachmodellen weiterhin schnell wächst, ist die Reduzierung des Rechenaufwands für deren Feinabstimmung ein dringendes Problem, das gelöst werden muss. Parametereffiziente adaptive Trainingstechniken wie LoRA haben erste Erfolge gezeigt, sind jedoch mit inhärenten Einschränkungen der Approximation mit niedrigem Rang konfrontiert.

RoSA kombiniert auf organische Weise robuste Low-Rank-Zerlegung und restliche, sehr spärliche Feinabstimmung, um eine überzeugende neue Lösung bereitzustellen. Es verbessert die Leistung von PEFT erheblich, indem es Signale berücksichtigt, die der Anpassung mit niedrigem Rang durch selektive, spärliche Residuen entgehen. Die empirische Auswertung zeigt signifikante Verbesserungen gegenüber LoRA und unkontrollierten Sparsity-Baselines bei verschiedenen NLU-Aufgabensätzen.

RoSA ist konzeptionell einfach, aber leistungsstark und kann die Schnittstelle zwischen Parametereffizienz, adaptiver Darstellung und kontinuierlichem Lernen weiter vorantreiben, um die Sprachintelligenz zu erweitern.

Das obige ist der detaillierte Inhalt vonRoSA: Eine neue Methode zur effizienten Feinabstimmung großer Modellparameter. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Warum verwenden große Sprachmodelle SwiGLU als Aktivierungsfunktion? Warum verwenden große Sprachmodelle SwiGLU als Aktivierungsfunktion? Apr 08, 2024 pm 09:31 PM

Wenn Sie sich mit der Architektur großer Sprachmodelle befasst haben, ist Ihnen möglicherweise der Begriff „SwiGLU“ in den neuesten Modellen und Forschungsarbeiten aufgefallen. Man kann sagen, dass SwiGLU die am häufigsten verwendete Aktivierungsfunktion in großen Sprachmodellen ist. Wir werden sie in diesem Artikel ausführlich vorstellen. SwiGLU ist eigentlich eine von Google im Jahr 2020 vorgeschlagene Aktivierungsfunktion, die die Eigenschaften von SWISH und GLU kombiniert. Der vollständige chinesische Name von SwiGLU lautet „bidirektionale Gated Linear Unit“. Es optimiert und kombiniert zwei Aktivierungsfunktionen, SWISH und GLU, um die nichtlineare Ausdrucksfähigkeit des Modells zu verbessern. SWISH ist eine sehr häufige Aktivierungsfunktion, die in großen Sprachmodellen weit verbreitet ist, während GLU bei Aufgaben zur Verarbeitung natürlicher Sprache eine gute Leistung gezeigt hat.

Kann LLM durch Feinabstimmung wirklich neue Dinge lernen: Die Einführung neuen Wissens kann dazu führen, dass das Modell mehr Halluzinationen hervorruft Kann LLM durch Feinabstimmung wirklich neue Dinge lernen: Die Einführung neuen Wissens kann dazu führen, dass das Modell mehr Halluzinationen hervorruft Jun 11, 2024 pm 03:57 PM

Large Language Models (LLMs) werden auf riesigen Textdatenbanken trainiert und erwerben dort große Mengen an realem Wissen. Dieses Wissen wird in ihre Parameter eingebettet und kann dann bei Bedarf genutzt werden. Das Wissen über diese Modelle wird am Ende der Ausbildung „verdinglicht“. Am Ende des Vortrainings hört das Modell tatsächlich auf zu lernen. Richten Sie das Modell aus oder verfeinern Sie es, um zu erfahren, wie Sie dieses Wissen nutzen und natürlicher auf Benutzerfragen reagieren können. Aber manchmal reicht Modellwissen nicht aus, und obwohl das Modell über RAG auf externe Inhalte zugreifen kann, wird es als vorteilhaft angesehen, das Modell durch Feinabstimmung an neue Domänen anzupassen. Diese Feinabstimmung erfolgt mithilfe von Eingaben menschlicher Annotatoren oder anderer LLM-Kreationen, wobei das Modell auf zusätzliches Wissen aus der realen Welt trifft und dieses integriert

Tokenisierung in einem Artikel verstehen! Tokenisierung in einem Artikel verstehen! Apr 12, 2024 pm 02:31 PM

Sprachmodelle basieren auf Text, der normalerweise in Form von Zeichenfolgen vorliegt. Da die Eingabe in das Modell jedoch nur Zahlen sein kann, muss der Text in eine numerische Form umgewandelt werden. Die Tokenisierung ist eine grundlegende Aufgabe der Verarbeitung natürlicher Sprache. Sie kann eine fortlaufende Textsequenz (z. B. Sätze, Absätze usw.) entsprechend den spezifischen Anforderungen in eine Zeichenfolge (z. B. Wörter, Phrasen, Zeichen, Satzzeichen usw.) unterteilen. Die darin enthaltenen Einheiten werden als Token oder Wort bezeichnet. Gemäß dem in der Abbildung unten gezeigten spezifischen Prozess werden die Textsätze zunächst in Einheiten unterteilt, dann werden die einzelnen Elemente digitalisiert (in Vektoren abgebildet), dann werden diese Vektoren zur Codierung in das Modell eingegeben und schließlich an nachgelagerte Aufgaben ausgegeben erhalten Sie weiterhin das Endergebnis. Die Textsegmentierung kann entsprechend der Granularität der Textsegmentierung in Toke unterteilt werden.

Visualisieren Sie den FAISS-Vektorraum und passen Sie die RAG-Parameter an, um die Ergebnisgenauigkeit zu verbessern Visualisieren Sie den FAISS-Vektorraum und passen Sie die RAG-Parameter an, um die Ergebnisgenauigkeit zu verbessern Mar 01, 2024 pm 09:16 PM

Da sich die Leistung groß angelegter Open-Source-Sprachmodelle weiter verbessert, hat sich auch die Leistung beim Schreiben und Analysieren von Code, Empfehlungen, Textzusammenfassungen und Frage-Antwort-Paaren (QA) verbessert. Aber wenn es um die Qualitätssicherung geht, mangelt es LLM oft an Problemen im Zusammenhang mit ungeschulten Daten, und viele interne Dokumente werden im Unternehmen aufbewahrt, um Compliance, Geschäftsgeheimnisse oder Datenschutz zu gewährleisten. Wenn diese Dokumente abgefragt werden, kann LLM Halluzinationen hervorrufen und irrelevante, erfundene oder inkonsistente Inhalte produzieren. Eine mögliche Technik zur Bewältigung dieser Herausforderung ist Retrieval Augmented Generation (RAG). Dabei geht es darum, die Antworten durch Verweise auf maßgebliche Wissensdatenbanken über die Trainingsdatenquelle hinaus zu verbessern, um die Qualität und Genauigkeit der Generierung zu verbessern. Das RAG-System umfasst ein Retrieval-System zum Abrufen relevanter Dokumentfragmente aus dem Korpus

Optimierung von LLM mithilfe der SPIN-Technologie für das Feinabstimmungstraining für das Selbstspiel Optimierung von LLM mithilfe der SPIN-Technologie für das Feinabstimmungstraining für das Selbstspiel Jan 25, 2024 pm 12:21 PM

2024 ist ein Jahr der rasanten Entwicklung für große Sprachmodelle (LLM). In der Ausbildung von LLM sind Alignment-Methoden ein wichtiges technisches Mittel, einschließlich Supervised Fine-Tuning (SFT) und Reinforcement Learning mit menschlichem Feedback, das auf menschlichen Präferenzen basiert (RLHF). Diese Methoden haben eine entscheidende Rolle bei der Entwicklung von LLM gespielt, aber Alignment-Methoden erfordern eine große Menge manuell annotierter Daten. Angesichts dieser Herausforderung ist die Feinabstimmung zu einem dynamischen Forschungsgebiet geworden, in dem Forscher aktiv an der Entwicklung von Methoden arbeiten, mit denen menschliche Daten effektiv genutzt werden können. Daher wird die Entwicklung von Ausrichtungsmethoden weitere Durchbrüche in der LLM-Technologie fördern. Die University of California hat kürzlich eine Studie zur Einführung einer neuen Technologie namens SPIN (SelfPlayfInetuNing) durchgeführt. S

Nutzung von Wissensgraphen, um die Fähigkeiten von RAG-Modellen zu verbessern und falsche Eindrücke von großen Modellen zu verringern Nutzung von Wissensgraphen, um die Fähigkeiten von RAG-Modellen zu verbessern und falsche Eindrücke von großen Modellen zu verringern Jan 14, 2024 pm 06:30 PM

Halluzinationen sind ein häufiges Problem bei der Arbeit mit großen Sprachmodellen (LLMs). Obwohl LLM glatte und kohärente Texte erzeugen kann, sind die generierten Informationen oft ungenau oder inkonsistent. Um LLM vor Halluzinationen zu schützen, können externe Wissensquellen wie Datenbanken oder Wissensgraphen zur Bereitstellung sachlicher Informationen genutzt werden. Auf diese Weise kann sich LLM auf diese zuverlässigen Datenquellen verlassen, was zu genaueren und zuverlässigeren Textinhalten führt. Vektordatenbank und Wissensgraph-Vektordatenbank Eine Vektordatenbank ist ein Satz hochdimensionaler Vektoren, die Entitäten oder Konzepte darstellen. Sie können verwendet werden, um die Ähnlichkeit oder Korrelation zwischen verschiedenen Entitäten oder Konzepten zu messen, die anhand ihrer Vektordarstellungen berechnet werden. Eine Vektordatenbank kann Ihnen anhand der Vektorentfernung sagen, dass „Paris“ und „Frankreich“ näher beieinander liegen als „Paris“ und

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Drei Geheimnisse für die Bereitstellung großer Modelle in der Cloud Drei Geheimnisse für die Bereitstellung großer Modelle in der Cloud Apr 24, 2024 pm 03:00 PM

Zusammenstellung|Produziert von Ich fange an, serverloses Cloud Computing zu vermissen. Ihre Anwendungen reichen von der Verbesserung der Konversations-KI bis hin zur Bereitstellung komplexer Analyselösungen für verschiedene Branchen und vielen anderen Funktionen. Viele Unternehmen setzen diese Modelle auf Cloud-Plattformen ein, da öffentliche Cloud-Anbieter bereits ein fertiges Ökosystem bereitstellen und dies der Weg des geringsten Widerstands ist. Allerdings ist es nicht billig. Die Cloud bietet darüber hinaus weitere Vorteile wie Skalierbarkeit, Effizienz und erweiterte Rechenfunktionen (GPUs auf Anfrage verfügbar). Es gibt einige wenig bekannte Aspekte der Bereitstellung von LLM auf öffentlichen Cloud-Plattformen

See all articles