


RoSA: Eine neue Methode zur effizienten Feinabstimmung großer Modellparameter
Da Sprachmodelle in beispiellosem Umfang skaliert werden, wird eine umfassende Feinabstimmung nachgelagerter Aufgaben kostspielig. Um dieses Problem zu lösen, begannen Forscher, der PEFT-Methode Aufmerksamkeit zu schenken und sie zu übernehmen. Die Hauptidee der PEFT-Methode besteht darin, den Umfang der Feinabstimmung auf einen kleinen Satz von Parametern zu beschränken, um die Rechenkosten zu senken und gleichzeitig eine hochmoderne Leistung bei Aufgaben zum Verstehen natürlicher Sprache zu erzielen. Auf diese Weise können Forscher Rechenressourcen einsparen und gleichzeitig eine hohe Leistung aufrechterhalten, wodurch neue Forschungsschwerpunkte auf dem Gebiet der Verarbeitung natürlicher Sprache entstehen.
RoSA ist eine neue PEFT-Technik. Durch Experimente mit einer Reihe von Benchmarks wurde festgestellt, dass RoSA bei gleichem Parameterbudget und reiner Sparse-Feinleistung eine bessere Leistung erbringt als die vorherige Low-Rank-Adaption (LoRA). -Tuning-Methoden.
In diesem Artikel werfen wir einen detaillierten Blick auf die RoSA-Prinzipien, -Methoden und -Ergebnisse und erläutern, wie ihre Leistung einen sinnvollen Fortschritt markiert. Für diejenigen, die große Sprachmodelle effektiv verfeinern möchten, bietet RoSA eine neue Lösung, die früheren Lösungen überlegen ist.
Der Bedarf an effizienter Feinabstimmung von Parametern
NLP wurde durch transformatorbasierte Sprachmodelle wie GPT-4 revolutioniert. Diese Modelle erlernen leistungsstarke Sprachdarstellungen durch Vortraining an großen Textkorpora. Anschließend übertragen sie diese Darstellungen durch einen einfachen Prozess auf nachgelagerte Sprachaufgaben.
Da die Modellgröße von Milliarden auf Billionen Parameter anwächst, bringt die Feinabstimmung einen enormen Rechenaufwand mit sich. Bei einem Modell wie GPT-4 mit 1,76 Billionen Parametern kann die Feinabstimmung beispielsweise Millionen von Dollar kosten. Dies macht den Einsatz in realen Anwendungen sehr unpraktisch. Die
PEFT-Methode verbessert die Effizienz und Genauigkeit, indem sie den Parameterbereich der Feinabstimmung begrenzt. In jüngster Zeit sind verschiedene PEFT-Technologien entstanden, die einen Kompromiss zwischen Effizienz und Genauigkeit bieten.
LoRA
Eine bekannte PEFT-Methode ist die Low-Rank-Adaption (LoRA). LoRA wurde 2021 von Forschern von Meta und MIT ins Leben gerufen. Dieser Ansatz basiert auf der Beobachtung, dass der Transformator in seiner Kopfmatrix eine Struktur mit niedrigem Rang aufweist. Es wird vorgeschlagen, dass LoRA diese Struktur mit niedrigem Rang nutzt, um die Rechenkomplexität zu reduzieren und die Effizienz und Geschwindigkeit des Modells zu verbessern.
LoRA optimiert nur die ersten k singulären Vektoren, während andere Parameter unverändert bleiben. Dies erfordert lediglich O(k) zusätzliche Parameter zur Optimierung anstelle von O(n).
Durch die Nutzung dieser Struktur mit niedrigem Rang kann LoRA aussagekräftige Signale erfassen, die für die Generalisierung nachgelagerter Aufgaben erforderlich sind, und die Feinabstimmung auf diese obersten singulären Vektoren beschränken, wodurch Optimierung und Inferenz effizienter werden.
Experimente zeigen, dass LoRA die vollständig fein abgestimmte Leistung des GLUE-Benchmarks erreichen kann und dabei mehr als 100-mal weniger Parameter verwendet. Da die Modellgröße jedoch weiter zunimmt, erfordert das Erreichen einer starken Leistung durch LoRA eine Erhöhung des Rangs k, wodurch die Recheneinsparungen im Vergleich zur vollständigen Feinabstimmung verringert werden.
Vor RoSA stellte LoRA den neuesten Stand der PEFT-Methoden dar, mit nur bescheidenen Verbesserungen durch Techniken wie unterschiedliche Matrixfaktorisierung oder das Hinzufügen einer kleinen Anzahl zusätzlicher Feinabstimmungsparameter.
Robust Adaptation (RoSA)
Robust Adaptation (RoSA) führt eine neue Parameter-effiziente Feinabstimmungsmethode ein. RoSA basiert auf einer robusten Hauptkomponentenanalyse (robuste PCA) und verlässt sich nicht ausschließlich auf Strukturen mit niedrigem Rang.
In der traditionellen Hauptkomponentenanalyse die Datenmatrix Robust PCA geht noch einen Schritt weiter und zerlegt X in ein sauberes L mit niedrigem Rang und ein „kontaminiertes/beschädigtes“ spärliches S.
RoSA lässt sich hiervon inspirieren und unterteilt die Feinabstimmung des Sprachmodells in:
Eine LoRA-ähnliche Low-Rank-Adaptive (L)-Matrix, feinabgestimmt, um das dominante aufgabenrelevante Signal anzunähern
A height Eine spärliche Feinabstimmungsmatrix (S), die eine sehr kleine Anzahl großer, selektiv feinabgestimmter Parameter enthält, die das von L übersehene Restsignal kodieren.
Durch die explizite Modellierung der verbleibenden Sparse-Komponente kann RoSA eine höhere Genauigkeit erreichen als LoRA allein.
RoSA konstruiert L, indem es eine Low-Rank-Zerlegung der Kopfmatrix des Modells durchführt. Dadurch werden zugrunde liegende semantische Darstellungen codiert, die für nachgelagerte Aufgaben nützlich sind. RoSA passt dann selektiv die obersten m wichtigsten Parameter jeder Schicht auf S an, während alle anderen Parameter unverändert bleiben. Dieser Schritt erfasst Restsignale, die für die Anpassung mit niedrigem Rang nicht geeignet sind.
Die Anzahl der Feinabstimmungsparameter m ist eine Größenordnung kleiner als der Rang k, der allein von LoRA benötigt wird. In Kombination mit der Kopfmatrix mit niedrigem Rang in L behält RoSA daher eine extrem hohe Parametereffizienz bei.
RoSA verwendet auch einige andere einfache, aber effektive Optimierungen:
Rest-sparse-Verbindung: S-Residuen werden direkt zum Ausgang jedes Transformatorblocks hinzugefügt, bevor er die Schichtnormalisierung und Feedforward-Unterschichten durchläuft. Dadurch können von L verpasste Signale simuliert werden.
Unabhängige Sparse-Masken: Die in S zur Feinabstimmung ausgewählten Metriken werden für jede Transformatorschicht unabhängig generiert.
Gemeinsame Struktur mit niedrigem Rang: Die gleichen U- und V-Basismatrizen mit niedrigem Rang werden von allen Schichten von L gemeinsam genutzt, genau wie in LoRA. Dadurch werden semantische Konzepte in einem konsistenten Unterraum erfasst.
Diese Architekturoptionen bieten der RoSA-Modellierung eine Flexibilität, die einer vollständigen Feinabstimmung ähnelt, während gleichzeitig die Parametereffizienz für Optimierung und Inferenz erhalten bleibt. Mithilfe dieser PEFT-Methode, die robuste Low-Rank-Adaption und äußerst spärliche Residuen kombiniert, erreicht RoSA eine neue Technologie für den Kompromiss zwischen Genauigkeit und Effizienz.
Experimente und Ergebnisse
Die Forscher bewerteten RoSA anhand eines umfassenden Benchmarks von 12 NLU-Datensätzen, die Aufgaben wie Texterkennung, Stimmungsanalyse, Inferenz natürlicher Sprache und Robustheitstests abdeckten. Sie führten Experimente mit RoSA auf Basis des künstlichen Intelligenzassistenten LLM und einem 12-Milliarden-Parametermodell durch.
Bei jeder Aufgabe schneidet RoSA bei Verwendung der gleichen Parameter deutlich besser ab als LoRA. Die Gesamtparameter beider Methoden betragen ca. 0,3 % des gesamten Modells. Dies bedeutet, dass es in beiden Fällen für k = 16 für LoRA und m = 5120 für RoSA etwa 4,5 Millionen Feinabstimmungsparameter gibt.
RoSA erreicht oder übertrifft auch die Leistung reiner, spärlicher, fein abgestimmter Basislinien.
Beim ANLI-Benchmark, der die Robustheit gegenüber gegnerischen Beispielen bewertet, erreicht RoSA einen Wert von 55,6, während LoRA einen Wert von 52,7 erreicht. Dies zeigt Verbesserungen bei der Generalisierung und Kalibrierung.
Für die Stimmungsanalyseaufgaben SST-2 und IMDB erreicht die Genauigkeit von RoSA 91,2 % und 96,9 %, während die Genauigkeit von LoRA 90,1 % und 95,3 % erreicht.
Beim WIC, einem anspruchsvollen Wortsinn-Begriffsklärungstest, erreichte RoSA einen F1-Wert von 93,5, während LoRA einen F1-Wert von 91,7 erreichte.
Über alle 12 Datensätze hinweg zeigt RoSA bei übereinstimmenden Parameterbudgets im Allgemeinen eine bessere Leistung als LoRA.
Bemerkenswert ist, dass RoSA diese Vorteile erzielen kann, ohne dass eine aufgabenspezifische Abstimmung oder Spezialisierung erforderlich ist. Dadurch eignet sich RoSA als universelle PEFT-Lösung.
Zusammenfassung
Da der Umfang von Sprachmodellen weiterhin schnell wächst, ist die Reduzierung des Rechenaufwands für deren Feinabstimmung ein dringendes Problem, das gelöst werden muss. Parametereffiziente adaptive Trainingstechniken wie LoRA haben erste Erfolge gezeigt, sind jedoch mit inhärenten Einschränkungen der Approximation mit niedrigem Rang konfrontiert.
RoSA kombiniert auf organische Weise robuste Low-Rank-Zerlegung und restliche, sehr spärliche Feinabstimmung, um eine überzeugende neue Lösung bereitzustellen. Es verbessert die Leistung von PEFT erheblich, indem es Signale berücksichtigt, die der Anpassung mit niedrigem Rang durch selektive, spärliche Residuen entgehen. Die empirische Auswertung zeigt signifikante Verbesserungen gegenüber LoRA und unkontrollierten Sparsity-Baselines bei verschiedenen NLU-Aufgabensätzen.
RoSA ist konzeptionell einfach, aber leistungsstark und kann die Schnittstelle zwischen Parametereffizienz, adaptiver Darstellung und kontinuierlichem Lernen weiter vorantreiben, um die Sprachintelligenz zu erweitern.
Das obige ist der detaillierte Inhalt vonRoSA: Eine neue Methode zur effizienten Feinabstimmung großer Modellparameter. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Wenn Sie sich mit der Architektur großer Sprachmodelle befasst haben, ist Ihnen möglicherweise der Begriff „SwiGLU“ in den neuesten Modellen und Forschungsarbeiten aufgefallen. Man kann sagen, dass SwiGLU die am häufigsten verwendete Aktivierungsfunktion in großen Sprachmodellen ist. Wir werden sie in diesem Artikel ausführlich vorstellen. SwiGLU ist eigentlich eine von Google im Jahr 2020 vorgeschlagene Aktivierungsfunktion, die die Eigenschaften von SWISH und GLU kombiniert. Der vollständige chinesische Name von SwiGLU lautet „bidirektionale Gated Linear Unit“. Es optimiert und kombiniert zwei Aktivierungsfunktionen, SWISH und GLU, um die nichtlineare Ausdrucksfähigkeit des Modells zu verbessern. SWISH ist eine sehr häufige Aktivierungsfunktion, die in großen Sprachmodellen weit verbreitet ist, während GLU bei Aufgaben zur Verarbeitung natürlicher Sprache eine gute Leistung gezeigt hat.

Large Language Models (LLMs) werden auf riesigen Textdatenbanken trainiert und erwerben dort große Mengen an realem Wissen. Dieses Wissen wird in ihre Parameter eingebettet und kann dann bei Bedarf genutzt werden. Das Wissen über diese Modelle wird am Ende der Ausbildung „verdinglicht“. Am Ende des Vortrainings hört das Modell tatsächlich auf zu lernen. Richten Sie das Modell aus oder verfeinern Sie es, um zu erfahren, wie Sie dieses Wissen nutzen und natürlicher auf Benutzerfragen reagieren können. Aber manchmal reicht Modellwissen nicht aus, und obwohl das Modell über RAG auf externe Inhalte zugreifen kann, wird es als vorteilhaft angesehen, das Modell durch Feinabstimmung an neue Domänen anzupassen. Diese Feinabstimmung erfolgt mithilfe von Eingaben menschlicher Annotatoren oder anderer LLM-Kreationen, wobei das Modell auf zusätzliches Wissen aus der realen Welt trifft und dieses integriert

Sprachmodelle basieren auf Text, der normalerweise in Form von Zeichenfolgen vorliegt. Da die Eingabe in das Modell jedoch nur Zahlen sein kann, muss der Text in eine numerische Form umgewandelt werden. Die Tokenisierung ist eine grundlegende Aufgabe der Verarbeitung natürlicher Sprache. Sie kann eine fortlaufende Textsequenz (z. B. Sätze, Absätze usw.) entsprechend den spezifischen Anforderungen in eine Zeichenfolge (z. B. Wörter, Phrasen, Zeichen, Satzzeichen usw.) unterteilen. Die darin enthaltenen Einheiten werden als Token oder Wort bezeichnet. Gemäß dem in der Abbildung unten gezeigten spezifischen Prozess werden die Textsätze zunächst in Einheiten unterteilt, dann werden die einzelnen Elemente digitalisiert (in Vektoren abgebildet), dann werden diese Vektoren zur Codierung in das Modell eingegeben und schließlich an nachgelagerte Aufgaben ausgegeben erhalten Sie weiterhin das Endergebnis. Die Textsegmentierung kann entsprechend der Granularität der Textsegmentierung in Toke unterteilt werden.

Da sich die Leistung groß angelegter Open-Source-Sprachmodelle weiter verbessert, hat sich auch die Leistung beim Schreiben und Analysieren von Code, Empfehlungen, Textzusammenfassungen und Frage-Antwort-Paaren (QA) verbessert. Aber wenn es um die Qualitätssicherung geht, mangelt es LLM oft an Problemen im Zusammenhang mit ungeschulten Daten, und viele interne Dokumente werden im Unternehmen aufbewahrt, um Compliance, Geschäftsgeheimnisse oder Datenschutz zu gewährleisten. Wenn diese Dokumente abgefragt werden, kann LLM Halluzinationen hervorrufen und irrelevante, erfundene oder inkonsistente Inhalte produzieren. Eine mögliche Technik zur Bewältigung dieser Herausforderung ist Retrieval Augmented Generation (RAG). Dabei geht es darum, die Antworten durch Verweise auf maßgebliche Wissensdatenbanken über die Trainingsdatenquelle hinaus zu verbessern, um die Qualität und Genauigkeit der Generierung zu verbessern. Das RAG-System umfasst ein Retrieval-System zum Abrufen relevanter Dokumentfragmente aus dem Korpus

2024 ist ein Jahr der rasanten Entwicklung für große Sprachmodelle (LLM). In der Ausbildung von LLM sind Alignment-Methoden ein wichtiges technisches Mittel, einschließlich Supervised Fine-Tuning (SFT) und Reinforcement Learning mit menschlichem Feedback, das auf menschlichen Präferenzen basiert (RLHF). Diese Methoden haben eine entscheidende Rolle bei der Entwicklung von LLM gespielt, aber Alignment-Methoden erfordern eine große Menge manuell annotierter Daten. Angesichts dieser Herausforderung ist die Feinabstimmung zu einem dynamischen Forschungsgebiet geworden, in dem Forscher aktiv an der Entwicklung von Methoden arbeiten, mit denen menschliche Daten effektiv genutzt werden können. Daher wird die Entwicklung von Ausrichtungsmethoden weitere Durchbrüche in der LLM-Technologie fördern. Die University of California hat kürzlich eine Studie zur Einführung einer neuen Technologie namens SPIN (SelfPlayfInetuNing) durchgeführt. S

Halluzinationen sind ein häufiges Problem bei der Arbeit mit großen Sprachmodellen (LLMs). Obwohl LLM glatte und kohärente Texte erzeugen kann, sind die generierten Informationen oft ungenau oder inkonsistent. Um LLM vor Halluzinationen zu schützen, können externe Wissensquellen wie Datenbanken oder Wissensgraphen zur Bereitstellung sachlicher Informationen genutzt werden. Auf diese Weise kann sich LLM auf diese zuverlässigen Datenquellen verlassen, was zu genaueren und zuverlässigeren Textinhalten führt. Vektordatenbank und Wissensgraph-Vektordatenbank Eine Vektordatenbank ist ein Satz hochdimensionaler Vektoren, die Entitäten oder Konzepte darstellen. Sie können verwendet werden, um die Ähnlichkeit oder Korrelation zwischen verschiedenen Entitäten oder Konzepten zu messen, die anhand ihrer Vektordarstellungen berechnet werden. Eine Vektordatenbank kann Ihnen anhand der Vektorentfernung sagen, dass „Paris“ und „Frankreich“ näher beieinander liegen als „Paris“ und

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Zusammenstellung|Produziert von Ich fange an, serverloses Cloud Computing zu vermissen. Ihre Anwendungen reichen von der Verbesserung der Konversations-KI bis hin zur Bereitstellung komplexer Analyselösungen für verschiedene Branchen und vielen anderen Funktionen. Viele Unternehmen setzen diese Modelle auf Cloud-Plattformen ein, da öffentliche Cloud-Anbieter bereits ein fertiges Ökosystem bereitstellen und dies der Weg des geringsten Widerstands ist. Allerdings ist es nicht billig. Die Cloud bietet darüber hinaus weitere Vorteile wie Skalierbarkeit, Effizienz und erweiterte Rechenfunktionen (GPUs auf Anfrage verfügbar). Es gibt einige wenig bekannte Aspekte der Bereitstellung von LLM auf öffentlichen Cloud-Plattformen
