Die Low-Bit-Quantisierungsleistung von Llama 3 sinkt erheblich! Umfassende Bewertungsergebnisse finden Sie hier |. HKU & Beihang University & ETH-KI-php.cn

Inhaltsverzeichnis

Track 1: Quantisierung nach dem Training

1. Low-Bit-Privilegiengewichtung

2. LLM-Gewichtungskomprimierung mit extrem niedriger Bitbreite

3. Low-Bit-quantisierte Aktivierungen

Spur 2: LoRA-Feinabstimmung der Quantisierung

Fazit

Heim

Technologie-Peripheriegeräte

Die Low-Bit-Quantisierungsleistung von Llama 3 sinkt erheblich! Umfassende Bewertungsergebnisse finden Sie hier |. HKU & Beihang University & ETH

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 28, 2024 am 09:01 AM

git 人工智能大规模 llama 3

Die Leistung großer Modelle lässt LLaMA3 neue Höhen erreichen:

Auf den 15T+ Token-Daten, die in großem Maßstab vorab trainiert wurden, wurden beeindruckende Leistungsverbesserungen erzielt, und es ist erneut explodiert, weil es die empfohlenen Werte bei weitem übertrifft Band der Chinchilla Open-Source-Community-Diskussion.

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

Gleichzeitig ist auf der Ebene der praktischen Anwendung auch ein weiteres heißes Thema aufgetaucht:

Wie hoch wird die quantitative Leistung von LLaMA3 in Szenarien mit begrenzten Ressourcen sein?

Die Universität Hongkong, die Beihang-Universität und die Eidgenössische Technische Hochschule Zürich haben gemeinsam eine empirische Studie gestartet, die die Low-Bit-Quantisierungsfähigkeiten von LLaMA3 vollständig aufdeckte.

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

Die Forscher bewerteten die Ergebnisse von LLaMA3 mit 1-8 Bits und verschiedenen Bewertungsdatensätzen unter Verwendung von 10 vorhandenen quantisierten LoRA-Feinabstimmungsmethoden nach dem Training. Sie fanden heraus:

Trotz seiner beeindruckenden Leistung leidet LLaMA3 immer noch unter einer nicht zu vernachlässigenden Verschlechterung bei niedriger Bitquantisierung, insbesondere bei extrem niedrigen Bitbreiten.

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

Das Projekt wurde als Open Source auf GitHub bereitgestellt und das quantitative Modell wurde auch auf HuggingFace gestartet.

Schauen wir uns die empirischen Ergebnisse konkret an.

Track 1: Quantisierung nach dem Training

Tabelle 1 und Tabelle 2 bieten die Low-Bit-Leistung von LLaMA3-8B und LLaMA3-70B unter 8 verschiedenen PTQ-Methoden und decken einen weiten Bereich von 1 Bit bis 8 Bit Bitbreite ab.

1. Low-Bit-Privilegiengewichtung

Unter diesen ist Round-To-Nearest (RTN) eine grundlegende Rundungsquantisierungsmethode.

GPTQ ist eine der derzeit effizientesten und effektivsten Nur-Gewicht-Quantisierungsmethoden, die die Fehlerkompensation bei der Quantisierung ausnutzt. Bei 2-3 Bit führt GPTQ jedoch zu einem erheblichen Genauigkeitseinbruch bei der Quantisierung von LLaMA3.

AWQ verwendet eine Methode zur Unterdrückung abnormaler Kanäle, um die Schwierigkeit der Gewichtsquantisierung zu verringern, während QuIP durch Optimierung der Matrixberechnungen die Inkonsistenz zwischen Gewichten und Hessian sicherstellt. Sie alle behalten die Fähigkeiten von LLaMA3 bei 3 Bit bei und bringen sogar die 2-Bit-Quantisierung auf ein vielversprechendes Niveau.

2. LLM-Gewichtungskomprimierung mit extrem niedriger Bitbreite

Die kürzlich entwickelte binäre LLM-Quantisierungsmethode erreicht eine LLM-Gewichtungskomprimierung mit extrem niedriger Bitbreite.

PB-LLM verwendet eine Quantisierungsstrategie mit gemischter Genauigkeit, um die volle Präzision eines kleinen Teils wichtiger Gewichte beizubehalten und gleichzeitig die meisten Gewichte in 1 Bit zu quantisieren.

DB-LLM erreicht eine effiziente LLM-Komprimierung durch doppelte Binarisierungsgewichtsteilung und schlägt eine voreingenommene Destillationsstrategie vor, um die 2-Bit-LLM-Leistung weiter zu verbessern.

BiLLM verschiebt die LLM-Quantisierungsgrenze durch Restnäherung signifikanter Gewichte und gruppierte Quantisierung nicht signifikanter Gewichte weiter auf 1,1 Bit. Diese LLM-Quantisierungsmethoden, die speziell für extrem niedrige Bitbreiten entwickelt wurden, können eine Quantisierung mit höherer Präzision LLaMA3-8B mit ~2 Bits erreichen, die weit über Methoden wie GPTQ, AWQ und QuIP mit 2 Bits (und in einigen Fällen sogar 3 Bits) hinausgeht.

3. Low-Bit-quantisierte Aktivierungen

führten auch eine LLaMA3-Bewertung für quantisierte Aktivierungen über SmoothQuant durch, wodurch die Quantisierungsschwierigkeit von Aktivierungen auf Gewichte übertragen wird, um Aktivierungsausreißer zu glätten. Die Auswertung zeigt, dass SmoothQuant die Genauigkeit von LLaMA3 bei 8-Bit- und 6-Bit-Gewichten und -Aktivierungen beibehalten kann, bei 4-Bit jedoch einen Einbruch erleidet.

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

Spur 2: LoRA-Feinabstimmung der Quantisierung

Beim MMLU-Datensatz für LLaMA3-8B unter LoRA-FT-Quantisierung ist die auffälligste Beobachtung, dass die Feinabstimmung mit niedrigem Rang nicht nur beim Alpaka-Datensatz erfolgt kompensiert die Quantisierung nicht. Die eingeführten Fehler verschlimmern den Leistungsabfall noch weiter.

Konkret ist die quantisierte LLaMA3-Leistung, die durch verschiedene LoRA-FT-Quantisierungsmethoden bei 4 Bit erzielt wird, schlechter als die entsprechenden 4-Bit-Versionen ohne LoRA-FT. Dies steht in scharfem Gegensatz zu ähnlichen Phänomenen auf LLaMA1 und LLaMA2, wo die 4-Bit-Version mit niedriger, fein abgestimmter Quantisierung sogar das ursprüngliche FP16-Gegenstück auf MMLU deutlich übertrifft.

Laut intuitiver Analyse liegt der Hauptgrund für dieses Phänomen darin, dass die leistungsstarke Leistung von LLaMA3 von seinem groß angelegten Vortraining profitiert, was bedeutet, dass der Leistungsverlust nach der Quantisierung des Originalmodells nicht bei einem kleinen Satz von durchgeführt werden kann Parameterdaten mit niedrigem Rang Feinabstimmung zum Ausgleich (dies kann als Teilmenge des Originalmodells betrachtet werden).

Obwohl die durch die Quantisierung verursachte erhebliche Verschlechterung nicht durch Feinabstimmung ausgeglichen werden kann, übertrifft der 4-Bit-LoRA-FT-quantisierte LLaMA3-8B LLaMA1-7B und LLaMA2-7B bei verschiedenen Quantisierungsmethoden deutlich. Bei Verwendung der QLoRA-Methode beträgt beispielsweise die durchschnittliche Genauigkeit von 4-Bit-LLaMA3-8B 57,0 (FP16: 64,8), was die 38,4 von 4-Bit-LLaMA1-7B (FP16: 34,6) um 18,6 und die 43,9 von übersteigt 4-Bit LLaMA2-7B (FP16: 45,5) 13.1. Dies zeigt die Notwendigkeit eines neuen LoRA-FT-Quantisierungsparadigmas in der LLaMA3-Ära.

Ein ähnliches Phänomen trat beim CommonSenseQA-Benchmark auf. Die mit QLoRA und IR-QLoRA fein abgestimmte Modellleistung nahm im Vergleich zum 4-Bit-Pendant ohne LoRA-FT ebenfalls ab (z. B. 2,8 % durchschnittliche Abnahme für QLoRA gegenüber 2,4 % durchschnittliche Abnahme für IR-QLoRA). Dies zeigt weiter den Vorteil der Verwendung hochwertiger Datensätze in LLaMA3 und dass der generische Datensatz Alpaca nicht zur Leistung des Modells bei anderen Aufgaben beiträgt.

Fazit

Dieses Papier bewertet umfassend die Leistung von LLaMA3 in verschiedenen Low-Bit-Quantisierungstechniken, einschließlich Quantisierung nach dem Training und fein abgestimmter LoRA-Quantisierung.

Dieses Forschungsergebnis zeigt, dass LLaMA3 nach der Quantisierung zwar immer noch eine überlegene Leistung aufweist, der mit der Quantisierung verbundene Leistungsabfall jedoch erheblich ist und in vielen Fällen sogar zu einem größeren Rückgang führen kann.

Dieser Befund verdeutlicht die potenziellen Herausforderungen, die bei der Bereitstellung von LLaMA3 in ressourcenbeschränkten Umgebungen auftreten können, und zeigt reichlich Raum für Wachstum und Verbesserung im Zusammenhang mit der Low-Bit-Quantisierung auf. Es wird erwartet, dass nachfolgende Quantisierungsparadigmen durch die Behebung der durch die Low-Bit-Quantisierung verursachten Leistungseinbußen es LLMs ermöglichen werden, stärkere Fähigkeiten bei geringeren Rechenkosten zu erreichen und letztendlich die repräsentative generative künstliche Intelligenz auf ein neues Niveau zu heben.

Papierlink: https://arxiv.org/abs/2404.14047.

Projektlink: https://github.com/Macaronlin/LLaMA3-Quantizationhttps://huggingface.co/LLMQ.

Das obige ist der detaillierte Inhalt vonDie Low-Bit-Quantisierungsleistung von Llama 3 sinkt erheblich! Umfassende Bewertungsergebnisse finden Sie hier |. HKU & Beihang University & ETH. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7540

CakePHP-Tutorial

1381

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

So stellen Sie eine Verbindung zum öffentlichen Netzwerk von Git Server her Apr 17, 2025 pm 02:27 PM

Das Verbinden eines Git -Servers mit dem öffentlichen Netzwerk enthält fünf Schritte: 1. Einrichten der öffentlichen IP -Adresse; 2. Öffnen Sie den Firewall -Port (22, 9418, 80/443); 3. Konfigurieren Sie den SSH -Zugriff (Generieren Sie Schlüsselpaare, erstellen Benutzer). 4. Konfigurieren Sie HTTP/HTTPS -Zugriff (installieren Server, Konfigurieren Sie Berechtigungen); 5. Testen Sie die Verbindung (mit SSH -Client- oder Git -Befehlen).

So fügen Sie öffentliche Schlüssel zum Git -Konto hinzu Apr 17, 2025 pm 02:42 PM

Wie füge ich einem Git -Konto einen öffentlichen Schlüssel hinzu? Schritt: Generieren Sie ein SSH -Schlüsselpaar. Kopieren Sie den öffentlichen Schlüssel. Fügen Sie einen öffentlichen Schlüssel in Gitlab oder GitHub hinzu. Testen Sie die SSH -Verbindung.

Wie man mit Git -Code -Konflikt umgeht Apr 17, 2025 pm 02:51 PM

Der Code -Konflikt bezieht sich auf einen Konflikt, der auftritt, wenn mehrere Entwickler denselben Code -Stück ändern und GIT veranlassen, sich zu verschmelzen, ohne automatisch Änderungen auszuwählen. Zu den Auflösungsschritten gehören: Öffnen Sie die widersprüchliche Datei und finden Sie den widersprüchlichen Code. Führen Sie den Code manuell zusammen und kopieren Sie die Änderungen, die Sie in den Konfliktmarker halten möchten. Löschen Sie die Konfliktmarke. Änderungen speichern und einreichen.

Wie man ssh nach Git erkennt Apr 17, 2025 pm 02:33 PM

Um SSH durch Git zu erkennen, müssen Sie die folgenden Schritte ausführen: Generieren Sie ein SSH -Schlüsselpaar. Fügen Sie den öffentlichen Schlüssel zum Git -Server hinzu. Konfigurieren Sie Git so, dass sie SSH verwenden. Testen Sie die SSH -Verbindung. Lösen Sie mögliche Probleme gemäß den tatsächlichen Bedingungen.

Wie man Git Commit trennen Apr 17, 2025 pm 02:36 PM

Verwenden Sie Git, um Code separat einzureichen und die Verfolgung und unabhängige Arbeitsfähigkeit für detaillierte Änderungen bereitzustellen. Die Schritte sind wie folgt: 1. Fügen Sie die geänderten Dateien hinzu; 2. Senden spezifischer Änderungen; 3. Wiederholen Sie die obigen Schritte; V.

So erstellen Sie einen Git -Server Apr 17, 2025 pm 12:57 PM

Das Erstellen eines Git -Servers umfasst: Installieren von Git auf dem Server. Erstellen Sie Benutzer und Gruppen, die den Server ausführen. Erstellen Sie ein Git -Repository -Verzeichnis. Initialisieren Sie das nackte Repository. Konfigurieren Sie die Einstellungen für Zugriffssteuerung. Starten Sie den SSH -Service. Zugriff auf den Benutzer gewähren. Testen Sie die Verbindung.

Was tun, wenn Git einen gestaffelten Zweig einreicht Apr 17, 2025 pm 02:24 PM

Nachdem Sie sich für den falschen Zweig verpflichtet haben, können Sie ihn lösen, indem Sie feststellen, dass der falsche Zweig einen neuen Zweig erstellt, der auf den richtigen Zweig hinweist, wenden Sie sich an den neuen Zweig wenden Sie den neuen Zweig zum Remote -Repository an, um den falschen Zweig zu löschen. Erzwingen Sie den Remote -Zweig aktualisieren

So fügen Sie Umgebungsvariablen zu Git hinzu Apr 17, 2025 pm 02:39 PM

So fügen Sie Umgebungsvariablen zu Git hinzu: Ändern Sie die .gitconfig -Datei. Fügen Sie Env = Key = Wert im [Kern] -Block hinzu. Speichern und beenden Sie die Datei. Laden Sie die GIT -Konfiguration neu (GIT -Konfiguration -Reladel). Überprüfen Sie die Umgebungsvariablen (Git config --get core.env.my_env_var).

See all articles