Mit nur 1/17 der Schulungskosten von Llama3, Snowflake Open-Source-128x3B-MoE-Modell-KI-php.cn

Heim

Technologie-Peripheriegeräte

Mit nur 1/17 der Schulungskosten von Llama3, Snowflake Open-Source-128x3B-MoE-Modell

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 25, 2024 pm 04:10 PM

apache 产业压缩技术

Snowflake schließt sich dem LLM-Nahkampf an.

Snowflake veröffentlicht das hochmoderne „Enterprise Intelligence“-Modell Arctic, das sich auf unternehmensinterne Anwendungen konzentriert.

Soeben gab der Datenmanagement- und Warehouse-Anbieter Snowflake bekannt, dass er sich dem LLM-Melee angeschlossen hat und ein großes Sprachmodell (LLM) der Spitzenklasse veröffentlicht hat, das sich auf Anwendungen auf Unternehmensebene konzentriert – Snowflake Arctic.

Als LLM, das von einem Cloud-Computing-Unternehmen ins Leben gerufen wurde, bietet Arctic vor allem die folgenden zwei Vorteile:

Effiziente Intelligenz: Arctic schneidet bei Unternehmensaufgaben wie SQL-Generierung, Programmierung und Befehlsverfolgung gut ab. , sogar vergleichbar mit Open-Source-Modellen, die mit höheren Rechenkosten trainiert wurden. Arctic setzt neue Maßstäbe für kostengünstige Schulungen und ermöglicht es Snowflake-Kunden, qualitativ hochwertige, maßgeschneiderte Modelle zu geringen Kosten für ihre Unternehmensanforderungen zu erstellen.
Open Source: Arctic übernimmt die Apache 2.0-Lizenz und bietet offenen Zugriff auf Gewichte und Code, und Snowflake wird auch alle Datenlösungen und Forschungsergebnisse als Open Source bereitstellen.

Jetzt können Sie auf Hugging Face auf das Arktis-Modell zugreifen. Snowflake sagte: Benutzer werden es bald über eine Reihe von Modellbibliotheken erhalten können, darunter Snowflake Cortex, AWS, Microsoft Azure, NVIDIA API, Lamini, Perplexity, Replicate und Together usw.

仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

Hugging Face: https://huggingface.co/Snowflake/snowflake-arctic-instruct

Arctics Kontextfenster ist auf 4K eingestellt und das Forschungsteam entwickelt ein auf Aufmerksamkeitssenken basierendes Schiebefenster Die Implementierung wird in den kommenden Wochen eine unbegrenzte Sequenzgenerierung unterstützen und in naher Zukunft auf 32.000 Aufmerksamkeitsfenster erweitert werden.

Hohe Leistung, niedrige Kosten

Das Forschungsteam von Snowflake erkannte ein konsistentes Muster bei den KI-Anforderungen und Anwendungsfällen von Unternehmenskunden: Unternehmen möchten LLM verwenden, um Konversations-SQL-Daten-Copilot und -Code zu erstellen Copilot und RAG-Chatbots.

Das bedeutet, dass der LLM über hervorragende SQL- und Codekenntnisse, das Befolgen komplexer Anweisungen und das Generieren konkreter Antworten verfügen muss. Snowflake kombiniert diese Fähigkeiten in einer einzigen Metrik namens „Enterprise Intelligence“, indem es die Leistungsniveaus von Codierung (HumanEval+ und MBPP+), SQL-Generierung (Spider) und Befehlsfolge (IFEval) mittelt.

Arctic erreicht die höchste Stufe der „Enterprise Intelligence“ im Open-Source-LLM und erreicht dies bei etwa weniger als 2 Millionen US-Dollar an Trainingsrechenkosten (weniger als 3.000 GPU-Wochen). Dies bedeutet, dass Arctic leistungsfähiger ist als andere Open-Source-Modelle, die mit ähnlichen Rechenkosten trainiert wurden.

Noch wichtiger ist, dass sich Arctic im Bereich Enterprise Intelligence auszeichnet, selbst im Vergleich zu Modellen, die mit viel höheren Rechenkosten trainiert wurden. Die hohe Trainingseffizienz von Arctic bedeutet, dass Snowflake-Kunden und die KI-Community insgesamt benutzerdefinierte Modelle kostengünstiger trainieren können.

Wie in Abbildung 1 dargestellt, liegt Arctic in Bezug auf Enterprise-Intelligence-Metriken auf Augenhöhe mit LLAMA 3 8B und LLAMA 2 70B und verbraucht dabei weniger als die Hälfte der Trainingsrechenkosten. Und obwohl Arctic nur 1/17 der Rechenkosten verbraucht, ist es bei Indikatoren wie Kodierung (HumanEval+ und MBPP+), SQL (Spider) und Befehlsfolge (IFEval) mit Llama3 70B vergleichbar, d. h. Arctic behält seine Wettbewerbsfähigkeit bei der Gesamtleistung bei habe das gleichzeitig gemacht.

Darüber hinaus bewertete Snowflake Arctic auch nach akademischen Maßstäben, wobei Weltwissen, gesunder Menschenverstand und mathematische Fähigkeiten einbezogen wurden. Die vollständigen Bewertungsergebnisse sind in der folgenden Abbildung dargestellt:

Trainingseffizienz

Um die oben genannte Trainingseffizienz zu erreichen, verwendet Arctic eine einzigartige Dense-MoE-Hybridtransformatorarchitektur. Es kombiniert ein 10B-Dense-Transformer-Modell mit einem 128×3,66B Rest-MoE-MLP mit insgesamt 480B Parametern und 17B aktiven Parametern, wobei Top-2-Gating zur Auswahl verwendet wird.

Beim Entwurf und Training von Arctic nutzte das Forschungsteam die folgenden drei wichtigen Erkenntnisse und Innovationen:

MoE-Experten und Kompressionstechnologie

Ende 2021 hat das DeepSpeed-Team It wird gezeigt, dass MoE auf autoregressives LLM angewendet werden kann, wodurch die Modellqualität erheblich verbessert wird, ohne den Rechenaufwand zu erhöhen. Beim Entwurf von Arctic stellte das Forschungsteam fest, dass die Verbesserung der Modellqualität basierend auf dieser Idee hauptsächlich von der Anzahl der Experten und der Gesamtzahl der Parameter im MoE-Modell sowie der Anzahl der Kombinationen dieser Experten abhängt.

Auf dieser Grundlage ist Arctic darauf ausgelegt, 480B Parameter auf 128 feinkörnige Experten zu verteilen und mithilfe von Top-2-Gating 17B aktive Parameter auszuwählen.

Architektur- und System-Co-Design

Das Training einer grundlegenden MoE-Architektur mit einer großen Anzahl von Experten auf leistungsstarker KI-Trainingshardware ist aufgrund des hohen Overheads der vollständig vernetzten Kommunikation zwischen Experten sehr ineffizient. Snowflake hat herausgefunden, dass dieser Overhead eliminiert werden könnte, wenn sich die Kommunikation mit der Berechnung überschneiden könnte.

Daher kombiniert Arctic einen dichten Transformator mit einer verbleibenden MoE-Komponente (Abbildung 2), um Überlappungen durch Kommunikation zu berechnen, wodurch das Trainingssystem eine gute Trainingseffizienz erreichen und den größten Teil des Kommunikationsaufwands verbergen kann.

Curriculum-Lernen mit Fokus auf Unternehmensdaten

Hervorragende Leistung bei Metriken auf Unternehmensebene wie Codegenerierung und SQL erfordert Daten-Curriculum-Lernen (Curriculum Learning), das sich völlig von allgemeinen Metriken unterscheidet. Durch Hunderte von kleinen Ablationsexperimenten lernte das Team, dass allgemeine Fähigkeiten, wie etwa gesundes Denken, in der Anfangsphase erlernt werden können, während komplexere Metriken, wie etwa Codierung, Mathematik und SQL, später effektiv erlernt werden können in der Ausbildung.

Dies kann mit der menschlichen Lebenserziehung verglichen werden, bei der nach und nach Fähigkeiten von einfach bis schwierig erworben werden. Daher verwendet Arctic einen dreistufigen Lehrplan, wobei jede Stufe eine andere Datenzusammensetzung aufweist, wobei sich die erste Stufe auf allgemeine Fähigkeiten (1T-Token) und die letzten beiden Stufen auf unternehmerische Fähigkeiten (1,5T- und 1T-Token) konzentriert.

Inferenzeffizienz

Inferenzeffizienz ist auch ein wichtiger Aspekt der Modelleffizienz, der sich darauf auswirkt, ob das Modell tatsächlich zu geringen Kosten eingesetzt werden kann.

Arctic stellt einen Größensprung von MoE-Modellen dar, da es mehr Experten und Gesamtparameter verwendet als jedes andere Open-Source-Regressions-MoE-Modell. Daher benötigt Snowflake mehrere innovative Ideen, um sicherzustellen, dass Arctic effizient schließen kann:

a) Bei interaktiver Inferenz mit einer kleinen Batch-Größe, beispielsweise einer Batch-Größe von 1, wird die Inferenzlatenz des MoE-Modells durch das Lesen aller begrenzt Aktive Parameter Die Zeitinferenz ist durch die Speicherbandbreite begrenzt. Bei dieser Stapelgröße beträgt das Speicherlesevolumen von Arctic (17B aktive Parameter) nur 1/4 von Code-Llama 70B und 2/5 von Mixtral 8x22B (44B aktive Parameter), was zu schnelleren Inferenzraten führt.

b) Wenn die Stapelgröße erheblich zunimmt, beispielsweise Tausende von Token pro Vorwärtsdurchlauf, geht Arctic von einer begrenzten Speicherbandbreite zu einer rechnerisch begrenzten Bewegung über, wobei die Inferenz durch die aktiven Parameter jedes Tokens begrenzt wird. In dieser Hinsicht beträgt der Rechenaufwand für Arctic ein Viertel des Rechenaufwands von CodeLlama 70B und Llama 3 70B.

Um eine rechengebundene Inferenz und einen hohen Durchsatz zu erreichen, der der geringen Anzahl aktiver Parameter in der Arktis entspricht, ist eine größere Batchgröße erforderlich. Um dies zu erreichen, ist ausreichend KV-Cache erforderlich, um dies zu unterstützen, sowie genügend Speicher, um die fast 500 B-Parameter des Modells zu speichern.

Obwohl es eine Herausforderung darstellt, erreicht Snowflake dies durch die Verwendung von zwei Knoten für die Inferenz und die Kombination von Systemoptimierungen wie FP8-Gewichten, Split-Fuse und kontinuierlichem Batching, Intra-Node-Tensor-Parallelität und Inter-Node-Pipeline-Parallelität.

Das Forschungsteam hat eng mit NVIDIA zusammengearbeitet, um die Inferenz für NVIDIA NIM-Mikrodienste zu optimieren, die von TensorRT-LLM gesteuert werden. Gleichzeitig arbeitet das Forschungsteam auch mit der vLLM-Community zusammen, und interne Entwicklungsteams werden in den kommenden Wochen auch die effiziente Inferenz von Arctic für Unternehmensanwendungsfälle implementieren.

^{Referenzlink: https://www.snowflake.com/blog/arctic-open-efficient-foundation-lingual-models-snowflake/}

Das obige ist der detaillierte Inhalt vonMit nur 1/17 der Schulungskosten von Llama3, Snowflake Open-Source-128x3B-MoE-Modell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Will R.E.P.O. Crossplay haben?

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7555

CakePHP-Tutorial

1384

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

So setzen Sie das CGI -Verzeichnis in Apache Apr 13, 2025 pm 01:18 PM

Um ein CGI-Verzeichnis in Apache einzurichten, müssen Sie die folgenden Schritte ausführen: Erstellen Sie ein CGI-Verzeichnis wie "CGI-bin" und geben Sie Apache-Schreibberechtigungen. Fügen Sie den Block "scriptalias" -Richtungsblock in die Apache-Konfigurationsdatei hinzu, um das CGI-Verzeichnis der URL "/cgi-bin" zuzuordnen. Starten Sie Apache neu.

So starten Sie Apache Apr 13, 2025 pm 01:06 PM

Die Schritte zum Starten von Apache sind wie folgt: Installieren Sie Apache (Befehl: sudo apt-Get-Get-Installieren Sie Apache2 oder laden Sie ihn von der offiziellen Website herunter). (Optional, Linux: sudo systemctl

So überprüfen Sie die Debian OpenSSL -Konfiguration Apr 12, 2025 pm 11:57 PM

In diesem Artikel werden verschiedene Methoden eingeführt, um die OpenSSL -Konfiguration des Debian -Systems zu überprüfen, um den Sicherheitsstatus des Systems schnell zu erfassen. 1. Bestätigen Sie zuerst die OpenSSL -Version und stellen Sie sicher, ob OpenSSL installiert wurde und Versionsinformationen. Geben Sie den folgenden Befehl in das Terminal ein: Wenn OpenSslversion nicht installiert ist, fordert das System einen Fehler auf. 2. Zeigen Sie die Konfigurationsdatei an. Die Hauptkonfigurationsdatei von OpenSSL befindet sich normalerweise in /etc/ssl/opensl.cnf. Sie können einen Texteditor (z. B. Nano) verwenden: Sudonano/etc/ssl/openSSL.cnf Diese Datei enthält wichtige Konfigurationsinformationen wie Schlüssel-, Zertifikatpfad- und Verschlüsselungsalgorithmus. 3.. Verwenden Sie OPE

So verwenden Sie Debian Apache -Protokolle, um die Website der Website zu verbessern Apr 12, 2025 pm 11:36 PM

In diesem Artikel wird erläutert, wie die Leistung der Website verbessert wird, indem Apache -Protokolle im Debian -System analysiert werden. 1. Log -Analyse -Basics Apache Protokoll Datensätze Die detaillierten Informationen aller HTTP -Anforderungen, einschließlich IP -Adresse, Zeitstempel, URL, HTTP -Methode und Antwortcode. In Debian -Systemen befinden sich diese Protokolle normalerweise in /var/log/apache2/access.log und /var/log/apache2/error.log verzeichnis. Das Verständnis der Protokollstruktur ist der erste Schritt in der effektiven Analyse. 2. Tool mit Protokollanalyse Mit einer Vielzahl von Tools können Apache -Protokolle analysiert: Befehlszeilen -Tools: GREP, AWK, SED und andere Befehlszeilen -Tools.

So löschen Sie mehr als Servernamen von Apache Apr 13, 2025 pm 01:09 PM

Um eine zusätzliche Servername -Anweisung von Apache zu löschen, können Sie die folgenden Schritte ausführen: Identifizieren und löschen Sie die zusätzliche Servername -Richtlinie. Starten Sie Apache neu, damit die Änderungen wirksam werden. Überprüfen Sie die Konfigurationsdatei, um Änderungen zu überprüfen. Testen Sie den Server, um sicherzustellen, dass das Problem behoben ist.

So sehen Sie Ihre Apache -Version an Apr 13, 2025 pm 01:15 PM

Es gibt 3 Möglichkeiten, die Version auf dem Apache -Server anzuzeigen: Über die Befehlszeile (apachect -v- oder apache2CTL -v) überprüfen Sie die Seite Serverstatus (http: // & lt; Server -IP- oder Domänenname & GT;/Server -Status) oder die Apache -Konfigurationsdatei (Serversion: Apache/& lt; Versionsnummer & GT;).).

So optimieren Sie die CentOS -HDFS -Konfiguration Apr 14, 2025 pm 07:15 PM

Verbesserung der HDFS -Leistung bei CentOS: Ein umfassender Optimierungshandbuch zur Optimierung von HDFs (Hadoop Distributed Dateisystem) auf CentOS erfordert eine umfassende Berücksichtigung der Hardware-, Systemkonfigurations- und Netzwerkeinstellungen. Dieser Artikel enthält eine Reihe von Optimierungsstrategien, mit denen Sie die HDFS -Leistung verbessern können. 1. Hardware -Upgrade und Auswahlressourcenerweiterung: Erhöhen Sie die CPU-, Speicher- und Speicherkapazität des Servers so weit wie möglich. Hochleistungs-Hardware: Übernimmt Hochleistungs-Netzwerkkarten und -Schalter, um den Netzwerkdurchsatz zu verbessern. 2. Systemkonfiguration Fine-Tuning-Kernel-Parameteranpassung: Modify /etc/sysctl.conf Datei, um die Kernelparameter wie TCP-Verbindungsnummer, Dateihandelsnummer und Speicherverwaltung zu optimieren. Passen Sie beispielsweise den TCP -Verbindungsstatus und die Puffergröße an

So stellen Sie eine Verbindung zur Datenbank von Apache her Apr 13, 2025 pm 01:03 PM

Apache verbindet eine Verbindung zu einer Datenbank erfordert die folgenden Schritte: Installieren Sie den Datenbanktreiber. Konfigurieren Sie die Datei web.xml, um einen Verbindungspool zu erstellen. Erstellen Sie eine JDBC -Datenquelle und geben Sie die Verbindungseinstellungen an. Verwenden Sie die JDBC -API, um über den Java -Code auf die Datenbank zuzugreifen, einschließlich Verbindungen, Erstellen von Anweisungen, Bindungsparametern, Ausführung von Abfragen oder Aktualisierungen und Verarbeitungsergebnissen.

See all articles