


Um das ChatGPT-Volumenmodell auszuführen, benötigen Sie von nun an nur noch eine GPU: Hier ist eine Methode, um es um das Hundertfache zu beschleunigen.
Rechenkosten sind eine der größten Herausforderungen, denen sich Menschen beim Erstellen großer Modelle wie ChatGPT gegenübersehen.
Statistik zufolge ist die Entwicklung von GPT zu GPT-3 auch ein Prozess des Wachstums der Modellgröße – die Anzahl der Parameter stieg von 117 Millionen auf 175 Milliarden, Daten vor dem Training Die Menge stieg von 5 GB auf 45 TB, wovon die Kosten für das GPT-3-Training einmal 4,6 Millionen US-Dollar betrugen und die gesamten Trainingskosten 12 Millionen US-Dollar erreichten.
Neben dem Training ist auch Inferenz teuer. Einige Leute schätzen, dass die Rechenleistungskosten für OpenAI, auf denen ChatGPT ausgeführt wird, 100.000 US-Dollar pro Tag betragen.
Bei der Entwicklung von Technologien, die es großen Modellen ermöglichen, mehr Fähigkeiten zu beherrschen, versuchen einige Leute auch, die für KI erforderlichen Rechenressourcen zu reduzieren. Kürzlich hat eine Technologie namens FlexGen aufgrund „einer RTX 3090, auf der das ChatGPT-Volumenmodell läuft“ die Aufmerksamkeit der Menschen auf sich gezogen.
Obwohl das durch FlexGen beschleunigte große Modell immer noch sehr langsam aussieht – 1 Token pro Sekunde beim Ausführen eines Sprachmodells mit 175 Milliarden Parametern, ist es beeindruckend unmöglich in möglich. Traditionell erforderten die hohen Rechen- und Speicheranforderungen der LLM-Inferenz (Large Language Model) den Einsatz mehrerer High-End-KI-Beschleuniger für das Training. In dieser Studie wird untersucht, wie die Anforderungen der LLM-Inferenz auf eine GPU für Verbraucher reduziert und eine praktische Leistung erzielt werden können.
Kürzlich schlugen neue Forschungsergebnisse der Stanford University, der UC Berkeley, der ETH Zürich, Yandex, der Moscow State Higher School of Economics, Meta, der Carnegie Mellon University und anderen Institutionen FlexGen vor. eine Generierungs-Engine mit hohem Durchsatz für die Ausführung von LLM mit begrenztem GPU-Speicher.
Durch die Zusammenführung von Speicher und Berechnungen von GPU, CPU und Festplatte kann FlexGen unter verschiedenen Hardware-Ressourcenbeschränkungen flexibel konfiguriert werden. Mithilfe eines linearen Programmieroptimierers wird nach dem besten Muster für die Speicherung und den Zugriff auf Tensoren gesucht, einschließlich Gewichtungen, Aktivierungen und Aufmerksamkeits-Schlüssel/Wert-Caches (KV). FlexGen komprimiert die Gewichte und den KV-Cache weiter auf 4 Bit mit vernachlässigbarem Genauigkeitsverlust. Im Vergleich zu hochmodernen Offloading-Systemen führt FlexGen OPT-175B 100-mal schneller auf einer einzelnen 16-GB-GPU aus und erreicht erstmals einen realen Generierungsdurchsatz von 1 Token/s. FlexGen verfügt außerdem über eine Pipeline-Parallellaufzeit, um eine superlineare Skalierung bei der Dekodierung zu ermöglichen, wenn mehr verteilte GPUs verfügbar sind.
Aktuell hat die Technologie den Code veröffentlicht und mehrere tausend Sterne erhalten:
https ://www.php.cn/link/ee715daa76f1b51d80343f45547be570
Einführung
Methoden zur Reduzierung des Ressourcenbedarfs der LLM-Inferenz wurden in letzter Zeit häufig diskutiert. Diese Bemühungen sind in drei Richtungen unterteilt:
(1) Modellkomprimierung zur Reduzierung des gesamten Speicherbedarfs; 🎜# (2) Kollaboratives Denken, Kostenteilung durch Dezentralisierung;
(3) Auslagerung zur Nutzung von CPU und Festplattenspeicher.
Diese Techniken reduzieren den Rechenressourcenbedarf für die Verwendung von LLM erheblich. Allerdings wird häufig davon ausgegangen, dass Modelle in den GPU-Speicher passen, und bestehende Offloading-basierte Systeme haben immer noch Schwierigkeiten, 175 Milliarden Modelle mit Parametergröße mit akzeptablem Durchsatz mit einer einzigen GPU auszuführen.
In neuer Forschung konzentrieren sich die Autoren auf effektive Offloading-Strategien für generative Inferenz mit hohem Durchsatz. Wenn der GPU-Speicher nicht ausreicht, müssen wir ihn auf den Sekundärspeicher auslagern und die Berechnungen Stück für Stück durch Teilladung durchführen. Auf einer typischen Maschine ist die Speicherhierarchie in drei Ebenen unterteilt, wie in der folgenden Abbildung dargestellt. High-Level-Speicher ist schnell, aber knapp, Low-Level-Speicher ist langsam, aber reichlich vorhanden.
In FlexGen strebt der Autor keine niedrige Latenz an, sondern zielt auf durchsatzorientierte Szenarien ab, die in Anwendungen wie Benchmarking, Informationsextraktion und Datensortierung beliebt sind. Das Erreichen einer niedrigen Latenz stellt grundsätzlich eine Herausforderung beim Offloading dar, aber für durchsatzorientierte Szenarien kann die Effizienz des Offloadings erheblich verbessert werden. Abbildung 1 zeigt den Kompromiss zwischen Latenz und Durchsatz für drei Inferenzsysteme mit Offloading. Bei sorgfältiger Planung können die E/A-Kosten auf große Eingabemengen verteilt werden und sich mit der Berechnung überschneiden. In der Studie zeigten die Autoren, dass eine einzelne durchsatzoptimierte T4-GPU für Endverbraucher hinsichtlich der Kosten pro Rechenleistungseinheit viermal effizienter ist als 8 latenzoptimierte A100-GPUs in der Cloud.
Abbildung 1. Latenz- und Durchsatz-Kompromisse für drei Offloading-basierte Systeme auf OPT-175B (links) und OPT-30B (rechts). FlexGen erreicht eine neue Pareto-Optimumgrenze und erhöht den maximalen Durchsatz des OPT-175B um den Faktor 100. Andere Systeme konnten den Durchsatz aufgrund unzureichenden Speichers nicht weiter steigern.
Während es Studien gibt, in denen der Latenz-Durchsatz-Kompromiss des Offloadings im Kontext des Trainings diskutiert wird, hat es noch niemand verwendet, um LLM-Inferenz zu generieren, was ein eigenständiger Prozess ist. Generative Inferenz stellt aufgrund der autoregressiven Natur von LLMs besondere Herausforderungen dar. Zusätzlich zur Speicherung aller Parameter ist eine sequentielle Dekodierung und die Aufrechterhaltung eines großen Aufmerksamkeits-Schlüssel-/Wert-Cache (KV-Cache) erforderlich. Bestehende Offload-Systeme sind diesen Herausforderungen nicht gewachsen, führen daher zu viele I/O-Vorgänge durch und erreichen einen Durchsatz, der weit unter den Fähigkeiten der Hardware liegt.
Das Entwerfen guter Offloading-Strategien für generative Inferenz ist eine Herausforderung. Erstens gibt es in diesem Prozess drei Tensoren: Gewichte, Aktivierungen und KV-Cache. Die Richtlinie sollte angeben, was, wo und wann auf einer dreistufigen Hierarchie deinstalliert werden soll. Zweitens bildet die Struktur der Batch-für-Batch-, pro-Token- und pro-Layer-Berechnungen einen komplexen Abhängigkeitsgraphen, der auf verschiedene Arten berechnet werden kann. Die Strategie sollte einen Zeitplan wählen, der die Ausführungszeit minimiert. Zusammen ergeben diese Entscheidungen einen komplexen Gestaltungsraum.
Zu diesem Zweck wurde auf der neuen Methode FlexGen ein Offloading-Framework für LLM-Inferenz vorgeschlagen. FlexGen aggregiert Speicher von GPU, CPU und Festplatte und plant E/A-Vorgänge effizient. Die Autoren diskutieren auch mögliche Komprimierungsmethoden und verteilte Pipeline-Parallelität.
Die Hauptbeiträge dieser Forschung sind wie folgt:
1 Der Autor definiert formal den Suchraum möglicher Auslagerungsstrategien und verwendet ein Kostenmodell und einen linearen Programmierlöser, um nach der optimalen Strategie zu suchen. Insbesondere zeigten die Forscher, dass der Suchraum eine nahezu E/A-optimale Berechnungsreihenfolge mit einer E/A-Komplexität innerhalb des Zweifachen der optimalen Berechnungsreihenfolge erfasst. Der Suchalgorithmus kann für eine Vielzahl von Hardwarespezifikationen und Latenz-/Durchsatzbeschränkungen konfiguriert werden und bietet so eine Möglichkeit, reibungslos im Kompromissbereich zu navigieren. Im Vergleich zu bestehenden Strategien vereinheitlicht die FlexGen-Lösung Gewichtungen, Aktivierungen und KV-Cache-Platzierung und ermöglicht so größere Batch-Größen.
2. Untersuchungen zeigen, dass die Gewichte und der KV-Cache von LLMs wie OPT-175B ohne Umschulung/Kalibrierung und mit vernachlässigbarem Genauigkeitsverlust auf 4 Bit komprimiert werden können. Dies wird durch eine feinkörnige Gruppierungsquantisierung erreicht, die die I/O-Kosten erheblich senken kann.
3. Demonstrieren Sie die Effizienz von FlexGen, indem Sie OPT-175B auf einer NVIDIA T4-GPU (16 GB) ausführen. Auf einer einzelnen GPU kann unkomprimiertes FlexGen bei gleichen Latenzanforderungen einen 65-mal höheren Durchsatz erzielen als DeepSpeed Zero-Inference (Aminabadi et al., 2022) und Hugging Face Accelerate (HuggingFace, 2022). Letzteres ist derzeit das fortschrittlichste Inferenzsystem basierend auf Offloading in der Branche. Wenn höhere Latenz und Komprimierung zugelassen werden, kann FlexGen den Durchsatz weiter steigern und 100-fache Verbesserungen erzielen. FlexGen ist das erste System, das mit einer einzigen T4-GPU einen Geschwindigkeitsdurchsatz von 1 Token/s für den OPT-175B erreicht. FlexGen mit Pipeline-Parallelität erreicht eine superlineare Skalierung bei der Dekodierung bei mehreren verteilten GPUs.
In der Studie verglichen die Autoren auch FlexGen und Petals als Vertreter von Offloading- und dezentralen Mengeninferenzmethoden. Die Ergebnisse zeigen, dass FlexGen mit einer einzelnen T4-GPU einen dezentralen Petal-Cluster mit 12 T4-GPUs hinsichtlich des Durchsatzes übertrifft und in einigen Fällen sogar eine geringere Latenz erreicht.
Laufmechanismus
Durch die Zusammenführung von Speicher und Berechnungen von GPU, CPU und Festplatte kann FlexGen unter verschiedenen Hardwareressourcenbeschränkungen flexibel konfiguriert werden. Mithilfe eines linearen Programmieroptimierers wird nach dem besten Muster für die Speicherung und den Zugriff auf Tensoren gesucht, einschließlich Gewichtungen, Aktivierungen und Aufmerksamkeits-Schlüssel/Wert-Caches (KV). FlexGen komprimiert die Gewichte und den KV-Cache weiter auf 4 Bit mit vernachlässigbarem Genauigkeitsverlust.
Eine Schlüsselidee von FlexGen besteht darin, einen Kompromiss zwischen Latenz und Durchsatz zu schließen. Das Erreichen einer niedrigen Latenz ist für Offloading-Methoden von Natur aus eine Herausforderung, aber für durchsatzorientierte Szenarien kann die Offloading-Effizienz erheblich verbessert werden (siehe Abbildung unten). FlexGen nutzt Blockplanung, um Gewichtungen wiederzuverwenden und I/O mit Berechnungen zu überlappen, wie in Abbildung (b) unten dargestellt, während andere Basissysteme eine ineffiziente zeilenweise Planung verwenden, wie in Abbildung (a) unten dargestellt.
Aktuell umfassen die nächsten Schritte des Studienautors das Testen von Apple M1, M2-Chip-Unterstützung und Colab-Bereitstellungsunterstützung.
FlexGen hat seit seiner Veröffentlichung schnell Tausende von Sternen auf GitHub erreicht und erfreut sich auch in sozialen Netzwerken großer Beliebtheit. Die Leute haben geäußert, dass dieses Projekt sehr vielversprechend ist. Es scheint, dass die Hindernisse für die Ausführung leistungsstarker Sprachmodelle in großem Maßstab allmählich überwunden werden. Es besteht die Hoffnung, dass ChatGPT noch in diesem Jahr auf einem einzigen Computer verwaltet werden kann.
Jemand hat diese Methode verwendet, um ein Sprachmodell zu trainieren, und die Ergebnisse sind wie folgt:
# 🎜🎜#
Obwohl die KI nicht mit einer großen Datenmenge gefüttert wurde und kein spezifisches Wissen kennt, scheint die Logik der Beantwortung von Fragen relativ klar. Vielleicht Können wir das in zukünftigen NPC-Spielen sehen?
Das obige ist der detaillierte Inhalt vonUm das ChatGPT-Volumenmodell auszuführen, benötigen Sie von nun an nur noch eine GPU: Hier ist eine Methode, um es um das Hundertfache zu beschleunigen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Worldcoin (WLD) fällt auf dem Kryptowährungsmarkt mit seinen einzigartigen biometrischen Überprüfungs- und Datenschutzschutzmechanismen auf, die die Aufmerksamkeit vieler Investoren auf sich ziehen. WLD hat mit seinen innovativen Technologien, insbesondere in Kombination mit OpenAI -Technologie für künstliche Intelligenz, außerdem unter Altcoins gespielt. Aber wie werden sich die digitalen Vermögenswerte in den nächsten Jahren verhalten? Lassen Sie uns den zukünftigen Preis von WLD zusammen vorhersagen. Die Preisprognose von 2025 WLD wird voraussichtlich im Jahr 2025 ein signifikantes Wachstum in WLD erzielen. Die Marktanalyse zeigt, dass der durchschnittliche WLD -Preis 1,31 USD mit maximal 1,36 USD erreichen kann. In einem Bärenmarkt kann der Preis jedoch auf rund 0,55 US -Dollar fallen. Diese Wachstumserwartung ist hauptsächlich auf Worldcoin2 zurückzuführen.

Die Plattformen, die im Jahr 2025 im Leveraged Trading, Security und Benutzererfahrung hervorragende Leistung haben, sind: 1. OKX, geeignet für Hochfrequenzhändler und bieten bis zu 100-fache Hebelwirkung; 2. Binance, geeignet für Mehrwährungshändler auf der ganzen Welt und bietet 125-mal hohe Hebelwirkung; 3. Gate.io, geeignet für professionelle Derivate Spieler, die 100 -fache Hebelwirkung bietet; 4. Bitget, geeignet für Anfänger und Sozialhändler, die bis zu 100 -fache Hebelwirkung bieten; 5. Kraken, geeignet für stetige Anleger, die fünfmal Hebelwirkung liefert; 6. Bybit, geeignet für Altcoin -Entdecker, die 20 -fache Hebelwirkung bietet; 7. Kucoin, geeignet für kostengünstige Händler, die 10-fache Hebelwirkung bietet; 8. Bitfinex, geeignet für das Seniorenspiel

Börsen, die Cross-Chain-Transaktionen unterstützen: 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Kurvenfinanzierung, 5. Thorchain, 6. 1inch Exchange, 7. DLN-Handel, diese Plattformen unterstützen Multi-Chain-Asset-Transaktionen durch verschiedene Technologien.

Binance ist der Overlord des Global Digital Asset Trading -Ökosystems, und seine Merkmale umfassen: 1. Das durchschnittliche tägliche Handelsvolumen übersteigt 150 Milliarden US -Dollar, unterstützt 500 Handelspaare, die 98% der Mainstream -Währungen abdecken. 2. Die Innovationsmatrix deckt den Markt für Derivate, das Web3 -Layout und den Bildungssystem ab; 3. Die technischen Vorteile sind Millisekunden -Matching -Engines mit Spitzenvolumina von 1,4 Millionen Transaktionen pro Sekunde. 4. Compliance Progress hält 15 Länderlizenzen und legt konforme Einheiten in Europa und den Vereinigten Staaten ein.

In der geschäftigen Welt der Kryptowährungen entstehen immer neue Möglichkeiten. Gegenwärtig zieht Kerneldao (Kernel) Airdrop -Aktivität viel Aufmerksamkeit auf sich und zieht die Aufmerksamkeit vieler Investoren auf sich. Also, was ist der Ursprung dieses Projekts? Welche Vorteile können BNB -Inhaber davon bekommen? Machen Sie sich keine Sorgen, das Folgende wird es einzeln für Sie enthüllen.

Der Sprung in den Kryptowährungsmarkt hat bei den Anlegern Panik verursacht, und Dogecoin (DOGE) ist zu einem der am stärksten getroffenen Bereiche geworden. Der Preis fiel stark, und die Gesamtwertsperrung der dezentralen Finanzierung (DEFI) (TVL) verzeichnete ebenfalls einen signifikanten Rückgang. Die Verkaufswelle von "Black Monday" fegte den Kryptowährungsmarkt, und Dogecoin war der erste, der getroffen wurde. Die Defitvl fiel auf 2023 und der Währungspreis fiel im vergangenen Monat um 23,78%. Die Defitvl von Dotecoin fiel auf ein Tiefpunkt von 2,72 Millionen US -Dollar, hauptsächlich aufgrund eines Rückgangs des SOSO -Wertindex um 26,37%. Andere große Defi -Plattformen wie die langweilige DAO und Thorchain, TVL, fielen ebenfalls um 24,04% bzw. 20.

Faktoren der steigenden Preise für virtuelle Währung sind: 1. Erhöhte Marktnachfrage, 2. Verringertes Angebot, 3.. Rückgangsfaktoren umfassen: 1. Verringerte Marktnachfrage, 2. Erhöhtes Angebot, 3. Streik der negativen Nachrichten, 4. Pessimistische Marktstimmung, 5. makroökonomisches Umfeld.

Aavenomics ist ein Vorschlag zur Änderung des Aave -Protokoll -Tokens und zur Einführung von Token -Repos, die ein Quorum für Aavedao implementiert hat. Marc Zeller, Gründer der AAVE -Projektkette (ACI), kündigte dies auf X an und stellte fest, dass sie eine neue Ära für die Vereinbarung markiert. Marc Zeller, Gründer der Aave Chain Initiative (ACI), kündigte auf X an, dass der Aavenomics -Vorschlag das Modifizieren des Aave -Protokoll -Tokens und die Einführung von Token -Repos umfasst, hat ein Quorum für Aavedao erreicht. Laut Zeller ist dies eine neue Ära für die Vereinbarung. AVEDAO -Mitglieder stimmten überwiegend für die Unterstützung des Vorschlags, der am Mittwoch 100 pro Woche betrug
