In Anlehnung an die göttliche Zusammenfassung von Jeff Dean teilte ein ehemaliger Google-Ingenieur „LLM-Entwicklungsgeheimnisse' mit: Zahlen, die jeder Entwickler kennen sollte!-KI-php.cn

Inhaltsverzeichnis

Prompt

Preis

~1 Million US-Dollar: die Kosten für das Training eines 13-Milliarden-Parameter-Modells auf 1,4 Billionen Token

Heim

Technologie-Peripheriegeräte

In Anlehnung an die göttliche Zusammenfassung von Jeff Dean teilte ein ehemaliger Google-Ingenieur „LLM-Entwicklungsgeheimnisse' mit: Zahlen, die jeder Entwickler kennen sollte!

王林

May 25, 2023 pm 10:25 PM

ai 开发

Kürzlich hat ein Internetnutzer eine Liste mit „Zahlen, die jeder LLM-Entwickler kennen sollte“ zusammengestellt und erklärt, warum diese Zahlen wichtig sind und wie wir sie verwenden sollten.

Als er bei Google war, gab es ein vom legendären Ingenieur Jeff Dean zusammengestelltes Dokument mit dem Titel „Zahlen, die jeder Ingenieur kennen sollte“.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

Jeff Dean: „Zahlen, die jeder Ingenieur kennen sollte“

Für LLM-Entwickler (Large Language Model) gibt es einen ähnlichen Satz grober Schätzungen. Auch Zahlen sind sehr nützlich.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

Prompt

40-90%: Kosteneinsparungen nach dem Hinzufügen von „prägnant und prägnant“ zur Eingabeaufforderung

Sie müssen wissen, dass Sie sich auf das von LLM während der Ausgabe verwendete Token verlassen Bezahlt.

Das bedeutet, dass Sie viel Geld sparen können, indem Sie Ihr Modell prägnant gestalten.

Gleichzeitig kann dieses Konzept auf weitere Orte ausgeweitet werden.

Zum Beispiel wollten Sie ursprünglich GPT-4 verwenden, um 10 Alternativen zu generieren, aber jetzt können Sie es möglicherweise bitten, zuerst 5 bereitzustellen, und dann können Sie die andere Hälfte des Geldes behalten.

1.3: Die durchschnittliche Anzahl von Token pro Wort

LLM arbeitet in Token-Einheiten.

Und ein Token ist ein Wort oder ein Teil eines Wortes. Beispielsweise kann „essen“ in zwei Token zerlegt werden: „essen“ und „ing“.

Im Allgemeinen generieren 750 englische Wörter etwa 1000 Token.

Für andere Sprachen als Englisch wird die Anzahl der Token pro Wort erhöht, abhängig von ihrer Gemeinsamkeit im Einbettungskorpus von LLM.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

Preis

Angesichts der Tatsache, dass die Kosten für die Nutzung von LLM sehr hoch sind, werden die preisbezogenen Zahlen besonders wichtig.

~50: Kostenverhältnis von GPT-4 vs. GPT-3.5 Turbo

Die Verwendung von GPT-3.5-Turbo ist etwa 50-mal günstiger als GPT-4. Ich sage „ungefähr“, weil GPT-4 für Eingabeaufforderungen und Generierung unterschiedliche Gebühren erhebt.

In der tatsächlichen Anwendung ist es also am besten, zu bestätigen, ob GPT-3.5-Turbo ausreicht, um Ihre Anforderungen zu erfüllen.

Für Aufgaben wie das Zusammenfassen ist beispielsweise GPT-3.5-Turbo mehr als ausreichend.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

5 Es ist viel günstiger, die LLM-Generierung zu nutzen.

Konkret kostet die Suche im neuronalen Informationsabrufsystem etwa fünfmal weniger als die Abfrage nach GPT-3.5-Turbo. Im Vergleich zu GPT-4 beträgt der Kostenunterschied das 250-fache!

10: Kostenverhältnis von OpenAI-Einbettung vs. selbstgehosteter Einbettung

# 🎜🎜 #
Hinweis: Diese Zahl hängt sehr stark von der Last und der eingebetteten Batchgröße ab. Betrachten Sie sie daher bitte als Näherungswert.

Mit g4dn.4xlarge (On-Demand-Preis: 1,20 $/Stunde) können wir SentenceTransformers mit HuggingFace (vergleichbar mit den Einbettungen von OpenAI) nutzen, damit die Einbettung erfolgt mit einer Rate von etwa 9.000 Token pro Sekunde.

Die Durchführung einiger grundlegender Berechnungen mit dieser Geschwindigkeit und diesem Knotentyp zeigt, dass selbst gehostete Einbettungen 10-mal günstiger sein können.

6: Kostenverhältnis von OpenAI-Basismodell und fein abgestimmter Modellabfrage

#🎜 🎜#Bei OpenAI sind die Kosten für die Feinabstimmung des Modells sechsmal so hoch wie beim Basismodell.

Dies bedeutet auch, dass es kostengünstiger ist, die Spitzen des Basismodells anzupassen, als ein individuelles Modell zu verfeinern.

1: Kostenverhältnis des selbstgehosteten Basismodells im Vergleich zu fein abgestimmten Modellabfragen# 🎜🎜## 🎜🎜#Wenn Sie das Modell selbst hosten, sind die Kosten für das fein abgestimmte Modell fast die gleichen wie für das Basismodell: Die Anzahl der Parameter ist bei beiden Modellen gleich.

Training und Feinabstimmung

~1 Million US-Dollar: die Kosten für das Training eines 13-Milliarden-Parameter-Modells auf 1,4 Billionen Token

Papieradresse: https://arxiv.org/pdf/2302.13971.pdf

#🎜 🎜#In der Arbeit von LLaMa wurde erwähnt, dass sie 21 Tage gebraucht und 2048 A100 80 GB GPUs verwendet haben, um das LLaMa-Modell zu trainieren.

Angenommen, wir trainieren unser Modell auf dem Red Pajama-Trainingsset, alles ist in Ordnung, ohne Abstürze, und es gelingt beim ersten Mal, dann erhalten wir die oben genannten Zahlen .

Darüber hinaus beinhaltet dieser Prozess auch die Koordination zwischen 2048 GPUs.

Die meisten Unternehmen haben nicht die Voraussetzungen dafür.

Die wichtigste Botschaft ist jedoch: Es ist möglich, unser eigenes LLM zu trainieren, aber der Prozess ist nicht billig.

Und jedes Mal, wenn es läuft, dauert es mehrere Tage.

Im Vergleich dazu ist die Verwendung eines vorab trainierten Modells viel günstiger.

< 0,001: Kostensatz für Feinabstimmung und Schulung von Grund auf

# 🎜🎜#Diese Zahl ist etwas allgemein gehalten und insgesamt sind die Kosten für die Feinabstimmung vernachlässigbar.

Zum Beispiel können Sie ein 6B-Parametermodell für etwa 7 $ verfeinern.

Sogar zu den Preisen von OpenAI für sein teuerstes, fein abgestimmtes Modell, Davinci , es kostet nur 3 Cent pro 1.000 Token.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

Das bedeutet, dass Sie nur vierzig oder fünfzig Dollar ausgeben müssen, wenn Sie Shakespeares gesamtes Werk (etwa 1 Million Wörter) verfeinern möchten.

Feinabstimmung ist jedoch eine Sache, Training von Grund auf eine andere ...

#🎜 🎜#GPUVideoMemory

Wenn Sie das Modell selbst hosten, ist es sehr wichtig, den GPU-Videospeicher zu verstehen, da LLM den Videospeicher der GPU an seine Grenzen bringt.

Die folgenden Statistiken dienen speziell der Schlussfolgerung. Wenn Sie trainieren oder Feinabstimmungen durchführen möchten, benötigen Sie einiges an Videospeicher.

V100: 16 GB, A10G: 24 GB, A100: 40/80 GB: GPU-Speicherkapazität

Es ist wichtig, die Größe des Videospeichers für verschiedene GPU-Typen zu verstehen, da dies Ihr LLM einschränkt kann die Anzahl der Parameter haben.

Im Allgemeinen verwenden wir gerne A10G, da der On-Demand-Preis bei AWS 1,5 bis 2 US-Dollar pro Stunde mit 24 GB GPU-Speicher beträgt, während der Preis für jeden A100 etwa 5 US-Dollar pro Stunde beträgt.

2x Anzahl der Parameter: Typische GPU-Speicheranforderungen für LLM

Wenn Sie beispielsweise ein Modell mit 7 Milliarden Parametern haben, benötigen Sie etwa 14 GB GPU-Speicher.

Das liegt daran, dass jeder Parameter meistens einen 16-Bit-Float (oder 2 Bytes) erfordert.

Normalerweise sind nicht mehr als 16 Bit Genauigkeit erforderlich, aber meistens beginnt die Auflösung abzunehmen, wenn die Genauigkeit 8 Bit erreicht (in manchen Fällen ist dies auch akzeptabel).

Natürlich gibt es einige Projekte, die diese Situation verbessert haben. Beispielsweise hat llama.cpp ein Modell mit 13 Milliarden Parametern durch Quantisierung auf 4 Bit auf einer 6-GB-GPU durchlaufen (8 Bit sind ebenfalls akzeptabel), aber das ist nicht üblich.

~1 GB: Typischer GPU-Speicherbedarf für das Einbetten von Modellen

Wann immer Sie Anweisungen einbetten (was Sie häufig für Clustering-, semantische Such- und Klassifizierungsaufgaben tun), benötigen Sie so etwas wie einen Anweisungskonverter. So einen eingebetteten Modell. OpenAI verfügt auch über ein eigenes kommerzielles Einbettungsmodell.

模仿Jeff Dean神总结，前谷歌工程师分享「LLM开发秘籍」：每个开发者都应知道的数字！

Normalerweise müssen Sie sich keine Gedanken darüber machen, wie viel Videospeicher die GPU einbettet, sie sind recht klein und Sie können LLM sogar auf derselben GPU einbetten.

>10x: Verbessern Sie den Durchsatz durch Stapeln von LLM-Anfragen

Die Latenz beim Ausführen von LLM-Abfragen über die GPU ist sehr hoch: Bei einem Durchsatz von 0,2 Abfragen pro Sekunde kann die Latenz 5 Sekunden dauern.

Interessanterweise beträgt die Latenz möglicherweise nur 5,2 Sekunden, wenn Sie zwei Aufgaben ausführen.

Das heißt, wenn Sie 25 Abfragen bündeln können, benötigen Sie etwa 10 Sekunden Latenz, während der Durchsatz auf 2,5 Abfragen pro Sekunde erhöht wurde.

Bitte lesen Sie jedoch weiter unten.

~1 MB: GPU-Speicher, der für ein Modell mit 13 Milliarden Parametern erforderlich ist, um 1 Token auszugeben

Der benötigte Speicher ist direkt proportional zur maximalen Anzahl von Token, die Sie generieren möchten.

Zum Beispiel erfordert die Generierung einer Ausgabe von bis zu 512 Token (ca. 380 Wörter) 512 MB Videospeicher.

Man könnte sagen, das ist keine große Sache – ich habe 24 GB Videospeicher, was sind 512 MB? Wenn Sie jedoch größere Chargen verarbeiten möchten, summiert sich diese Zahl.

Wenn Sie beispielsweise 16 Stapel ausführen möchten, wird der Videospeicher direkt auf 8 GB erhöht.
Das obige ist der detaillierte Inhalt vonIn Anlehnung an die göttliche Zusammenfassung von Jeff Dean teilte ein ehemaliger Google-Ingenieur „LLM-Entwicklungsgeheimnisse' mit: Zahlen, die jeder Entwickler kennen sollte!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Mehr anzeigen

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung
2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Mehr anzeigen

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Mehr anzeigen

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7532

15

CakePHP-Tutorial

1379

52

Wie lautet das Format des Kontonamens von Steam?

82

11

Win11 -Aktivierungsschlüssel dauerhaft

55

19

NYT -Verbindungen Hinweise und Antworten

21

82

Mehr anzeigen

Related knowledge

Debian Mail Server Firewall -Konfigurationstipps Apr 13, 2025 am 11:42 AM
Das Konfigurieren der Firewall eines Debian -Mailservers ist ein wichtiger Schritt zur Gewährleistung der Serversicherheit. Im Folgenden sind mehrere häufig verwendete Firewall -Konfigurationsmethoden, einschließlich der Verwendung von Iptables und Firewalld. Verwenden Sie Iptables, um Firewall so zu konfigurieren, dass Iptables (falls bereits installiert) installiert werden:

Wie Debian Readdir sich in andere Tools integriert Apr 13, 2025 am 09:42 AM
Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

So setzen Sie die Debian Apache -Protokollebene fest Apr 13, 2025 am 08:33 AM
In diesem Artikel wird beschrieben, wie Sie die Protokollierungsstufe des Apacheweb -Servers im Debian -System anpassen. Durch Ändern der Konfigurationsdatei können Sie die ausführliche Ebene der von Apache aufgezeichneten Protokollinformationen steuern. Methode 1: Ändern Sie die Hauptkonfigurationsdatei, um die Konfigurationsdatei zu finden: Die Konfigurationsdatei von Apache2.x befindet sich normalerweise im Verzeichnis/etc/apache2/. Der Dateiname kann je nach Installationsmethode Apache2.conf oder httpd.conf sein. Konfigurationsdatei bearbeiten: Öffnen Sie die Konfigurationsdatei mit Stammberechtigungen mit einem Texteditor (z. B. Nano): Sudonano/etc/apache2/apache2.conf

So implementieren Sie die Dateisortierung nach Debian Readdir Apr 13, 2025 am 09:06 AM
In Debian -Systemen wird die Readdir -Funktion zum Lesen des Verzeichnisinhalts verwendet, aber die Reihenfolge, in der sie zurückgibt, ist nicht vordefiniert. Um Dateien in einem Verzeichnis zu sortieren, müssen Sie zuerst alle Dateien lesen und dann mit der QSORT -Funktion sortieren. Der folgende Code zeigt, wie Verzeichnisdateien mithilfe von Readdir und QSORT in Debian System sortiert werden:#include#include#include#include // benutzerdefinierte Vergleichsfunktion, verwendet für QSortIntCompare (constvoid*a, constvoid*b) {rettrcmp (*(*(*(

Debian Mail Server SSL -Zertifikat -Installationsmethode Apr 13, 2025 am 11:39 AM
Die Schritte zur Installation eines SSL -Zertifikats auf dem Debian Mail -Server sind wie folgt: 1. Installieren Sie zuerst das OpenSSL -Toolkit und stellen Sie sicher, dass das OpenSSL -Toolkit bereits in Ihrem System installiert ist. Wenn nicht installiert, können Sie den folgenden Befehl installieren: sudoapt-getupdatesudoapt-getinstallopenssl2. Generieren Sie den privaten Schlüssel und die Zertifikatanforderung als nächst

So optimieren Sie die Leistung von Debian Readdir Apr 13, 2025 am 08:48 AM
In Debian -Systemen werden Readdir -Systemaufrufe zum Lesen des Verzeichnisinhalts verwendet. Wenn seine Leistung nicht gut ist, probieren Sie die folgende Optimierungsstrategie aus: Vereinfachen Sie die Anzahl der Verzeichnisdateien: Teilen Sie große Verzeichnisse so weit wie möglich in mehrere kleine Verzeichnisse auf und reduzieren Sie die Anzahl der gemäß Readdir -Anrufe verarbeiteten Elemente. Aktivieren Sie den Verzeichnis -Inhalt Caching: Erstellen Sie einen Cache -Mechanismus, aktualisieren Sie den Cache regelmäßig oder bei Änderungen des Verzeichnisinhalts und reduzieren Sie häufige Aufrufe an Readdir. Speicher -Caches (wie Memcached oder Redis) oder lokale Caches (wie Dateien oder Datenbanken) können berücksichtigt werden. Nehmen Sie eine effiziente Datenstruktur an: Wenn Sie das Verzeichnis -Traversal selbst implementieren, wählen Sie effizientere Datenstrukturen (z.

So führen Sie die digitale Signaturüberprüfung mit Debian OpenSSL durch Apr 13, 2025 am 11:09 AM
Unter Verwendung von OpenSSL für die digitale Signaturüberprüfung im Debian -System können Sie folgende Schritte befolgen: Vorbereitung für die Installation von OpenSSL: Stellen Sie sicher, dass Ihr Debian -System OpenSSL installiert hat. Wenn nicht installiert, können Sie den folgenden Befehl verwenden, um es zu installieren: sudoaptupdatesudoaptininTallopenSSL, um den öffentlichen Schlüssel zu erhalten: Die digitale Signaturüberprüfung erfordert den öffentlichen Schlüssel des Unterzeichners. In der Regel wird der öffentliche Schlüssel in Form einer Datei wie Public_key.pe bereitgestellt

Wie Debian OpenSSL verhindert, dass Mann-in-the-Middle-Angriffe Apr 13, 2025 am 10:30 AM
In Debian Systems ist OpenSSL eine wichtige Bibliothek für Verschlüsselung, Entschlüsselung und Zertifikatverwaltung. Um einen Mann-in-the-Middle-Angriff (MITM) zu verhindern, können folgende Maßnahmen ergriffen werden: Verwenden Sie HTTPS: Stellen Sie sicher, dass alle Netzwerkanforderungen das HTTPS-Protokoll anstelle von HTTP verwenden. HTTPS verwendet TLS (Transport Layer Security Protocol), um Kommunikationsdaten zu verschlüsseln, um sicherzustellen, dass die Daten während der Übertragung nicht gestohlen oder manipuliert werden. Überprüfen Sie das Serverzertifikat: Überprüfen Sie das Serverzertifikat im Client manuell, um sicherzustellen, dass es vertrauenswürdig ist. Der Server kann manuell durch die Delegate -Methode der URLSession überprüft werden

See all articles