Generell gilt: Je mehr Berechnungen zum Trainieren eines neuronalen Netzwerks erforderlich sind, desto besser ist seine Leistung. Bei der Skalierung einer Berechnung muss eine Entscheidung getroffen werden: Erhöhen Sie die Anzahl der Modellparameter oder erhöhen Sie die Größe des Datensatzes – beide Faktoren müssen innerhalb eines festen Rechenbudgets abgewogen werden. Der Vorteil einer Erhöhung der Anzahl der Modellparameter besteht darin, dass dadurch die Komplexität und Ausdrucksfähigkeit des Modells verbessert und dadurch die Trainingsdaten besser angepasst werden können. Zu viele Parameter können jedoch zu einer Überanpassung führen, wodurch das Modell bei unsichtbaren Daten eine schlechte Leistung erbringt. Andererseits kann die Erweiterung der Datensatzgröße die Generalisierungsfähigkeit des Modells verbessern und Überanpassungsprobleme reduzieren.
Wir sagen Ihnen: Solange Parameter und Daten angemessen zugeordnet werden können, kann die Leistung unter einem festgelegten Rechenbudget maximiert werden. Viele frühere Studien haben das Skalierungsgesetz neuronaler Sprachmodelle untersucht und diese Studien kamen normalerweise zu dem Schluss, dass die Parameter und die Anzahl der Trainingstoken eins zu eins erweitert werden sollten.
Allerdings basierte die frühere Sprachmodell-Skalierungsgesetzforschung auf Transformer, die auf verstreutem Netzwerktext trainiert wurden. Da es sich um eine sehr spezifische Datenverteilung handelt, stellen wir uns natürlich die Frage: Kann das auf der Grundlage eines solchen Webtextdatensatzes ermittelte Skalierungsgesetz auf andere Verteilungen verallgemeinert werden?
Zusätzlich zum aktuellen Sprachmodell (d. h. Chinchilla), das nur für den speziellen Fall von Netzwerktextdaten gilt, gibt es dahinter ein umfassenderes Skalierungsgesetz, das auf den Attributen von Trainingsdaten basiert. Wenn man bedenkt, dass eine Verbesserung der Datenqualität die Leistung von Sprachmodellen erheblich verbessern kann, kann das Skalierungsgesetz des Verstärkungslernens mit der Intensität des Spiels skalieren. Vielleicht können wir davon ausgehen, dass das Skalierungsgesetz des aktuellen Sprachmodells (z. B. Chinchilla) nur für den speziellen Fall von Netzwerktextdaten gilt und dass dahinter ein umfassenderes Skalierungsgesetz steht, das auf den Attributen der Trainingsdaten basiert.
Welche Eigenschaften des für das Training verwendeten Token-Sequenzdatensatzes reagieren also empfindlich auf das neuronale Skalierungsgesetz? Mit anderen Worten: Welche Eigenschaften der Daten sollten wir beachten, wenn wir genau vorhersagen möchten, wie wir die Berechnungen am besten dem Trainingsprozess zuordnen können? Ist die datenabhängige Natur des Skalierungsgesetzes außerdem nur eine theoretische Frage oder ist sie auch für Datensätze aus der realen Welt wichtig?
Um diese Probleme zu untersuchen, hat Rohan Pandey, ein Forscher beim KI-Datenunternehmen Reworkd, einige Nachforschungen angestellt und Antworten auf diese Fragen erhalten. Darüber hinaus schlug er einen Komprimierungsalgorithmus gzip vor, der Vorhersagen treffen kann der Einfluss der Datenkomplexität auf Expansionseigenschaften.
Seine Forschungsmethode ist: Sie kann intuitiv sein Unter der Einstellung von Textdaten, die die Komplexität steuern, verwenden wir Methoden der Informationstheorie, um die Gründe für die Datenabhängigkeit des Skalierungsgesetzes zu verstehen.
Die Einstellung, die er schließlich fand, heißt Probabilistic Context-Free Grammar (PCFG, erstmals 1956 von Chomsky vorgeschlagen). Diese Einstellung ist relativ natürlich (kann natürliche Sprache, Code usw. modellieren), weist eine kontrollierbare syntaktische Komplexität auf und folgt einigen gut verstandenen Prinzipien der Informationstheorie.
In dem Experiment generierte er durch Anpassen der syntaktischen Eigenschaften von PCFG 6 Datensätze mit unterschiedlicher Komplexität. Für jeden Datensatz trainierte er 6 Sprachmodelle unterschiedlicher Größe (Parameter von 4,4 Millionen bis 1,4 Milliarden) und zeichnete die Ergebnisse dieser Sprachmodelle in 6 verschiedenen Trainingsschritten (100.000 bis 100 Millionen Token) auf. Anschließend passte er jedem Datensatz ein Skalierungsgesetz an und stellte fest, dass die Parameter des Skalierungsgesetzes mit der syntaktischen Komplexität erheblich variierten. Im Anschluss an frühere Arbeiten zur Entropie in formalen Grammatiken verwendete er für die Komplexitätsmetrik die mittlere Kompressibilität jeder Token-Sequenz im Datensatz, die mit gzip leicht berechnet werden kann.
Es wurde festgestellt, dass sich die optimale Grenze der Skalierungsgesetzberechnung mit abnehmender (komplexerer) Komprimierbarkeit der Trainingsdaten allmählich von der Parametermenge zur Datengröße verschiebt. Anschließend maß er die Komprimierbarkeit von realem Code und Datensätzen natürlicher Sprache und stellte fest, dass ersterer komprimierbarer war und daher voraussichtlich anderen Skalierungsgesetzen gehorchte.
Probabilistische kontextfreie Grammatik (PCFG) ist ein grundlegendes Werkzeug in der Computerlinguistik, das zur Modellierung der Syntax natürlicher Sprachen verwendet werden kann. PCFG ist eine Erweiterung der standardmäßigen kontextfreien Grammatik (CFG), die Wahrscheinlichkeiten in den Generierungsregeln zuordnet und so die Mehrdeutigkeit und Variabilität der Sprache auf quantifizierbare Weise darstellt. Diese Grammatiken erzeugen Bäume, in denen jeder Knoten eine syntaktische Kategorie darstellt und jede Kante eine generative Regel darstellt, die zum Generieren von Sätzen verwendet wird. Beim Generieren von Sätzen aus einem PCFG werden Sequenzen angewendeter Generierungsregeln probabilistisch abgetastet, bis alle Blattknoten des Baums Endpunkte (tatsächliche lexikalische Token) sind.
Wir können die syntaktischen Eigenschaften von PCFG steuern, um die Komplexität von Textdatensätzen auf natürliche Weise anzupassen. Zu den Parametern, die die PCFG-Erstellungsfunktion akzeptieren kann, gehören insbesondere: die Anzahl der Endpunkte, Daten für Nicht-Endpunkte, die maximale Länge der rechten Seite der Generierungsregel und die maximale Anzahl zulässiger Generierungsregeln für alle Nicht-Endpunkte ( Wenn dieser Wert 1 ist, erhalten die angegebenen Nicht-Endpunkte immer die gleiche rechte Seite. Intuitiv führt eine Erhöhung jedes der oben genannten Werte zu einer Erhöhung der syntaktischen Komplexität.
Um ein PCFG basierend auf den oben genannten Parametern zu erstellen, wählen Sie für jeden Endpunkt zufällig seine Anzahl an Generationen (RHS-Option) und die Länge jeder dieser Generationen aus, instanziieren Sie die Generierungsregeln durch zufällige Stichproben aus den Endpunkten und nicht- Endpunkte und es wird eine Wahrscheinlichkeit zugewiesen (normalisiert durch die gesamten RHS-Optionen für Nicht-Endpunkte). Sammeln Sie dann alle generierten Regeln für alle Nicht-Endpunkte und instanziieren Sie eine Grammatik mithilfe des auf NLTK basierenden PCFG-Pakets.
Dann verwenden Sie diese Grammatik (zufällig unter bestimmten Einschränkungen erstellt), um Sätze probabilistisch abzutasten und einen Token-Sequenz-Datensatz zu erstellen. Um es später einfacher zu machen, das Training verschiedener Grammatiken zu vergleichen (wodurch Sätze mit unterschiedlicher durchschnittlicher Länge generiert werden), beschloss er, die Sätze in Dokumenten mit der gleichen Anzahl von Token zusammenzufassen. Fahren Sie mit dem Abtasten von Sätzen basierend auf der Grammatik fort, bis die Kontextlänge gefüllt ist. Bei einem Überlauf wird der Satz direkt abgeschnitten.
Sätze bestehen aus Endpunkten, die nur Ganzzahlen sind, sodass sie als Token-IDs des Sprachmodells betrachtet werden können. Die nicht verwendete Ganzzahl 0 (die effektiv einem Punkt in natürlicher Sprache entspricht) wird zum Verbinden der Sätze verwendet. Zur Klarstellung: Hier geht es nicht darum, einen String zu generieren, der wie natürliche Sprache „aussieht“, und ihn dann zu tokenisieren – PCFG generiert direkt die Sequenz der Token-ID selbst. Nun können 6 Token-Sequenzdatensätze mit unterschiedlicher Komplexität basierend auf 6 Sätzen anfänglicher grammatikalischer Einschränkungen generiert werden.
Um die Komplexität generierter Datensätze sowie realer Datensätze abzuschätzen, entschied sich Rohan Pandey für die Verwendung eines Komprimierungsalgorithmus namens gzip.
Ein Vorteil von gzip besteht darin, dass es eine gute theoretische Forschungsgrundlage gibt, die Folgendes zeigt: Die Kompressibilität ist umgekehrt proportional zur Entropie und die Entropie ist direkt proportional zur syntaktischen Komplexität. Verwenden Sie insbesondere für jede Token-Sequenz von 1000 Token im Datensatz gzip und berechnen Sie das Verhältnis der Größe (in Bytes) der komprimierten Daten zu den Originaldaten.
Dann werden der Median und die Standardabweichung des Kompressibilitätsverhältnisses berechnet, um zu bestätigen, dass Grammatiken mit höherer syntaktischer Komplexität dazu führen, dass der Datensatz schwieriger zu komprimieren ist.
Tabelle 1 listet die syntaktischen Parameter und gemessenen Komprimierungsverhältnisse jeder Grammatik auf.
Es kann beobachtet werden, dass mit zunehmendem Nicht-Endpunkt (Grammatikkategorie), Endpunkt (Token), rechtsseitiger Option und rechtsseitiger Länge auch die gzip-Komprimierungsrate zunimmt, das heißt wird schwieriger zu komprimieren.
Abbildung 1 zeigt diese Datensätze zusammen mit natürlichen Sprach- und Codedaten.
Es ist ersichtlich, dass einige PCFG-Datensätze in Bezug auf die Komplexität den Codedaten (dem leicht komprimierbaren Teil) nahe kommen, während andere der natürlichen Sprache nahe kommen.
Um das Skalierungsgesetz des Datensatzes zu bestimmen, trainierte der Forscher mehrere Modelle unterschiedlicher Größe (Parameter 4,2 M, 8,8 M, 20,3 M, 59,0 M, 275,3 M, 1,4 B). Tabelle 6 gibt die Architektur an Details; dann führte er eine Potenzgesetzanpassung an den erhaltenen Verlustergebnissen durch. Die meisten Experimente wurden auf 4 NVIDIA A100 mit 80 GB VRAM unter Verwendung von PyTorch FSDP durchgeführt.
Wie in Abbildung 2 dargestellt, konvergiert das Modell schneller, wenn ein Datensatz leichter zu komprimieren ist (je niedriger die Kompressibilitätsrate). Dies steht im Einklang mit unserem intuitiven Verständnis.
Obwohl dies darauf hindeutet, dass wir mehr Rechenaufwand benötigen, um komplexere Datensätze zu modellieren, benötigen wir mehr Beweise, um festzustellen, ob sich die rechnerische optimale Grenze direkt als Funktion der Datenkomplexität ändert. Um die nicht triviale Empfindlichkeit des Skalierungsgesetzes gegenüber der Datenkomplexität festzustellen, muss man das Skalierungsgesetz für jeden Datensatz berechnen und seine Anpassungsparameter untersuchen.
Die funktionale Form des 2022 vorgeschlagenen Skalierungsgesetzes besteht darin, den Trainingsverlust als Funktion des Modells und der Datengröße zu verwenden :
Wobei N die Anzahl der Parameter des Modells und D die Anzahl der Token im Trainingsdatensatz ist. Sie behaupten, dass E „die Entropie des natürlichen Textes“ sei und dass das Skalierungsgesetz „datensatzunabhängig“ sei. Als Rohan Pandey jedoch die Trainingsergebnisse mit dieser Funktion an den PCFG-Datensatz anpasste, stellte er fest, dass das Skalierungsgesetz jedes Datensatzes sehr unterschiedlich war, siehe Tabelle 2.
Mit diesem Skalierungsgesetz kann eine rechnerisch optimale Grenze für die Parametermenge ermittelt werden (abgeleitet von Kaplan et al. [2020] und Hoffmann et al. [2022]), die vereinfacht werden kann zu:
wobei C das Berechnungsbudget in FLOPs ist.
Abbildung 3 zeigt Chinchillas berechnete optimale Grenzen und das an jeden PCFG-Datensatz angepasste Skalierungsgesetz.
Da die Daten immer schwieriger zu komprimieren sind, wird die Grenze des durch Anpassen erhaltenen Skalierungsgesetzes allmählich in Richtung der Daten verschoben, irgendwo im Intervall von 0,23 < < 0,45 Der Punkt hat die Eins-zu-eins-Grenze von Chinchilla überschritten.
Um die Parameter des Skalierungsgesetzes basierend auf dem Kompressibilitätsverhältnis des Datensatzes vorherzusagen, kann eine einfache lineare Regressionsanpassung an den angepassten Parametern des Skalierungsgesetzes jedes Datensatzes durchgeführt werden. Wie bereits erwähnt, besteht die Methode zur Berechnung der Kompressibilitätsrate H für den Datensatz D darin, zunächst das Verhältnis der komprimierten Bitmenge zur ursprünglichen Bitmenge jedes Elements d zu berechnen und dann den Durchschnitt aller Elemente zu berechnen.
Sobald die Linien, die jeden Parameter (E, A, B, α, β) vorhersagen, aus H angepasst sind, kann jeder Parameter als Funktion der Kompressibilität neu definiert werden:
wobei m_x und n_x sind die Parameter der linearen Regression nach der Anpassung.
Tabelle 3 gibt diese angepassten Werte (und die p-Werte der Regression) an, und Abbildung 4 ist das Visualisierungsergebnis dieser linearen Regressionen.
Sie sind fast alle monoton fallend, nur mit unterschiedlichen Geschwindigkeiten, und bei H etwa 0,27 schneiden sich α und β. Es ist zu beachten, dass E (die ursprünglich auf eine Konstante festgelegte „Entropie der natürlichen Sprache“) der einzige Parameter ist, der mit H zunimmt (jedoch nicht signifikant).
Jetzt können Sie Gleichung (1) als Funktion der Kompressibilitätsrate H neu parametrisieren:
Da der Umfang des Experiments hier jedoch recht klein ist und sich hauptsächlich auf den PCFG-Datensatz konzentriert, hat Pandey die Funktion erweitert – nach der Anpassung von Chinchilla wurde das datenabhängige Skalierungsgesetz erhalten:
Wobei ε ist das Anpassungsgewicht für die gzip-Komprimierungsrate der Trainingsdaten, und der hinzugefügte Parameter ist die Chinchilla-Konstante.
Die obigen Experimente berücksichtigen nicht die Möglichkeit, dass dieses Kompressibilitätsmaß durch eine zugrunde liegende syntaktische Eigenschaft (z. B. die Vokabulargröße) verfälscht wird. Um dieses Problem anzugehen, zeigt Abbildung 5 zusätzliche Ergebnisse.
Es ist ersichtlich, dass die gzip-Komprimierbarkeitsrate immer noch die Parameteränderungen des Skalierungsgesetzes vorhersagen kann, wenn die Vokabulargröße stabil bleibt und andere syntaktische Eigenschaften geändert werden (Tabelle 4) (die Korrelation ist sogar stärker als die Vergrößerung des Vokabulars). Einstellungen).
Abbildung 6 ist ein in der Praxis gefundenes Gegenbeispiel, das zeigt, dass sich die Parameter des Skalierungsgesetzes nicht wesentlich ändern, wenn die syntaktischen Eigenschaften stark variieren (Tabelle 5), aber das endgültige gzip-Komprimierbarkeitsverhältnis dieser Datensätze gleich ist.
Obwohl das Schnittverhalten wie in Abbildung 4 in diesem äquivalenten Vokabularfall nicht beobachtet wird, ist die Steigung von α immer noch steiler als β (A ist auch steiler als B), was dies mit gzip zeigt Mit zunehmender Kompressibilität gibt es die gleiche Tendenz gegenüber Daten.
Man kann also sagen, dass diese Ergebnisse Folgendes zeigen: Das Skalierungsgesetz hängt von den Trainingsdaten ab und das gzip-Komprimierbarkeitsverhältnis kann den Einfluss der Datenkomplexität auf die Skalierungseigenschaften gut vorhersagen.
Das obige ist der detaillierte Inhalt vonHaben unterschiedliche Datensätze unterschiedliche Skalierungsgesetze? Und Sie können es mit einem Komprimierungsalgorithmus vorhersagen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!