Leistung übertrifft Llama-3 und wird hauptsächlich für synthetische Daten verwendet.
NVIDIAs allgemeines Großmodell Nemotron hat die neueste Version mit 340 Milliarden Parametern als Open Source bereitgestellt. Diesen Freitag gab NVIDIA die Einführung des Nemotron-4 340B bekannt. Es enthält eine Reihe offener Modelle, mit denen Entwickler synthetische Daten für das Training großer Sprachmodelle (LLM) generieren können, die für kommerzielle Anwendungen in allen Branchen wie Gesundheitswesen, Finanzen, Fertigung und Einzelhandel verwendet werden können. Hochwertige Trainingsdaten spielen eine entscheidende Rolle für die Reaktionsfähigkeit, Genauigkeit und Qualität benutzerdefinierter LLMs – leistungsstarke Datensätze sind jedoch oft teuer und unzugänglich. Durch eine einzigartige offene Modelllizenz bietet Nemotron-4 340B Entwicklern eine kostenlose, skalierbare Möglichkeit, synthetische Daten zu generieren, um Menschen beim Aufbau leistungsstarker LLMs zu unterstützen. Die Nemotron-4 340B-Serie umfasst Basis-, Instruct- und Reward-Modelle, die eine Pipeline zur Generierung synthetischer Daten für das Training und die Verbesserung von LLM bilden. Diese Modelle sind für die Verwendung mit NVIDIA NeMo optimiert, einem Open-Source-Framework für durchgängiges Modelltraining, einschließlich Datenverwaltung, Anpassung und Auswertung. Sie sind außerdem für die Inferenz mit der Open-Source-Bibliothek NVIDIA TensorRT-LLM optimiert. Nvidia sagt, dass der Nemotron-4 340B jetzt bei Hugging Face zum Download verfügbar ist. Entwickler können bald auf diese Modelle unter ai.nvidia.com zugreifen, wo sie als NVIDIA NIM-Microservices mit Standard-Anwendungsprogrammierschnittstellen verpackt werden, die überall eingesetzt werden können. Hugging Face Download: https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911 Navigieren Sie durch Nemotron, um synthetische Daten zu generieren Große Sprachmodelle können Hilft Entwicklern, synthetische Trainingsdaten zu generieren, ohne auf große, vielfältig gekennzeichnete Datensätze zugreifen zu müssen. Das Nemotron-4 340B Instruct-Modell erstellt vielfältige synthetische Daten, die die Eigenschaften realer Daten nachahmen und so zur Verbesserung der Datenqualität und damit zur Verbesserung der Leistung und Robustheit benutzerdefinierter LLMs in verschiedenen Bereichen beitragen. Um die Qualität der KI-generierten Daten zu verbessern, können Entwickler das Nemotron-4 340B-Belohnungsmodell verwenden, um nach qualitativ hochwertigen Antworten zu filtern. Nemotron-4 340B Reward bewertet Antworten anhand von fünf Attributen: Benutzerfreundlichkeit, Korrektheit, Kohärenz, Komplexität und Ausführlichkeit. Es belegt derzeit Platz 1 im Hugging Face RewardBench-Ranking von AI2, das die Leistungsfähigkeit, Sicherheit und Mängel von Belohnungsmodellen bewertet. In dieser synthetischen Datenpipeline wird (1) das Nemotron-4 340B Instruct-Modell verwendet, um eine textbasierte synthetische Ausgabe zu generieren. Anschließend wertet das Bewertungsmodell (2) Nemotron-4 340B Reward den generierten Text aus und gibt Feedback, um iterative Verbesserungen anzuleiten und die Genauigkeit der synthetisierten Daten sicherzustellen. Forscher können das Nemotron-4 340B-Basismodell auch mithilfe ihrer eigenen proprietären Daten in Kombination mit dem enthaltenen HelpSteer2-Datensatz anpassen, um ihr eigenes Instruct-Modell oder Belohnungsmodell zu erstellen. Papieradresse: https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf Einführung in die MethodeDie Nemotron-4-340B-Basismodellarchitektur ist eine Eine Standard-Decoder-Transformer-Architektur mit kausalen Aufmerksamkeitsmasken, rotierter Positionseinbettung (RoPE), SentencePiece-Tokenizer und mehr. Die Hyperparameter von Nemotron-4-340B-Base sind in Tabelle 1 aufgeführt. Es verfügt über 9,4 Milliarden eingebettete Parameter und 331,6 Milliarden nicht eingebettete Parameter. Die folgende Tabelle zeigt einige Trainingsdetails des Nemotron-4-340B-Base-Modells. Die Tabelle fasst die drei Stufen des Stapelgrößengradienten zusammen, einschließlich jeder Iterationszeit und Modell-FLOP/s-Auslastung. Um leistungsstarke Belohnungsmodelle zu entwickeln, hat NVIDIA einen Datensatz mit 10.000 menschlichen Präferenzdaten namens HelpSteer2 gesammelt und öffentlich veröffentlicht.Datensatzadresse: https://huggingface.co/datasets/nvidia/HelpSteer2Das Regressionsbelohnungsmodell Nemotron-4-340B-Reward basiert auf dem Nemotron-4-340B-Base-Modell. Und ersetzen Sie die letzte Softmax-Ebene durch den neuen Belohnungsheader. Dieser Header ist eine lineare Projektion, die den verborgenen Zustand der letzten Ebene in einen fünfdimensionalen Vektor von HelpSteer-Eigenschaften (Nützlichkeit, Korrektheit, Kohärenz, Komplexität, Ausführlichkeit) abbildet. Während des Inferenzprozesses können diese Attributwerte durch eine gewichtete Summe zu einer Gesamtbelohnung aggregiert werden. Dieser Bonusmodus bietet eine solide Grundlage für das Training des Nemotron-4-340B-Instruct. Die Studie ergab, dass ein solches Modell auf RewardBench sehr gut abschnitt: Feinabstimmung mit NeMo und optimierte Inferenz mit TensorRT-LLM Verwendung von Open-Source-NVIDIA NeMo und NVIDIA TensorRT -LLM können Entwickler die Effizienz ihrer Beratungs- und Belohnungsmodelle optimieren, um synthetische Daten zu generieren und Antworten zu bewerten. Alle Nemotron-4 340B-Modelle werden mit TensorRT-LLM optimiert, um die Tensorparallelität zu nutzen, eine Art Modellparallelität, bei der eine einzelne Gewichtsmatrix auf mehrere GPUs und Server aufgeteilt wird, um eine effiziente Inferenz im Maßstab zu erreichen. Nemotron-4 340B Base wird auf 9 Billionen Token trainiert und kann mithilfe des NeMo-Frameworks an bestimmte Anwendungsfälle oder Domänen angepasst werden. Dieser Feinabstimmungsprozess profitiert von großen Mengen an Daten vor dem Training und liefert eine genauere Ausgabe für bestimmte nachgelagerte Aufgaben. Unter anderem bietet das NeMo-Framework eine Vielzahl von Anpassungsmethoden, einschließlich überwachter Feinabstimmungs- und Parameter-effizienter Feinabstimmungsmethoden, wie z. B. Low-Rank-Adaption (LoRA). Um die Modellqualität zu verbessern, können Entwickler ihre Modelle mit NeMo Aligner und mit Nemotron-4 340B Reward annotierten Datensätzen ausrichten. Die Ausrichtung ist ein entscheidender Schritt beim Training großer Sprachmodelle, bei dem das Modellverhalten mithilfe von Algorithmen wie RLHF feinabgestimmt wird, um sicherzustellen, dass die Ausgabe sicher, genau, kontextbezogen und im Einklang mit den erklärten Zielen ist. Unternehmen, die auf der Suche nach Support der Enterprise-Klasse und sicheren Produktionsumgebungen sind, können auch über die cloudnative NVIDIA AI Enterprise-Softwareplattform auf NeMo und TensorRT-LLM zugreifen. Die Plattform bietet eine beschleunigte und effiziente Laufzeitumgebung für generative KI-Basismodelle. Abbildung 1 verdeutlicht die Genauigkeit der Nemotron-4 340B-Modellfamilie bei ausgewählten Missionen. Konkret: Nemotron-4-340B-Base ist mit Open-Access-Basismodellen wie Llama-3 70B, Mixtral 8x22B und Qwen-2 72B bei Aufgaben zum gesunden Menschenverstand wie ARC-Challenge, MMLU und BigBench Hard vergleichbar Benchmarks Vergleichbar. In puncto Befehlsfolge und Chat-Fähigkeiten übertrifft Nemotron-4-340B-Instruct entsprechende Unterrichtsmodelle. Nemotron-4-340B Reward erreicht auf RewardBench die höchste Genauigkeit und übertrifft sogar proprietäre Modelle wie GPT-4o-0513 und Gemini 1.5 Pro-0514. Nach der Einführung von Nemotron-4-340B veröffentlichte die Evaluierungsplattform sofort ihre Benchmark-Ergebnisse. Es ist ersichtlich, dass ihre Ergebnisse die von Llama-3-70b in harten Benchmark-Tests wie Arena-Hard-Auto übertrafen Bedeutet das, dass ein neues, leistungsstärkstes Modell der Branche entstanden ist? https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/https: //x.com/lmsysorg/status/1801682893988892716Das obige ist der detaillierte Inhalt vonNVIDIAs leistungsstärkstes Open-Source-Universalmodell Nemotron-4 340B. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!