Datenbanken enthüllt DBRX: eine Hochleistungsmodell mit Open-Source
Databricks hat DBRX auf den Markt gebracht, ein bahnbrechendes Open-Source-großes Sprachmodell (LLM), das auf einer anspruchsvollen Architektur einer Expertenmischung (MEE) basiert. Im Gegensatz zu herkömmlichen LLMs, die sich auf ein einzelnes neuronales Netzwerk verlassen, verwendet DBRX mehrere spezialisierte "Experten" -Netzwerke, die jeweils für bestimmte Aufgaben und Datentypen optimiert sind. Dieser innovative Ansatz führt zu einer überlegenen Leistung und Effizienz im Vergleich zu Modellen wie GPT-3,5 und LLAMA 2. DBRX bietet eine Punktzahl von 73,7% in den Benchmarks mit Sprachverständnis und übertrifft Lama 2 von 69,8%. Dieser Artikel befasst sich mit den Funktionen, Architektur und Verwendung von DBRX.
Datenbleal verstehen dbrx
DBRX nutzt eine transformatorbasierte Decoder-Architektur, die mit der nächsten Vorhersage ausgebildet wird. Seine Kerninnovation liegt in seiner feinkörnigen Moe-Architektur. Diese "Experten" sind spezielle LLM-Agenten, die mit domänenspezifischem Wissen und fortgeschrittenen Argumentationsfunktionen verbessert werden. DBRX verwendet 16 kleinere Experten und wählt für jede Eingabe eine Teilmenge von 4 aus. Dieser feinkörnige Ansatz mit 65-mal mehr Expertenkombinationen als Modelle wie Mixtral und GROK-1 verbessert die Modellqualität signifikant.
Schlüsselmerkmale von DBRX gehören:
DBRX -Trainingsmethode
Das Training von
DBRX umfasste ein sorgfältig gestaltetes Lehrplan und strategische Datenmixanpassungen, um die Leistung über verschiedene Eingaben hinweg zu optimieren. Der Prozess nutzte die leistungsstarken Tools von Databricks, einschließlich Apache Spark, Databricks -Notebooks und Unity -Katalog. Zu den während der Vorinternen eingesetzten Schlüsseltechnologien gehören Rotary Position Codings (Seil), Gated Linear Units (GLU), GROPPURED Query Aufmerksamkeit (GQA) und der GPT-4-Tokenizer aus dem Tiktoken-Repository.Benchmarking DBRX gegen Konkurrenten
Datenbanken heben die überlegene Effizienz und Leistung von DBRX im Vergleich zu führenden Open-Source-LLMs hervor:
Model Comparison | General Knowledge | Commonsense Reasoning | Databricks Gauntlet | Programming Reasoning | Mathematical Reasoning |
---|---|---|---|---|---|
DBRX vs LLaMA2-70B | 9.8% | 3.1% | 14% | 37.9% | 40.2% |
DBRX vs Mixtral Instruct | 2.3% | 1.4% | 6.1% | 15.3% | 5.8% |
DBRX vs Grok-1 | 0.7% | N/A | N/A | 6.9% | 4% |
DBRX vs Mixtral Base | 1.8% | 2.5% | 10% | 29.9% | N/A |
(Ein Diagramm, das einige dieser Ergebnisse visualisiert, würde hier enthalten. Bild -URL: [] )
Verwenden von DBRX: Ein praktischer Leitfaden
Stellen Sie vor der Verwendung von DBRX sicher, dass Ihr System über mindestens 320 GB RAM verfügt. Befolgen Sie die folgenden Schritte:
transformers
Bibliothek: pip install "transformers>=4.40.0"
hf_YOUR_TOKEN
durch Ihr Token): from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN") model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN") input_text = "Databricks was founded in " input_ids = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**input_ids, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
DBRX Excels in verschiedenen Aufgaben, einschließlich Textabschluss, Sprachverständnis, Abfrageoptimierung, Codegenerierung, Erklärung, Debugging und Schwachstellenidentifikation.
(Ein Bild, das DBRX zeigt, das auf einen einfachen Befehl reagiert, wird hier enthalten. Bild URL: [] )
feinstimmend dbrx
feinstimmend dbrx ist mit Githubs Open-Source-LLM-Gießerei möglich. Schulungsbeispiele sollten als Wörterbücher formatiert werden: {'prompt': <prompt_text>, 'response': <response_text>}</response_text></prompt_text>
. Die Gießerei unterstützt die Feinabstimmung mit Datensätzen aus dem Format der Umarmung, lokale Datensätze und StreamingDataset (.MDS). In dem ursprünglichen Artikel finden Sie detaillierte Anweisungen für jede Methode. (Weitere Details zu den YAML-Konfigurationsdateien zur Feinabstimmung sind für die Kürze weggelassen.
Schlussfolgerung
Databricks DBRX stellt einen erheblichen Fortschritt in der LLM-Technologie dar und nutzt seine innovative MOE-Architektur für verbesserte Geschwindigkeit, Kosteneffizienz und Leistung. Seine Open-Source-Natur fördert weitere Entwicklung und Community-Beiträge.
Das obige ist der detaillierte Inhalt vonDatabricks DBRX Tutorial: Eine Schritt-für-Schritt-Anleitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!