Tutoriel DBRICKS DBRX: un guide étape par étape-IA-php.cn

Tutoriel DBRICKS DBRX: un guide étape par étape

Jennifer Aniston

Libérer： 2025-03-07 09:46:11

original

913 Les gens l'ont consulté

Databricks dévoile DBRX: un modèle grand langage à haute performance et open source

DATABRICKS a lancé DBRX, un modèle de grande langue (LLM) révolutionnaire, construit sur une architecture sophistiquée de mélange de mixages (MOE). Contrairement aux LLM traditionnelles qui reposent sur un seul réseau neuronal, DBRX utilise plusieurs réseaux "experts" spécialisés, chacun optimisé pour des tâches et des types de données spécifiques. Cette approche innovante conduit à des performances et à une efficacité supérieures par rapport à des modèles comme GPT-3.5 et LLAMA 2. DBRX possède un score de 73,7% dans les références de compréhension du langage, dépassant 69,8% de Llama 2. Cet article plonge sur les capacités, l'architecture et l'utilisation de DBRX.

Comprendre Databricks DBRX

DBRX exploite une architecture de décodeur basée sur un transformateur, formé à l'aide de prédiction à tarker suivant. Son innovation principale réside dans son architecture MOE à grain fin. Ces «experts» sont des agents LLM spécialisés, améliorés avec des connaissances spécifiques au domaine et des capacités de raisonnement avancées. DBRX utilise 16 petits experts, sélectionnant un sous-ensemble de 4 pour chaque entrée. Cette approche à grains fins, avec 65 fois plus de combinaisons d'experts que des modèles comme Mixtral et Grok-1, améliore considérablement la qualité du modèle.

Les fonctionnalités clés de DBRX incluent:

Taille des paramètres: Un total de 132 milliards de paramètres, avec 36 milliards actifs pour une entrée donnée.
Données de formation: pré-formées sur 12 billions de jetons massifs de données méticuleusement organisées, offrant au moins le double de l'efficacité de jeton pour le coup des ensembles de données utilisés pour les modèles MPT. Une durée de contexte de 32 000 jetons est prise en charge.

Méthodologie de formation DBRX

La formation de DBRX

DBRX impliquait un programme d'études soigneusement conçu et des ajustements de mélange de données stratégiques pour optimiser les performances entre diverses entrées. Les outils puissants de Databricks à effet de levier, notamment Apache Spark, Notebooks Databricks et Catalog Unity. Les technologies clés utilisées pendant la pré-formation comprennent les encodages de position rotative (corde), les unités linéaires fermées (GLU), l'attention de la requête groupée (GQA) et le tokenizer GPT-4 du référentiel Tiktoken.

Benchmarking DBRX contre les concurrents

Databricks met en évidence l'efficacité et les performances supérieures de DBRX par rapport aux principaux LLMS open-source:

Model Comparison	General Knowledge	Commonsense Reasoning	Databricks Gauntlet	Programming Reasoning	Mathematical Reasoning
DBRX vs LLaMA2-70B	9.8%	3.1%	14%	37.9%	40.2%
DBRX vs Mixtral Instruct	2.3%	1.4%	6.1%	15.3%	5.8%
DBRX vs Grok-1	0.7%	N/A	N/A	6.9%	4%
DBRX vs Mixtral Base	1.8%	2.5%	10%	29.9%	N/A

(Un graphique visualisant certains de ces résultats serait inclus ici. URL de l'image: [] )

en utilisant dbrx: un guide pratique

Avant d'utiliser DBRX, assurez-vous que votre système a au moins 320 Go de RAM. Suivez ces étapes:

Installation: Installez la bibliothèque transformers: pip install "transformers>=4.40.0"
Token d'accès: Obtenez un jeton d'accès au visage étreint avec des autorisations de lecture.
Chargement du modèle: Utilisez le code suivant (remplacer hf_YOUR_TOKEN par votre jeton):

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN")
model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN")

input_text = "Databricks was founded in "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))

Copier après la connexion

dbrx excelle dans diverses tâches, notamment l'achèvement du texte, la compréhension du langage, l'optimisation des requêtes, la génération de code, l'explication, le débogage et l'identification de la vulnérabilité.

(Une image présentant DBRX répondant à une commande simple serait incluse ici. URL d'image: [] )

Dbrx fin du réglage fin

DBRX à réglage fin est possible à l'aide de la fonderie LLM Open-source de GitHub. Les exemples de formation doivent être formatés en tant que dictionnaires: {'prompt': <prompt_text>, 'response': <response_text>}</response_text></prompt_text>. La fonderie prend en charge le réglage fin avec des ensembles de données du Hub Face Hub, des ensembles de données locaux et du format StreamingDataset (.MDS). Des instructions détaillées pour chaque méthode sont disponibles dans l'article d'origine. (De plus amples détails sur les fichiers de configuration YAML pour le réglage fin sont omis pour la concision).

Conclusion

DATABRICKS DBRX représente une progression importante dans la technologie LLM, tirant parti de son architecture MOE innovante pour une vitesse, une rentabilité et des performances améliorées. Sa nature open source favorise les développement et les contributions communautaires.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!