Databricks dévoile DBRX: un modèle grand langage à haute performance et open source
DATABRICKS a lancé DBRX, un modèle de grande langue (LLM) révolutionnaire, construit sur une architecture sophistiquée de mélange de mixages (MOE). Contrairement aux LLM traditionnelles qui reposent sur un seul réseau neuronal, DBRX utilise plusieurs réseaux "experts" spécialisés, chacun optimisé pour des tâches et des types de données spécifiques. Cette approche innovante conduit à des performances et à une efficacité supérieures par rapport à des modèles comme GPT-3.5 et LLAMA 2. DBRX possède un score de 73,7% dans les références de compréhension du langage, dépassant 69,8% de Llama 2. Cet article plonge sur les capacités, l'architecture et l'utilisation de DBRX.
Comprendre Databricks DBRX
DBRX exploite une architecture de décodeur basée sur un transformateur, formé à l'aide de prédiction à tarker suivant. Son innovation principale réside dans son architecture MOE à grain fin. Ces «experts» sont des agents LLM spécialisés, améliorés avec des connaissances spécifiques au domaine et des capacités de raisonnement avancées. DBRX utilise 16 petits experts, sélectionnant un sous-ensemble de 4 pour chaque entrée. Cette approche à grains fins, avec 65 fois plus de combinaisons d'experts que des modèles comme Mixtral et Grok-1, améliore considérablement la qualité du modèle.
Les fonctionnalités clés de DBRX incluent:
Méthodologie de formation DBRX
La formation de DBRXDBRX impliquait un programme d'études soigneusement conçu et des ajustements de mélange de données stratégiques pour optimiser les performances entre diverses entrées. Les outils puissants de Databricks à effet de levier, notamment Apache Spark, Notebooks Databricks et Catalog Unity. Les technologies clés utilisées pendant la pré-formation comprennent les encodages de position rotative (corde), les unités linéaires fermées (GLU), l'attention de la requête groupée (GQA) et le tokenizer GPT-4 du référentiel Tiktoken.
Benchmarking DBRX contre les concurrents
Databricks met en évidence l'efficacité et les performances supérieures de DBRX par rapport aux principaux LLMS open-source:
Model Comparison | General Knowledge | Commonsense Reasoning | Databricks Gauntlet | Programming Reasoning | Mathematical Reasoning |
---|---|---|---|---|---|
DBRX vs LLaMA2-70B | 9.8% | 3.1% | 14% | 37.9% | 40.2% |
DBRX vs Mixtral Instruct | 2.3% | 1.4% | 6.1% | 15.3% | 5.8% |
DBRX vs Grok-1 | 0.7% | N/A | N/A | 6.9% | 4% |
DBRX vs Mixtral Base | 1.8% | 2.5% | 10% | 29.9% | N/A |
(Un graphique visualisant certains de ces résultats serait inclus ici. URL de l'image: [] )
en utilisant dbrx: un guide pratique
Avant d'utiliser DBRX, assurez-vous que votre système a au moins 320 Go de RAM. Suivez ces étapes:
transformers
: pip install "transformers>=4.40.0"
hf_YOUR_TOKEN
par votre jeton): from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN") model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN") input_text = "Databricks was founded in " input_ids = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**input_ids, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
dbrx excelle dans diverses tâches, notamment l'achèvement du texte, la compréhension du langage, l'optimisation des requêtes, la génération de code, l'explication, le débogage et l'identification de la vulnérabilité.
(Une image présentant DBRX répondant à une commande simple serait incluse ici. URL d'image: [] )
Dbrx fin du réglage fin
DBRX à réglage fin est possible à l'aide de la fonderie LLM Open-source de GitHub. Les exemples de formation doivent être formatés en tant que dictionnaires: {'prompt': <prompt_text>, 'response': <response_text>}</response_text></prompt_text>
. La fonderie prend en charge le réglage fin avec des ensembles de données du Hub Face Hub, des ensembles de données locaux et du format StreamingDataset (.MDS). Des instructions détaillées pour chaque méthode sont disponibles dans l'article d'origine. (De plus amples détails sur les fichiers de configuration YAML pour le réglage fin sont omis pour la concision).
Conclusion
DATABRICKS DBRX représente une progression importante dans la technologie LLM, tirant parti de son architecture MOE innovante pour une vitesse, une rentabilité et des performances améliorées. Sa nature open source favorise les développement et les contributions communautaires.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!