Databricks Unveils DBRX: A High-Performance, Open-Source Large Language Model
Databricks telah melancarkan DBRX, sebuah model bahasa besar sumber terbuka (LLM) yang dibina di atas senibina campuran campuran-eksperas (MOE) yang canggih. Tidak seperti LLM tradisional yang bergantung kepada rangkaian saraf tunggal, DBRX menggunakan pelbagai rangkaian "pakar" khusus, masing -masing dioptimumkan untuk tugas dan jenis data tertentu. Pendekatan inovatif ini membawa kepada prestasi dan kecekapan yang lebih baik berbanding dengan model seperti GPT-3.5 dan Llama 2. DBRX mempunyai skor 73.7% dalam penanda aras pemahaman bahasa, melepasi Llama 2's 69.8%. This article delves into DBRX's capabilities, architecture, and usage.
Understanding Databricks DBRX
DBRX leverages a transformer-based decoder-only architecture, trained using next-token prediction. Its core innovation lies in its fine-grained MoE architecture. These "experts" are specialized LLM agents, enhanced with domain-specific knowledge and advanced reasoning capabilities. DBRX utilizes 16 smaller experts, selecting a subset of 4 for each input. Pendekatan halus ini, dengan 65 kali lebih banyak kombinasi pakar daripada model seperti Mixtral dan Grok-1, dengan ketara meningkatkan kualiti model.
Key features of DBRX include:
DBRX Training Methodology
DBRX's training involved a carefully designed curriculum and strategic data mix adjustments to optimize performance across diverse inputs. The process leveraged Databricks' powerful tools, including Apache Spark, Databricks notebooks, and Unity Catalog. Teknologi utama yang digunakan semasa latihan pra-latihan termasuk pengekodan kedudukan berputar (tali), unit linear berpagar (GLU), dikumpulkan perhatian pertanyaan (GQA), dan tokenizer GPT-4 dari repositori tiktoken.
Benchmarking DBRX Against Competitors
Databricks highlights DBRX's superior efficiency and performance compared to leading open-source LLMs:Model Comparison | General Knowledge | Commonsense Reasoning | Databricks Gauntlet | Programming Reasoning | Mathematical Reasoning |
---|---|---|---|---|---|
DBRX vs LLaMA2-70B | 9.8% | 3.1% | 14% | 37.9% | 40.2% |
DBRX vs Mixtral Instruct | 2.3% | 1.4% | 6.1% | 15.3% | 5.8% |
DBRX vs Grok-1 | 0.7% | N/A | N/A | 6.9% | 4% |
DBRX vs Mixtral Base | 1.8% | 2.5% | 10% | 29.9% | N/A |
(graf yang menggambarkan beberapa hasil ini akan dimasukkan di sini. URL imej: [)
Menggunakan DBRX: Panduan Praktikal
Sebelum menggunakan DBRX, pastikan sistem anda mempunyai sekurang -kurangnya 320GB RAM. Ikuti langkah -langkah ini:
transformers
pip install "transformers>=4.40.0"
hf_YOUR_TOKEN
from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN") model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN") input_text = "Databricks was founded in " input_ids = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**input_ids, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
(imej yang mempamerkan DBRX bertindak balas terhadap perintah mudah akan dimasukkan di sini. URL Imej: [] )
Fine-Tuning dbrx
Fine-penalaan DBRX mungkin menggunakan Foundry LLM sumber terbuka GitHub. Contoh latihan harus diformat sebagai kamus:. Foundry menyokong penalaan halus dengan dataset dari hub muka yang memeluk, dataset tempatan, dan format streamingdataset (.mds). Arahan terperinci untuk setiap kaedah boleh didapati dalam artikel asal. (Butiran lanjut mengenai fail konfigurasi YAML untuk penalaan halus ditinggalkan untuk keringkasan). {'prompt': <prompt_text>, 'response': <response_text>}</response_text></prompt_text>
Kesimpulan
Databricks DBRX mewakili kemajuan yang signifikan dalam teknologi LLM, memanfaatkan seni bina MOE yang inovatif untuk meningkatkan kelajuan, keberkesanan kos, dan prestasi. Sumber sumbernya memupuk lagi pembangunan dan sumbangan komuniti.Atas ialah kandungan terperinci Databricks DBRX Tutorial: Panduan Langkah demi Langkah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!