>
理解數據鏈球dbrx
dbrx利用了基於變壓器的純解碼體架構,該體系結構使用下一步的預測進行了訓練。它的核心創新在於其精細的Moe建築。 這些“專家”是專業的LLM代理,具有特定於領域的知識和高級推理功能。 DBRX利用16個較小的專家,為每個輸入選擇4個子集。這種細粒度的方法是專家組合的65倍,是Mixtral和Grok-1等模型,可顯著提高模型質量。 DBRX的關鍵功能包括:參數大小:
>對競爭對手進行基準測試dbrx 與領先的開源LLM相比,Databricks強調了DBRX的卓越效率和性能:
Model Comparison | General Knowledge | Commonsense Reasoning | Databricks Gauntlet | Programming Reasoning | Mathematical Reasoning |
---|---|---|---|---|---|
DBRX vs LLaMA2-70B | 9.8% | 3.1% | 14% | 37.9% | 40.2% |
DBRX vs Mixtral Instruct | 2.3% | 1.4% | 6.1% | 15.3% | 5.8% |
DBRX vs Grok-1 | 0.7% | N/A | N/A | 6.9% | 4% |
DBRX vs Mixtral Base | 1.8% | 2.5% | 10% | 29.9% | N/A |
(在此處可視化其中一些結果的圖。
利用dbrx:實用指南
> 在使用DBRX之前,請確保您的系統至少具有320GB的RAM。 請按照以下步驟:
安裝:
>安裝transformers
>獲得帶有讀取權限的擁抱臉訪問令牌。 pip install "transformers>=4.40.0"
hf_YOUR_TOKEN
(在此處將包括一個響應簡單命令的圖像顯示dbrx。
from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN") model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN") input_text = "Databricks was founded in " input_ids = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**input_ids, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
使用GitHub的開源LLM Foundry,可以進行微調DBRX。 培訓示例應格式化為字典:
。 Foundry支持來自擁抱麵線,本地數據集和StreamingDataSet(.MDS)格式的數據集進行微調。 每種方法的詳細說明可在原始文章中找到。 (對於簡潔而言,省略了有關用於微調的YAML配置文件的更多詳細信息)。
結論
以上是Databricks DBRX教程:逐步指南的詳細內容。更多資訊請關注PHP中文網其他相關文章!