databricksはdbrxを発表します:高性能でオープンソースの大手言語モデル
DataBricksは、洗練された専門家(MOE)アーキテクチャに基づいて構築された画期的なオープンソースラージモデル(LLM)であるDBRXを発売しました。 単一のニューラルネットワークに依存する従来のLLMとは異なり、DBRXは複数の専門化された「専門家」ネットワークを採用しており、それぞれ特定のタスクとデータ型に最適化されています。この革新的なアプローチは、GPT-3.5やLlama 2などのモデルと比較して優れたパフォーマンスと効率につながります。DBRXは、Llama 2の69.8%を上回る言語理解ベンチマークに73.7%のスコアを誇っています。この記事では、DBRXの機能、アーキテクチャ、および使用法を掘り下げています
DataBricks DBRX DBRXは、次のトークン予測を使用してトレーニングされた、変圧器ベースのデコーダーのみのアーキテクチャを活用します。その核となる革新は、そのきめの細かいMOEアーキテクチャにあります。 これらの「専門家」は、ドメイン固有の知識と高度な推論能力で強化された専門のLLMエージェントです。 DBRXは16人の小規模な専門家を利用して、入力ごとに4のサブセットを選択します。 MixTralやGROK-1などのモデルの65倍の専門家の組み合わせを備えたこのきめの細かいアプローチにより、モデルの品質が大幅に向上します。 DBRXの重要な機能は
を含みます
パラメーターサイズ:
合計1,320億パラメーター。DBRXの競合他社に対するベンチマーク
Databricksは、DBRXの優れた効率とパフォーマンスを強調しています。Model Comparison | General Knowledge | Commonsense Reasoning | Databricks Gauntlet | Programming Reasoning | Mathematical Reasoning |
---|---|---|---|---|---|
DBRX vs LLaMA2-70B | 9.8% | 3.1% | 14% | 37.9% | 40.2% |
DBRX vs Mixtral Instruct | 2.3% | 1.4% | 6.1% | 15.3% | 5.8% |
DBRX vs Grok-1 | 0.7% | N/A | N/A | 6.9% | 4% |
DBRX vs Mixtral Base | 1.8% | 2.5% | 10% | 29.9% | N/A |
(これらの結果の一部を視覚化するグラフがここに含まれます。画像URL:[] )
dbrxの使用:実用的なガイド
DBRXを使用する前に、システムに少なくとも320GBのRAMがあることを確認してください。 次の手順に従ってください:
transformers
ライブラリをインストール:pip install "transformers>=4.40.0"
hf_YOUR_TOKEN
from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN") model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN") input_text = "Databricks was founded in " input_ids = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**input_ids, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
])
GitHubのオープンソースLLMファウンドリを使用して、微調整DBRXが可能です。 トレーニングの例は、辞書としてフォーマットする必要があります。 Foundryは、ハグFace Hub、ローカルデータセット、StreamingDataset(.MDS)形式のデータセットで微調整をサポートしています。 各メソッドの詳細な手順は、元の記事で入手できます。 (微調整のためのYAML構成ファイルの詳細は、簡潔にするために省略されています)。
結論{'prompt': <prompt_text>, 'response': <response_text>}</response_text></prompt_text>
DataBricks DBRXは、LLMテクノロジーの大幅な進歩を表しており、革新的なMOEアーキテクチャを活用して、速度、費用対効果、パフォーマンスを向上させます。 そのオープンソースの性質は、さらなる開発とコミュニティの貢献を促進します
以上がDatabricks DBRXチュートリアル:ステップバイステップガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。