3140 パラメータの Grok-1 推論が 3.8 倍高速化、PyTorch+HuggingFace バージョンはこちら

王林
リリース: 2024-03-25 15:21:46
転載
1214 人が閲覧しました

Musk は Grok-1 をオープンソースにすることを約束し、オープンソース コミュニティは大喜びしました。

しかし、Grok-1 に基づいて変更を加えたり商用化するのはまだ少し難しいです:

Grok-1 は Rust JAX を使用して構築されています。 Python PyTorch などの主流のソフトウェア エコシステムへ HuggingFace ユーザーが始める敷居は高いです。

3140 パラメータの Grok-1 推論が 3.8 倍高速化、PyTorch+HuggingFace バージョンはこちら

△写真注: Grok は GitHub の人気リストで世界 1 位にランクされています

Colossal-AI チームの最新の成果は、すべての人の緊急のニーズを解決し、 利便性の提供 使いやすい Python PyTorch HuggingFace Grok-1 は、推論遅延を ほぼ 4 倍 加速できます。

現在、モデルは HuggingFace と ModelScope で公開されています。

HuggingFace ダウンロード リンク:
https://www.php.cn/link/335396ce0d3f6e808c26132f91916eae

ModelScope ダウンロード リンク:
https: //www.php.cn/link/7ae7778c9ae86d2ded133e891995dc9e

パフォーマンスの最適化

AI 大規模モデル システム最適化の分野における Colossal-AI の豊富な蓄積と組み合わせることで、Grok を迅速にサポートしました。 -1 テンソル並列度。

単一の 8H800 80GB サーバー上で推論パフォーマンスを JAX、HuggingFace の自動デバイス マップ、その他の方法と比較すると、推論遅延はほぼ 4 倍加速されます

3140 パラメータの Grok-1 推論が 3.8 倍高速化、PyTorch+HuggingFace バージョンはこちら

使用チュートリアル

Colossal-AI をダウンロードしてインストールしたら、推論スクリプトを開始するだけです。

うわー

モデルの重みは自動的にダウンロードおよびロードされ、推論結果は調整されたままになります。以下の図に示すように、Grok-1 貪欲検索の実行テスト。

3140 パラメータの Grok-1 推論が 3.8 倍高速化、PyTorch+HuggingFace バージョンはこちら

詳細については、grok-1 の使用例を参照してください:
https://www.php.cn/link/e2575ed7d2c481c414c10e688bcbc4cf

Monster Grok-1

このオープン ソースの xAI は、Grok-1 の基本的なモデルの重みとネットワーク アーキテクチャをリリースしました。

具体的には、2023 年 10 月の事前トレーニング段階の元の基本モデルで、特定のアプリケーション (対話など) 向けに微調整されていませんでした。

構造的には、Grok-1 は混合エキスパート (MoE) アーキテクチャを採用しており、 には 8 人のエキスパートが含まれており、パラメータの総量は 314B (3140 億) です。が発動し、発動パラメータ量は86Bとなります。

アクティブなパラメータの量だけを見ると、密集モデル Llama 2 の 70B を超えています。MoE アーキテクチャとしては、このパラメータの量は巨大と言っても過言ではありません。

詳細なパラメーター情報は次のとおりです:

    ウィンドウの長さは 8192 トークン、精度は bf16です。
  • トークナイザーのボキャブ サイズは 131072 (2^17) です。 GPT-4 と同じです。Close;
  • 埋め込みサイズは 6144 (48×128);
  • Transformer 層の数は 64 で、各層にはマルチヘッドを含むデコーダ層があります。アテンション ブロックとデンス ブロック;
  • キー値のサイズは 128;
  • マルチヘッド アテンション ブロックでは、クエリに 48 ヘッドが使用され、KV に 8 が使用され、KV サイズがは 128;
  • Dense ブロック (密なフィードフォワード ブロック) の拡張係数は 8、隠れ層のサイズは 32768 です

3140 パラメータの Grok-1 推論が 3.8 倍高速化、PyTorch+HuggingFace バージョンはこちら

GitHub ページで公式のヒントでは、モデル サイズが大きいため (パラメータ 314B)、Grok を実行するには十分な GPU とメモリを備えたマシンが必要です。

ここでの MoE 層の実装効率は高くありません。モデルの正確性を検証する際にカーネルをカスタマイズする必要を避けるために、この実装方法が選択されました。

モデルのウェイト ファイルは

磁気リンク の形式で提供されており、ファイル サイズは 300 GB 近くあります。

3140 パラメータの Grok-1 推論が 3.8 倍高速化、PyTorch+HuggingFace バージョンはこちら

Grok-1 は、

商用フレンドリーな Apache 2.0 ライセンスを使用していることに言及する価値があります。 現在、GitHub 上の Grok-1 の星評価は 43.9k 星に達しています。

Qubit は、Colossal-AI が近い将来、並列アクセラレーションやグラフィックス メモリ コストの量的削減など、Grok-1 向けの最適化をさらに開始することを理解しています。引き続き注目していただければ幸いです。

Colossal-AI オープンソース アドレス: https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530

以上が3140 パラメータの Grok-1 推論が 3.8 倍高速化、PyTorch+HuggingFace バージョンはこちらの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!