Musk は Grok-1 をオープンソースにすることを約束し、オープンソース コミュニティは大喜びしました。
しかし、Grok-1 に基づいて変更を加えたり商用化するのはまだ少し難しいです:
Grok-1 は Rust JAX を使用して構築されています。 Python PyTorch などの主流のソフトウェア エコシステムへ HuggingFace ユーザーが始める敷居は高いです。
Colossal-AI チームの最新の成果は、すべての人の緊急のニーズを解決し、 利便性の提供 使いやすい Python PyTorch HuggingFace Grok-1 は、推論遅延を ほぼ 4 倍 加速できます。
現在、モデルは HuggingFace と ModelScope で公開されています。
HuggingFace ダウンロード リンク:
https://www.php.cn/link/335396ce0d3f6e808c26132f91916eae
ModelScope ダウンロード リンク:
https: //www.php.cn/link/7ae7778c9ae86d2ded133e891995dc9e
AI 大規模モデル システム最適化の分野における Colossal-AI の豊富な蓄積と組み合わせることで、Grok を迅速にサポートしました。 -1 テンソル並列度。
単一の 8H800 80GB サーバー上で推論パフォーマンスを JAX、HuggingFace の自動デバイス マップ、その他の方法と比較すると、推論遅延はほぼ 4 倍加速されます。
Colossal-AI をダウンロードしてインストールしたら、推論スクリプトを開始するだけです。
モデルの重みは自動的にダウンロードおよびロードされ、推論結果は調整されたままになります。以下の図に示すように、Grok-1 貪欲検索の実行テスト。
詳細については、grok-1 の使用例を参照してください:
https://www.php.cn/link/e2575ed7d2c481c414c10e688bcbc4cf
このオープン ソースの xAI は、Grok-1 の基本的なモデルの重みとネットワーク アーキテクチャをリリースしました。
具体的には、2023 年 10 月の事前トレーニング段階の元の基本モデルで、特定のアプリケーション (対話など) 向けに微調整されていませんでした。
構造的には、Grok-1 は混合エキスパート (MoE) アーキテクチャを採用しており、 には 8 人のエキスパートが含まれており、パラメータの総量は 314B (3140 億) です。が発動し、発動パラメータ量は86Bとなります。
アクティブなパラメータの量だけを見ると、密集モデル Llama 2 の 70B を超えています。MoE アーキテクチャとしては、このパラメータの量は巨大と言っても過言ではありません。 詳細なパラメーター情報は次のとおりです:磁気リンク の形式で提供されており、ファイル サイズは 300 GB 近くあります。
Grok-1 は、商用フレンドリーな Apache 2.0 ライセンスを使用していることに言及する価値があります。 現在、GitHub 上の Grok-1 の星評価は 43.9k 星に達しています。
Qubit は、Colossal-AI が近い将来、並列アクセラレーションやグラフィックス メモリ コストの量的削減など、Grok-1 向けの最適化をさらに開始することを理解しています。引き続き注目していただければ幸いです。
Colossal-AI オープンソース アドレス: https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530
以上が3140 パラメータの Grok-1 推論が 3.8 倍高速化、PyTorch+HuggingFace バージョンはこちらの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。