Llama3 のトレーニングコストがわずか 1/17 の Snowflake オープンソース 128x3B MoE モデル-AI-php.cn

ホームページ

テクノロジー周辺機器

Llama3 のトレーニングコストがわずか 1/17 の Snowflake オープンソース 128x3B MoE モデル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 25, 2024 pm 04:10 PM

apache 業界圧縮技術

Snowflake が LLM の乱闘に参加します。

Snowflake は、社内のエンタープライズアプリケーションに焦点を当てた、高度な「エンタープライズインテリジェンス」モデル Arctic をリリースします。

たった今、データ管理およびウェアハウスのプロバイダーである Snowflake が、LLM 乱戦に参加し、エンタープライズレベルのアプリケーションに焦点を当てたトップレベルの大規模言語モデル (LLM) をリリースしたと発表しました。 - スノーフレーク北極。

# Arctic はクラウドコンピューティング企業が立ち上げた LLM として、主に次の 2 つの利点があります。

効率的なインテリジェンス: Arctic は、SQL 生成、プログラミング、命令追従などのエンタープライズタスクに優れており、より高い計算コストでトレーニングされたオープンソースモデルとさえ競合します。 Arctic は、費用対効果の高いトレーニングのための新しいベースラインを設定し、Snowflake の顧客が企業のニーズに合わせた高品質のカスタムモデルを低コストで作成できるようにします。
オープンソース: Arctic は Apache 2.0 ライセンスを採用し、重みとコードへのオープンアクセスを提供します。また、Snowflake もすべてのデータソリューションと研究結果をオープンソースにします。

Hugging Face で北極モデルにアクセスできるようになりました。 Snowflake 氏は次のように述べています。ユーザーは、Snowflake Cortex、AWS、Microsoft Azure、NVIDIA API、Lamini、Perplexity、Replicate and Together などを含む多くのモデルライブラリを通じて間もなくそれを入手できるようになります。

仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

ハグフェイス: https://huggingface.co/Snowflake/snowflake-arctic-instruct

北極コンテキストウィンドウは 4K に設定されており、研究チームはアテンションシンクに基づくスライディングウィンドウの実装を開発中です。これにより、今後数週間で無制限のシーケンス生成がサポートされ、近い将来には 32K アテンションウィンドウに拡張される予定です。

高パフォーマンス、低コスト

Snowflake の研究チームは企業顧客の AI を活用しています要件とユースケースには一貫したパターンが見られます。企業は、LLM を使用して会話型 SQL データコパイロット、コードコパイロット、RAG チャットボットを構築したいと考えています。

これは、LLM が SQL、コードに優れ、複雑な命令に従い、具体的な応答を生成する必要があることを意味します。 Snowflake は、エンコード (HumanEval および MBPP)、SQL 生成 (Spider)、および命令追従 (IFEval) のパフォーマンスレベルを平均化することで、これらの機能を「Enterprise Intelligence」と呼ばれる単一のメトリクスに結合します。

Arctic は、オープンソース LLM の「エンタープライズインテリジェンス」のトップレベルに達し、トレーニングコンピューティングコストは約 200 万ドル未満 (3,000 GPU 週未満) で実現します。状況下で。これは、Arctic が同様の計算コストでトレーニングされた他のオープンソースモデルよりも高性能であることを意味します。

#さらに重要なのは、はるかに高い計算コストでトレーニングされたモデルと比較しても、Arctic はエンタープライズインテリジェンスにおいて優れていることです。 Arctic の高いトレーニング効率は、Snowflake の顧客と AI コミュニティ全体がよりコスト効率よくカスタムモデルをトレーニングできることを意味します。

図 1 に示すように、Arctic はエンタープライズインテリジェンスメトリクスにおいて LLAMA 3 8B および LLAMA 2 70B と同等でありながら、トレーニングコンピューティングコストの半分未満を使用しています。また、Arctic は、コンピューティングコストが 1/17 倍しか使用していないにもかかわらず、エンコーディング (HumanEval および MBPP)、SQL (Spider)、命令追従 (IFEval) などの指標において Llama3 70B に匹敵します。つまり、Arctic は全体的なパフォーマンスの競争力を維持しています。 . これも同時に行いました。

さらに、Snowflake は世界の知識、常識的推論、数学的能力を含む学術的なベンチマークに基づいて北極を評価しました。完全な評価結果は以下のとおりです。図に示すように:

##トレーニング効率

上記のトレーニング効率を達成するために、Arctic は独自の Dense-MoE ハイブリッド変圧器アーキテクチャを使用しています。これは、10B の高密度トランスモデルと 128×3.66B の残留 MoE MLP を組み合わせ、合計 480B のパラメータと 17B のアクティブパラメータを備え、選択にトップ 2 ゲートを使用します。

北極の設計と訓練に際し、研究チームは次の 3 つの重要な洞察と革新を利用しました:

MoE の専門家には多数の専門家がおり、圧縮技術を採用

2021 年末、DeepSpeed チームは MoE が自己回帰に適用できることを証明しました。 LLM を使用することで、計算コストを増加させることなくモデルの品質を大幅に向上させます。北極を設計する際、研究チームは、この考えに基づいて、モデルの品質の向上は主に専門家の数とMoEモデルのパラメータの総数、およびこれらの専門家の組み合わせの数に依存することに気づきました。

これに基づいて、Arctic は 128 人のきめ細かい専門家に 480B のパラメーターを分配し、トップ 2 のゲートを使用して 17B のアクティブなパラメーターを選択するように設計されています。

アーキテクチャとシステムの共同設計

強力な AI トレーニングハードウェアでのトレーニングには、多数の専門家を含む基本的な MoE アーキテクチャは、専門家間の完全に接続された通信のオーバーヘッドが高いため、非常に非効率的です。 Snowflake は、通信が計算と重複できれば、このオーバーヘッドを排除できることを発見しました。

したがって、Arctic は高密度トランスフォーマーと残留 MoE コンポーネント (図 2) を組み合わせて通信を介してオーバーラップを計算し、トレーニングシステムが良好なトレーニング効率を達成し、通信を隠蔽できるようにします。オーバーヘッド。

#エンタープライズデータに焦点を当てたコース学習

コード生成とエンタープライズレベルの学習SQL メトリクスに優れるには、一般的なメトリクスとはまったく異なる種類のデータカリキュラムの学習が必要です。何百もの小規模なアブレーション実験を通じて、チームは、常識的な推論などの一般的なスキルは初期段階で学習できる一方で、コーディング、数学、SQL などのより複雑な指標は後で効果的に学習できることを学びました。研修中。

#これは、簡単なものから難しいものまで徐々に能力を身につけていく、人間の人生教育にたとえることができます。そのため、Arctic では 3 段階のカリキュラムを採用しており、各段階でデータ構成が異なり、最初の段階では一般スキル (1T トークン) に重点を置き、最後の 2 段階ではエンタープライズスキル (1.5T および 1T トークン) に重点を置いています。

#推論効率

推論効率はモデル効率の重要な側面でもあり、影響を与えます。モデルが低コストで現実的に導入できるかどうか。仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

Arctic は、他のオープンソース回帰 MoE モデルよりも多くの専門家と総パラメーターを使用して、MoE モデルの規模が飛躍的に向上したことを示しています。したがって、Snowflake には、Arctic が効率的に推論できるようにするためのいくつかの革新的なアイデアが必要です。

#a) バッチサイズ 1 など、小さなバッチサイズでの対話型推論では、 MoE モデルの推論レイテンシは、すべてのアクティブなパラメータを読み取る時間によって制限され、推論はメモリ帯域幅によって制限されます。このバッチサイズでは、Arctic (アクティブパラメーター 17B) のメモリ読み取り量は Code-Llama 70B のわずか 1/4、Mixtral 8x22B (アクティブパラメーター 44B) の 2/5 となり、推論速度が速くなります。

b) バッチサイズが大幅に増加すると (各フォワードパスで数千のトークンが増加するなど)、Arctic はメモリ帯域幅の制限から計算上の制限に変化し、推論がアクティブな制限に影響を受けます。各トークンのパラメータ。この点で、Arctic の計算量は CodeLlama 70B および Llama 3 70B の 1/4 です。

北極の少数のアクティブなパラメーターに一致するコンピューティング限定の推論と高スループットを実現するには、より大きなバッチサイズが必要です。これを達成するには、それをサポートするのに十分な KV キャッシュと、モデルのほぼ 500B のパラメーターを保存するのに十分なメモリが必要です。

困難ではありますが、Snowflake は 2 つのノードを使用して推論を実行し、FP8 の重み、分割ヒューズと連続バッチ処理、ノード内テンソル並列処理、およびノードを組み合わせます。これはシステムの最適化によって実現されます。パイプライン間の並列処理など。

研究チームは、NVIDIA と緊密に連携して、TensorRT-LLM を利用した NVIDIA NIM マイクロサービスの推論を最適化してきました。同時に、研究チームは vLLM コミュニティとも協力しており、社内の開発チームも今後数週間以内にエンタープライズユースケース向けに Arctic の効率的な推論を実装する予定です。

参考リンク：https://www.snowflake.com/blog/arctic-open-efficient-foundation- language-models-snowflake/

以上がLlama3 のトレーニングコストがわずか 1/17 の Snowflake オープンソース 128x3B MoE モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7555

CakePHP チュートリアル

1384

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

ApacheでCGIディレクトリを設定する方法 Apr 13, 2025 pm 01:18 PM

ApacheでCGIディレクトリを設定するには、次の手順を実行する必要があります。「CGI-Bin」などのCGIディレクトリを作成し、Apacheの書き込み許可を付与します。 Apache構成ファイルに「Scriptalias」ディレクティブブロックを追加して、CGIディレクトリを「/cgi-bin」URLにマッピングします。 Apacheを再起動します。

Apacheを始める方法 Apr 13, 2025 pm 01:06 PM

Apacheを開始する手順は次のとおりです。Apache（コマンド：sudo apt-get install apache2または公式Webサイトからダウンロード）をインストールします（linux：linux：sudo systemctl start apache2; windows：apache2.4 "serviceを右クリックして「開始」を右クリック）（オプション、Linux：Sudo SystemCtl

Debian OpenSSL構成を確認する方法 Apr 12, 2025 pm 11:57 PM

この記事では、DebianシステムのOpenSSL構成を確認して、システムのセキュリティステータスをすばやく把握できるように、いくつかの方法を紹介します。 1.最初にOpenSSLバージョンを確認し、OpenSSLがインストールされているかどうかを確認し、バージョン情報を確認します。端末に次のコマンドを入力します。OpenSSlversionがインストールされていない場合、システムはエラーを促します。 2。構成ファイルを表示します。 OpenSSLのメイン構成ファイルは、通常/etc/ssl/openssl.cnfにあります。テキストエディター（Nanoなど）を使用して、次のように表示できます。sudonano/etc/ssl/openssl.cnfこのファイルには、キー、証明書、暗号化アルゴリズムなどの重要な構成情報が含まれています。 3。OPEを利用します

Debian Apacheログを使用してWebサイトのパフォーマンスを向上させる方法 Apr 12, 2025 pm 11:36 PM

この記事では、Debianシステムの下でApacheログを分析することにより、Webサイトのパフォーマンスを改善する方法について説明します。 1.ログ分析の基本Apacheログは、IPアドレス、タイムスタンプ、リクエストURL、HTTPメソッド、応答コードなど、すべてのHTTP要求の詳細情報を記録します。 Debian Systemsでは、これらのログは通常、/var/log/apache2/access.logおよび/var/log/apache2/error.logディレクトリにあります。ログ構造を理解することは、効果的な分析の最初のステップです。 2。ログ分析ツールさまざまなツールを使用してApacheログを分析できます。コマンドラインツール：GREP、AWK、SED、およびその他のコマンドラインツール。

Apacheのサーバー名以上の削除方法 Apr 13, 2025 pm 01:09 PM

Apacheから追加のservernameディレクティブを削除するには、次の手順を実行できます。追加のservernameディレクティブを識別して削除します。 Apacheを再起動して変更を有効にします。構成ファイルを確認して、変更を確認します。サーバーをテストして、問題が解決されていることを確認します。

Apacheバージョンを表示する方法 Apr 13, 2025 pm 01:15 PM

Apacheサーバーでバージョンを表示するには3つの方法があります。コマンドライン（Apachectl -vまたはapache2ctl -v）を介して、サーバーステータスページ（http：//＆lt; server ipまたはdomain name＆gt;/server -status）を確認します。

CentOS HDFS構成を最適化する方法 Apr 14, 2025 pm 07:15 PM

CENTOSのHDFSパフォーマンスの向上：CENTOSのHDFS（Hadoop分散ファイルシステム）を最適化するための包括的な最適化ガイドには、ハードウェア、システム構成、ネットワーク設定を包括的に検討する必要があります。この記事では、HDFSパフォーマンスを改善するのに役立つ一連の最適化戦略を提供します。 1.ハードウェアのアップグレードと選択リソースの拡張：サーバーのCPU、メモリ、ストレージ容量を可能な限り増やします。高性能ハードウェア：高性能ネットワークカードとスイッチを採用して、ネットワークスループットを改善します。 2。システム構成微調整カーネルパラメーター調整：/etc/sysctl.confファイルを変更して、TCP接続番号、ファイルハンドル番号、メモリ管理などのカーネルパラメーターを最適化します。たとえば、TCP接続ステータスとバッファサイズを調整します

Apacheのデータベースに接続する方法 Apr 13, 2025 pm 01:03 PM

Apacheはデータベースに接続するには、次の手順が必要です。データベースドライバーをインストールします。 web.xmlファイルを構成して、接続プールを作成します。 JDBCデータソースを作成し、接続設定を指定します。 JDBC APIを使用して、接続の取得、ステートメントの作成、バインディングパラメーター、クエリまたは更新の実行、結果の処理など、Javaコードのデータベースにアクセスします。

See all articles

Llama3 のトレーニング コストがわずか 1/17 の Snowflake オープンソース 128x3B MoE モデル