ホームページ > テクノロジー周辺機器 > AI > Easy and Efficient Transformer (NetEase の超大型モデル オンライン推論エンジン)

Easy and Efficient Transformer (NetEase の超大型モデル オンライン推論エンジン)

王林
リリース: 2024-01-24 10:45:05
転載
487 人が閲覧しました

Easy and Efficient Transformer(网易超大模型线上推理引擎)

NetEase のトランスベース モデル用のオープンソース推論アクセラレーション フレームワークは、ミッドエンドからローエンドの Ampere アーキテクチャ上で数百億のモデルのシングル カードの高性能推論をサポートします。

プロジェクトの背景

変圧器ベースの大規模モデルは、多くの分野のさまざまなタスクで効果的であることが証明されています。ただし、これを工業生産に適用するには、推論コストを削減するために多大な努力が必要です。このギャップを埋めるために、スケーラブルな推論ソリューションである Easy and Efficient Transformer (EET) を提案します。 EET は、アルゴリズムおよび実装レベルでの一連の Transformer 推論の最適化を含むシステムです。 Transformer の計算とデータ プロセスを最適化することで、EET は推論のコストを大幅に削減し、モデルの効率とパフォーマンスを向上させることができます。私たちの実験結果は、EET がモデルの精度を損なうことなく推論速度とリソース使用率を大幅に向上させ、工業生産における大規模モデルのアプリケーションにシンプルで効果的なソリューションを提供できることを示しています。

まず、長い入力と大きな隠れサイズに対応する高度に最適化されたカーネルを設計します。

さらに、大規模なモデルをデプロイするときにメモリ フットプリントを削減するために、柔軟な CUDA メモリ マネージャーも提案します。最先端の Transformer 推論ライブラリ (Faster Transformer v4.0) と比較して、EET は A100 GPU 上で平均 1.40 ~ 4.20 倍のデコード レイヤー アクセラレーションを達成できます。

紙のアドレス

https://arxiv.org/abs/2104.12470

Githubのアドレス

https://github.com/NetEase-FuXi /EET###

以上がEasy and Efficient Transformer (NetEase の超大型モデル オンライン推論エンジン)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:163.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート