自然言語処理などの分野で深層学習モデルが広く応用されるにつれ、モデルの推論速度とパフォーマンスが重要な問題になっています。最近、Kuaishou が主導した研究成果「SAMP: 適応混合精度に基づくトレーニング後の定量的モデル推論ライブラリ」がトップカンファレンス EMNLP 2023 に無事選出され、シンガポールで展示および共有されました
この研究では、SAMP と呼ばれる推論高速化ツールを提案します。このツールは、適応型混合精度テクノロジを使用して、モデルのパフォーマンスを維持しながら推論速度を大幅に向上させます。これには、適応型混合精度エンコーダーと一連の高度な融合戦略が含まれています。適応型混合精度エンコーダは、多数の一般行列乗算 (GEMM) 演算と Transformer レイヤーで最適な浮動小数点と固定小数点の混合精度の組み合わせを見つけることができるため、モデル推論のパフォーマンスがユーザーのニーズ (計算) に最も近くなります。精度または推論効率)。最終的に、混合精度計算は完全な固定小数点計算よりも優れた計算精度を実現します。融合戦略は、埋め込み演算子と量子化関連の計算操作を統合および改善し、CUDA カーネル呼び出しを半分に削減します。同時に、SAMP は C プログラミング言語で実装されたエンドツーエンドのツールキットであり、優れた推論速度を備え、トレーニング後の定量的推論の産業アプリケーションの敷居を下げます。
書き直す必要があるのは、表 1
に示すように、類似システムと比較した SAMP の革新点です。SAMP には次のような主な特長があります:
1. 適応型。 SAMP は、トレーニング後の量子化推論アプローチで計算精度とレイテンシ パフォーマンスのバランスをとります。ユーザーは、さまざまなタスクに対して適切な精度と推論遅延を備えた混合精度構成を選択できます。 SAMP は、適応型割り当て方法を通じて、ユーザーに最適な量子化組み合わせモードを推奨することもできます。
2. 推論の効率。 SAMP は、広い精度範囲 (浮動小数点から固定小数点まで) にわたって、他の推論ツールキットよりも優れた推論速度向上を示します。中国語理解評価ベンチマーク (CLUE) 分類タスク データ セットでは、SAMP は FasterTransformer と比較して最大 1.05 ~ 1.15 倍の高速化を達成しました。
3. 柔軟性。 SAMP は、分類、シーケンスのラベル付け、テキスト マッチングなどの多数の下流タスクをカバーします。ターゲットモジュールは拡張可能で、柔軟にカスタマイズできます。ユーザーフレンドリーで、プラットフォームへの依存度も低くなります。 SAMP は C および Python API をサポートしており、CUDA 11.0 以降のみが必要です。さらに、SAMP は、異なる形式のモデル間の相互変換をサポートする多くのモデル変換ツールも提供します。
写真 1: この研究論文は EMNLP2023 カンファレンスで発表および共有されます
Kuaishou の主任研究者である Tian Rong 氏は、チーム全体の共同努力の結果、モデル推論などのシナリオで良い結果が得られると述べました。 SAMP は 3 つの側面で貢献しています: 1 つ目は、産業アプリケーションにおける既存の量子化後 (PTQ) 推論ツールにおける精度の大幅な損失の問題を解決すること、2 つ目は、複数の下流タスクでの量子化後 (PTQ) テクノロジの使用を促進することです。 NLP の大規模なアプリケーションであると同時に、推論ライブラリも軽量で柔軟で使いやすく、ユーザー定義のタスク目標をサポートしています
EMNLP (Empirical Methods in Natural Language Processing) は、自然言語処理と人工知能の分野におけるトップの国際会議の 1 つであると報告されており、さまざまなアプリケーション シナリオにおける自然言語処理テクノロジの学術研究に焦点を当てています。自然言語処理の経験的証拠に特に重点を置いた研究。このカンファレンスは、事前学習言語モデル、テキストマイニング、対話システム、機械翻訳など、自然言語処理分野における核となるイノベーションを促進し、学界と産業界の両方に大きな影響を与えており、今回の選出はKuaishouの進歩を意味するものでもあります。この分野の研究成果は国際的な学者によって認められています。
以上がKuaishouの研究成果SAMPが国際人工知能会議EMNLP2023で評価されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。