計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法-AI-php.cn

1. 背景

3.GPU 最適化の実践

3.1 システムの最適化

4. 概要

5.チーム

ホームページ

テクノロジー周辺機器

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法

PHPz

Sep 08, 2023 pm 12:33 PM

機械学習 gpu

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法

多くの企業は、GPU コンピューティング能力の開発を組み合わせて、自社に適した機械学習の問題の解決策を模索しています。たとえば、Xiaohongshu は、推論のパフォーマンスと効率を向上させるために、2021 年にプロモーション検索モデルの GPU ベースの変換を開始します。移行プロセスでは、異種ハードウェアにスムーズに移行する方法、Xiaohongshu のビジネスシナリオとオンラインアーキテクチャに基づいて独自のソリューションを開発する方法など、いくつかの困難にも直面しました。コスト削減と効率向上の世界的な傾向の下で、異機種混合コンピューティングは有望な方向性となっています。ヘテロジニアスコンピューティングでは、異なる種類のプロセッサ (CPU、GPU、FPGA など) を組み合わせてコンピューティングパフォーマンスを向上させ、効率の向上とコストの削減を実現します。

1. 背景

Xiaohongshu の推奨、広告、検索、その他の主要なシナリオのモデルサービスは、中間段階の推論アーキテクチャによって均一に実行されます。 Xiaohonshu のビジネスの継続的な発展に伴い、プロモーション検索などのシナリオのモデルの規模も拡大しています。洗練されたレコメンデーションシナリオのメインモデルを例に挙げると、2020年初頭からアルゴリズムがフルインタレストモデリングを開始し、ユーザーの過去の行動記録の平均長が約100倍に拡大しました。モデル構造も最初のマルチタスクから複数回の反復を経ており、モデル構造の複雑さも増加し続けており、これらの変更により、浮動小数点演算の数が 30 倍に増加しました。モデル推論とモデルメモリアクセスが約 5 倍増加しました。

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法 #図

2. モデルサービスアーキテクチャの概要

モデル特徴: Xiaohongshu が 2022 年末に推奨したメインモデルを例に挙げます. このモデルは完全にスパースです. 構造の一部は連続値特徴と行列演算で構成されています. 大規模なスパースパラメーターもありますなど、単一モデルの疎な特徴は最大 1 TB ですが、比較的効果的なモデル構造の最適化により、密な部分は 10 GB 以内に制御され、ビデオメモリに配置できます。ユーザーが小紅書をスワイプするたびに計算される合計 FLOP は 40B に達し、タイムアウトは 300 ミリ秒以内に制御されます (ルックアップによる機能処理を除く)。

推論フレームワーク: Xiaohongshu は、2020 年以前はオンラインサービスフレームワークとして TensorFlow Serving フレームワークを採用していましたが、2020 年以降は、徐々に反復して、次のベースの自社開発フレームワークに移行しました。 TensorFlowCore Lambda Service サービス。 TensorFlow Serving は、モデル推論の正確さと信頼性を確保するために、グラフに入る前に TensorProto -> CTensor のメモリコピーを実行します。ただし、ビジネス規模が拡大すると、メモリコピー操作がモデルのパフォーマンスに影響を与えるようになります。 Xiaohongshu が独自に開発したフレームワークは、ランタイム、グラフスケジューリング機能、最適化機能のプラグイン可能な機能を維持しながら、最適化によって不必要なコピーを排除し、TRT、BLADE、TVM などのさまざまな最適化フレームワークを後で使用するための基盤を築きます。現在では、適切なタイミングで自己調査を選択することが賢明な選択であるように見えますが、同時に、データ送信のコストを最小限に抑えるために、推論フレームワークが特徴抽出と変換の実装の一部も引き受けます。まだ見積もり中自社開発のエッジストレージがサービスの手前側に展開され、リモートでデータをプルするコストの問題が解決されます。

モデルの特徴: Xiaohongshu は独自のコンピューター室を構築していません。すべてのマシンはクラウドベンダーから購入されています。したがって、さまざまなモデルを選択する決定は、主に何を選択するかによって決まります。購入できる機械の種類は何ですか?モデル推論の計算は純粋な GPU 計算ではなく、適切なハードウェア比率を見つけるには、GPU/CPU を考慮することに加えて、帯域幅、メモリ帯域幅、沼間通信遅延などの問題も考慮します。

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法画像

GPU の機能

GPU の機能:Xiaohong 問題GPU カーネルの実行は、データ送信、カーネル起動、カーネル計算、結果送信の各段階に分けられます。このうち、データ転送はホストメモリからGPUメモリへデータを転送すること、カーネル起動はカーネルコードをホスト側からGPU側へ転送し、GPU上でカーネルを起動すること、カーネル計算は実際にカーネルコードを実行することです。カーネルコードの計算結果。結果の送信先計算結果は GPU メモリからホストメモリに転送されます。データ送信とカーネルの起動に大量の時間が費やされ、計算のためにカーネルに渡される作業がそれほど重くなく、実際の計算時間が非常に短い場合、GPU 使用率は改善されず、空の実行でさえも改善されません。起こる。

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法写真

推定サービスフレームワーク

3.GPU 最適化の実践

3.1 システムの最適化

3.1.1 物理マシン

物理マシンの最適化についてパフォーマンスの面では、従来の最適化のアイデアをいくつか採用できますが、主な目的は、GPU 以外のシステムオーバーヘッドのコストを削減し、仮想化仲介業者が獲得する価格差を削減することです。一般的に、一連のシステム最適化によりパフォーマンスが 1% ～ 2% 向上しますが、私たちの実践から、最適化はクラウドベンダーの実際の機能と組み合わせる必要があります。

## ● 割り込みの分離: GPU 割り込みを分離して、GPU コンピューティングのパフォーマンスに影響を与える他のデバイスからの割り込みを回避します。

# カーネルバージョンのアップグレード: システムの安定性とセキュリティが向上し、GPU ドライバーの互換性とパフォーマンスが向上します。

## ● 命令の透過的な送信: GPU 命令を透過的に物理デバイスに直接送信し、GPU の計算速度を高速化します。

3.1.2 仮想化とコンテナ複数のカードの場合、単一のポッドを特定の NUMA ノードにバインドすることでデータを改善しますCPUとGPU間の転送速度。

# CPU NUMA アフィニティ。アフィニティは、CPU の観点から見て、どのメモリアクセスが高速でレイテンシが低いかを示します。前述したように、CPU に直接接続されたローカルメモリの方が高速です。したがって、オペレーティングシステムは、アクセス速度とパフォーマンスを向上させるために、タスクが配置されている CPU に応じてローカルメモリを割り当てることができます。これは、CPU NUMA アフィニティの考慮事項に基づいており、ローカル NUMA ノードでタスクを実行しようとします。 Xiaohonshu のシナリオでは、CPU のメモリアクセスのオーバーヘッドは小さくありません。 CPU がローカルメモリに直接接続できるようにすると、CPU でのカーネル実行にかかる時間を大幅に節約でき、GPU に十分なスペースを確保できます。

# CPU 使用率を 70% に制御することで、遅延を 200ms -> 150ms に短縮できます。

3.1.3 ミラーコンパイルの最適化。 CPU が異なれば命令レベルのサポート機能も異なり、クラウドベンダーによって購入されるモデルも異なります。比較的単純なアイデアは、さまざまなハードウェアシナリオでさまざまな命令セットを使用してイメージをコンパイルすることです。オペレーターを実装する場合、多くのオペレーターはすでに AVX512 などの命令を備えています。 Alibaba Cloud の Intel(R) With 最適化により、このモデルの CPU スループットは 10% 向上しました。

# Intel(R) Xeon(R) Platinum 8163 for ali intelbuild:intel --copt=-march=skylake-avx512 --copt=-mmmx --copt=-mno-3dnow --copt=-mssebuild:intel --copt=-msse2 --copt=-msse3 --copt=-mssse3 --copt=-mno-sse4a --copt=-mcx16build:intel --copt=-msahf --copt=-mmovbe --copt=-maes --copt=-mno-sha --copt=-mpclmulbuild:intel --copt=-mpopcnt --copt=-mabm --copt=-mno-lwp --copt=-mfma --copt=-mno-fma4build:intel --copt=-mno-xop --copt=-mbmi --copt=-mno-sgx --copt=-mbmi2 --copt=-mno-pconfigbuild:intel --copt=-mno-wbnoinvd --copt=-mno-tbm --copt=-mavx --copt=-mavx2 --copt=-msse4.2build:intel --copt=-msse4.1 --copt=-mlzcnt --copt=-mrtm --copt=-mhle --copt=-mrdrnd --copt=-mf16cbuild:intel --copt=-mfsgsbase --copt=-mrdseed --copt=-mprfchw --copt=-madx --copt=-mfxsrbuild:intel --copt=-mxsave --copt=-mxsaveopt --copt=-mavx512f --copt=-mno-avx512erbuild:intel --copt=-mavx512cd --copt=-mno-avx512pf --copt=-mno-prefetchwt1build:intel --copt=-mno-clflushopt --copt=-mxsavec --copt=-mxsavesbuild:intel --copt=-mavx512dq --copt=-mavx512bw --copt=-mavx512vl --copt=-mno-avx512ifmabuild:intel --copt=-mno-avx512vbmi --copt=-mno-avx5124fmaps --copt=-mno-avx5124vnniwbuild:intel --copt=-mno-clwb --copt=-mno-mwaitx --copt=-mno-clzero --copt=-mno-pkubuild:intel --copt=-mno-rdpid --copt=-mno-gfni --copt=-mno-shstk --copt=-mno-avx512vbmi2build:intel --copt=-mavx512vnni --copt=-mno-vaes --copt=-mno-vpclmulqdq --copt=-mno-avx512bitalgbuild:intel --copt=-mno-movdiri --copt=-mno-movdir64b --copt=-mtune=skylake-avx512

ログイン後にコピー

3.2 計算の最適化

3.2.1 計算能力を最大限に活用する

#●

計算最適化を行うには、まずハードウェアのパフォーマンスを十分に理解し、徹底的に理解する必要があります。 Xiaohonshu のシナリオでは、次の図に示すように、2 つの主要な問題が発生しました: 1. CPU 上で多くのメモリアクセスがあり、メモリページフォールトの頻度が高く、その結果、メモリの無駄が発生します。 CPU リソース、およびリクエストの遅延が高すぎる

2. オンライン推論サービスでは、計算には通常、1 つのリクエストのバッチサイズが小さいことと、1 つのサービスの同時実行スケールが大きいという 2 つの特性があります。バッチサイズが小さいと、カーネルが GPU の計算能力を十分に活用できなくなります。 GPU カーネルの実行時間は一般的に短く、カーネル起動のオーバーヘッドを完全にカバーすることはできず、カーネル起動時間はカーネル実行時間よりも長くなる場合もあります。 TensorFlow では、単一の Cuda Stream 起動カーネルがボトルネックとなり、推論シナリオでの GPU 使用率はわずか 50% になります。さらに、小規模モデルシナリオ (単純で高密度なネットワーク) の場合、CPU を GPU に置き換えることはコスト効率が悪く、モデルの複雑さが制限されます。

写真計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法

●

上記 2 つの問題を解決するために、次の対策を講じました。 1メモリページフォールトの頻度が高いという問題を解決するために、jemalloc ライブラリを使用してメモリリサイクルメカニズムを最適化し、オペレーティングシステムの透過的ヒュージページ機能を有効にします。さらに、ラムダの特殊なメモリアクセス特性に合わせて、メモリの断片化を可能な限り回避するために、特別なデータ構造を設計し、メモリ割り当て戦略を最適化します。同時に、tf_serving インターフェイスを直接バイパスして TensorFlow を直接呼び出し、データのシリアル化と逆シリアル化を削減しました。これらの最適化により、ホームページとインストリームの微調整シナリオでスループットが 10% 向上し、ほとんどの広告シナリオで遅延が 50% 削減されました。

画像計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法 tensorflow::Tensor 形式と互換性があり、機能を tensorflow::SessionRun に渡す前にゼロコピーが作成されます。

2. TensorFlow の単一 Cuda Stream の問題に対して、Multi Streams と Multi Contexts の機能をサポートし、ミューテックスロックによるパフォーマンスのボトルネックを回避し、GPU 使用率を 90% まで高めることに成功しました。同時に、Nvidia が提供する Cuda MPS 機能を使用して GPU の空間分割多重化 (複数のカーネルの同時実行をサポート) を実現し、GPU の使用率をさらに向上させます。これに基づいて、検索のランキングモデルが GPU に正常に実装されました。さらに、ホームページのレイアウトや広告など、他の事業分野でも導入して成功しています。次の表は、検索順位シナリオにおける最適化の状況を示しています。

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法写真

3. Op/Kernel 融合テクノロジー: 手書きまたはグラフのコンパイルおよび最適化ツールを通じて、より高性能な Tensorflow オペレーターを生成し、 CPU キャッシュと GPU 共有メモリにより、システムのスループットが向上します。

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法 #写真

流入シナリオでは、演算子が融合されており、1 回の呼び出しが 12 ミリ秒 -> 5 ミリ秒であることがわかります

3.2.2 コンピューティング能力の無駄の回避#

#1. システムリンクには最適化の余地があります

## a. 初期ランキング前設定計算: ユーザー側で関連する計算を処理する場合、事前のソートのために大量のノートを計算する必要があります例えば流出を例にとると、約 5,000 個のノートを計算する必要があり、ラムダスライス処理が施されています。計算の繰り返しを避けるために、最初の行のユーザー側の計算はリコールフェーズと並行して進められ、ユーザーベクトルの計算が複数回の繰り返しから 1 回のみに削減され、マシンの 40% が大まかな行シナリオで最適化されています。

2. 推論プロセスへのグラフ内トレーニング:

a. 計算の前処理: 計算の一部は、グラフのフリーズによって事前に処理できます。推論するときに、計算を繰り返す必要はありません。

b. 出力モデルのフリーズ最適化: モデルが出力されると、すべてのパラメーターがグラフ自体とともに生成され、フリーズされたグラフ (フリーズグラフ) が生成され、前処理計算が実行されます。 Const 演算子 (GPU 使用率が 12% 減少)

c. 推論シナリオでの結合計算: 各バッチには 1 人のユーザーのみが含まれます。つまり、ユーザー側で多数の反復計算があり、マージの可能性

d. CPU/GPU オペレーターの分割: ルックアップ後にすべてのオペレーターを GPU に移動し、CPU と GPU 間のデータコピーを回避します

e. GPU から CPU へのデータコピー: データパックを転送します1 つのコピー ⁣

f. BilinearNet オペレーターの GPU cuda 実装: GPU を介して計算を加速してパフォーマンスを向上させる ⁣

g. 一部のオペレーター GPU ベース: CPU -> GPU のコピーを排除 ⁣

h. BatchNorm と MLP のマージ: 新しい MLP レイヤーを実装することで、GPU パスの数を減らし (N -> 1 )、1 回の計算の計算量を増やします (GPU スモールコアの同時実行機能を再利用します) ) ⁣

#写真

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法

3.2.3 1 日を通じた動的なコンピューティング能力

##● 動的コンピューティングのダウングレードにより、1 日を通してリソースの使用効率が向上し、第 2 レベルでラムダ負荷の負のフィードバックを自動的に調整して正しい値を実現します。単一ゾーンのストレステストの前にダウングレードの準備を手動で行う必要はありません。 # アウトバウンド絞り込みソート、アウトバウンド予備ソート、インバウンド絞り込みソート、内部流入予備ソート、検索などの主要なビジネスシナリオがすべて開始されました。

# 複数のビジネスラインにおけるキャパシティの問題を解決し、ビジネスの成長に伴うリソースの直線的な増加を効果的に軽減し、システムの堅牢性を大幅に向上させました。機能導入後の業務ラインでは、瞬間成功率の大幅低下によるP3以上の事故は発生していません。

# 1 日を通してのリソース使用効率が大幅に向上します。インストリーム微調整を例に取ると (下図に示すように)、メーデーの 3 日間の休暇中に使用される CPU コアの数は、 10:00 ～ 24:00 は 50 コアのまま、フラットライン (ジッターはリリースバージョンに対応)

写真

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法 3.2.4 より優れたハードウェアへの変更

● A10 GPU のパフォーマンスは T4 GPU の 1.5 倍であり、同時に、A10 モデルには新世代の CPU が搭載されています。 T4モデル(Skylake、14nm)に比べ(icelake、10nm)、価格はT4モデルのみの1.2倍タイプです。今後はA30などのオンラインでの活用も検討していきます。

3.3 グラフの最適化

図

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法 3.3.1 DL スタックの自動コンパイル最適化＃＃＃＃＃＃＃＃＃

# BladeDISC は、MLIR に基づいた Alibaba の最新のオープンソース動的形状深層学習コンパイラです。Xiaohongshu の自動グラフ最適化部分は、このフレームワークから来ています (Blade 推論加速ライブラリは Apache 2.0 オープンソースで、あらゆるクラウドで使用できます。知的財産リスク) 。このフレームワークは、TF グラフのコンパイルの最適化 (ダイナミックシェイプコンパイラー、スパースサブグラフの最適化を含む) を提供し、ビジネスシナリオによりよく適応できる独自のカスタマイズされた演算子の最適化を重ね合わせることができます。ストレステストの単一マシン推論では、QPS を 20% 向上させることができます。

# このフレームワークの主要テクノロジー

(1) MLIR インフラストラクチャ

MLIR (Multi-Level Intermediate Representation ) は、開始されたオープンソースプロジェクトです。 Googleによる。その目的は、柔軟で拡張可能な多層 IR インフラストラクチャとコンパイラユーティリティライブラリを提供し、コンパイラと言語ツールの開発者に統一されたフレームワークを提供することです。

MLIR の設計は LLVM の影響を受けますが、LLVM とは異なり、MLIR は主に中間表現 (IR) の設計と拡張に焦点を当てています。 MLIR は、高レベル言語から低レベルハードウェアまでのコンパイルプロセスをサポートできるマルチレベル IR 設計を提供し、豊富なインフラストラクチャサポートとモジュラー設計アーキテクチャを提供することで、開発者は MLIR の機能を簡単に拡張できます。さらに、MLIR には強力な接着機能もあり、さまざまなプログラミング言語やツールと統合できます。 MLIR は、コンパイラおよび言語ツールの開発者に、コンパイルの最適化とコード生成を容易にする統合された柔軟な中間表現言語を提供する、強力なコンパイラインフラストラクチャおよびツールライブラリです。

(2) 動的形状のコンパイル

静的形状の制限により、深層学習モデルを作成する際に、各入力と出力の形状を事前に決定する必要があります。、実行時に変更することはできません。これにより、深層学習モデルの柔軟性とスケーラビリティが制限されるため、動的形状をサポートする深層学習コンパイラが必要になります。

3.3.2 精度調整

● 量子化を実現する方法の 1 つは、FP16

を使用することです。

FP16 計算の最適化:MLP レイヤーで FP32 計算を FP16 に置き換えることで、GPU 使用量を大幅に削減できます (相対的に 13% の減少)

FP16 を調整するプロセスで、精度の最適化にホワイトボックス方式を選択しますつまり、どのレイヤーが低精度の計算を使用するかをより詳細に制御でき、経験に基づいて継続的に調整および最適化できるようになります。この手法はモデル構造を比較的深く理解して解析する必要があり、モデルの特性や計算要件に応じて的を絞った調整を行うことができ、より高いコストパフォーマンスを実現します。

これに対して、ブラックボックス手法は比較的単純で、モデルの内部構造を理解する必要はなく、特定の許容しきい値を設定するだけで精度の最適化が完了します。この方法の利点は、操作が簡単で、モデルの生徒に対する要件が比較的低いことですが、特定のパフォーマンスと精度が犠牲になる可能性があります。

したがって、精度の最適化にホワイトボックス手法を選択するかブラックボックス手法を選択するかは、特定の状況に応じて決定する必要があります。より高いパフォーマンスと精度を追求する必要があり、十分な経験と技術力がある場合は、ホワイトボックスアプローチの方が適している可能性があります。操作の単純さと迅速な反復がより重要な場合は、ブラックボックスアプローチの方が実用的である可能性があります。

4. 概要

2021 年の初めから 2022 年末までに、このプロジェクトの最適化により、Xiaohongshu の推論計算能力は 30 倍に増加し、主要なユーザー指標は 10 増加しました。 % になり、同時にクラスターの累積節約リソースも 50% に達しました。私たちの意見では、Xiaohongshu の AI テクノロジーの開発はビジネスニーズを重視し、テクノロジーとビジネスの発展のバランスをとる必要があります。技術革新を達成する一方で、コスト、効率、持続可能性も考慮する必要があります。最適化プロセス中に考慮すべき点は次のとおりです。

アルゴリズムを最適化し、システムのパフォーマンスを向上させます。 これは、Xiaohongshu 機械学習チームの中核となる使命です。アルゴリズムを最適化し、システム化を改善することで、ビジネスニーズをより適切にサポートし、ユーザーエクスペリエンスを向上させることができます。ただし、リソースが限られている場合、チームは最適化の焦点を明確にし、過剰な最適化を避ける必要があります。

#インフラストラクチャを構築し、データ処理機能を向上させます。インフラストラクチャは、AI アプリケーションをサポートするために重要です。 Xiaohonshu は、コンピューティング機能とストレージ機能、データセンター、ネットワークアーキテクチャを含むインフラストラクチャ構築へのさらなる投資を検討できます。さらに、機械学習およびデータサイエンスアプリケーションをより適切にサポートするためにデータ処理機能を向上させることも非常に重要です。

チームの人材密度と組織構造を改善します。優れた機械学習チームには、データサイエンティスト、アルゴリズムエンジニア、ソフトウェアエンジニアなど、さまざまなスキルや背景を持つ人材が必要です。組織構造の最適化は、チームの効率とイノベーション能力の向上にも役立ちます。

Win-Winの協力とオープンイノベーション。 Xiaohongshu は引き続き他の企業、学術機関、オープンソースコミュニティと協力して AI テクノロジーの開発を共同で推進していきます。これにより、Xiaohongshu はより多くのリソースと知識を獲得し、よりオープンで革新的な組織になることができます。

このソリューションは、Xiaohongshu の機械学習アーキテクチャを業界トップレベルに引き上げます。今後も引き続きエンジンのアップグレードを推進し、コスト削減と効率の向上を図り、新技術を導入してXiaohongshuの機械学習の生産性を向上させ、Xiaohongshuの実際のビジネスシナリオをさらに統合し、単一モジュールの最適化からシステム全体の最適化にアップグレードしていきます。さらに、ビジネス側トラフィックのパーソナライズされた差別化特性を導入して、究極のコスト削減と効率の向上を実現します。高い理想を持った方の参加をお待ちしています！

5.チーム

Zhang Chulan (Du Zeyu): ビジネステクノロジー部

は華東師範大学を卒業し、責任者を務めています商用化エンジンチームの担当者で、主に商用オンラインサービスの構築を担当します。

Lu Guang (Peng Peng): インテリジェント流通部門

上海交通大学を卒業し、主に Lambda GPU の最適化を担当する機械学習エンジンエンジニアです。

Ian (Chen Jianxin): インテリジェント流通部門

北京郵電大学を卒業した機械学習エンジンのエンジニアで、主にラムダパラメータを担当していますサーバーとGPUの最適化。

赤羽 (Liu Zhaoyu) : インテリジェント流通部門

清華大学を卒業し、機械学習エンジンのエンジニアであり、主に関連する研究と探索を担当しています。機能エンジンの方向性。

特別な感謝: インテリジェント流通学科の学生の皆様

以上が計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7434

CakePHP チュートリアル

1359

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

機械学習とデータサイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニングセットスコアとひどい検証セット/テストスコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニングセットとしての小さなデータセットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

Beelink EX グラフィックスカード拡張ドックは、GPU パフォーマンスの損失ゼロを約束します Aug 11, 2024 pm 09:55 PM

最近発売された Beelink GTi 14 の際立った機能の 1 つは、ミニ PC の下に隠し PCIe x8 スロットがあることです。同社は発売時に、これにより外部グラフィックスカードをシステムに接続しやすくなると述べた。ビーリンクにはnがあります

AMD FSR 3.1 のリリース: フレーム生成機能は Nvidia GeForce RTX および Intel Arc GPU でも動作します Jun 29, 2024 am 06:57 AM

AMD は、今年の第 2 四半期に FSR 3.1 をリリースするという 24 年 3 月の当初の約束を果たしました。 3.1 リリースを本当に際立たせているのは、フレーム生成側がアップスケーリング側から切り離されていることです。これにより、Nvidia および Intel GPU の所有者は FSR 3 を適用できるようになります。

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマートポインター、最新のスレッドライブラリ、SIMD 命令、サードパーティライブラリの使用、コーディングスタイルガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

説明可能な AI: 複雑な AI/ML モデルの説明 Jun 03, 2024 pm 10:08 PM

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

See all articles

計算能力がボトルネックにならないように、Xiaohongshu 機械学習異種ハードウェア推論最適化手法

1. 背景

3.GPU 最適化の実践

3.1 システムの最適化

4. 概要

5.チーム

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック