Intel プロセッサと AMD プロセッサの両方で AVX2 に log2(__m256d) を効率的に実装するにはどうすればよいですか?
AVX2 での log2(__m256d) の効率的な実装
SVML の __m256d _mm256_log2_pd (__m256d a) は Intel コンパイラに限定されており、AMD プロセッサでは速度が低下すると報告されています。代替実装は存在しますが、多くの場合、AVX2 ではなく SSE に重点が置かれています。この説明の目的は、さまざまなコンパイラと互換性があり、AMD プロセッサと Intel プロセッサの両方で良好に動作する、4 つの倍精度数値のベクトルに対する log2() の効率的な実装を提供することです。
従来の戦略
通常のアプローチでは、公式 log2(a*b) = log2(a) log2(b) を活用し、指数に単純化します。倍精度数値の場合は log2(仮数)。仮数の範囲は 1.0 ~ 2.0 に制限されており、log2(仮数) を取得するための多項式近似に適しています。
精度と精度
必要な精度と精度入力の範囲は実装に影響します。 Agner Fog の VCL は、エラー回避技術を使用して高精度を目指しています。ただし、近似 float log() を高速化するには、JRF の多項式実装を検討してください (こちら: http://jrfonseca.blogspot.ca/2008/09/fast-sse2-pow-tables-or-polynomials.html)。
VCL アルゴリズム
VCL log float 関数と double 関数は 2 つの部分からなるアプローチに従います:
- 指数と仮数の抽出: 指数は float に変換され、仮数は次のチェックで調整されます。 SQRT2*0.5 より小さい値。これに続いて、仮数から 1.0 が減算されます。
- 多項式近似: 調整された仮数に多項式近似が適用され、x=1.0 付近の log(x) が計算されます。倍精度の場合、VCL は 2 つの 5 次多項式の比率を使用します。
最終結果は、多項式近似に指数を加算することによって取得されます。 VCL には、丸め誤差を最小限に抑えるための追加の手順が含まれています。
代替多項式近似
精度を高めるために、VCL を直接使用できます。ただし、float の近似 log2() 実装を高速化するには、JRF の SSE2 関数を FMA を使用して AVX2 に移植することを検討してください。
丸め誤差の回避
VCL はさまざまな手法を使用して丸め誤差を軽減します。丸め誤差。
- ln2 をより小さな定数 (ln2_lo と ln2_hi) に分割する
- 行 res = nmul_add(x2, 0.5, x); を追加します。多項式評価へ
不要なステップの削除
値が有限で正であることがわかっている場合、次のチェックをコメントアウトすることでパフォーマンスを大幅に向上させることができます。アンダーフロー、オーバーフロー、または非正規化。
さらに読書
- [ミニマックス誤差を伴う多項式近似](http://gallium.inria.fr/blog/fast-vectorizable-math-estimate/)
- [ビットを使用した高速近似対数]操作](http://www.machinedlearnings.com/2011/06/fast-estimate-logarithm-exponential.html)
以上がIntel プロセッサと AMD プロセッサの両方で AVX2 に log2(__m256d) を効率的に実装するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











C言語データ構造:ツリーとグラフのデータ表現は、ノードからなる階層データ構造です。各ノードには、データ要素と子ノードへのポインターが含まれています。バイナリツリーは特別なタイプの木です。各ノードには、最大2つの子ノードがあります。データは、structreenode {intdata; structreenode*left; structreenode*右;}を表します。操作は、ツリートラバーサルツリー(前向き、順序、および後期)を作成します。検索ツリー挿入ノード削除ノードグラフは、要素が頂点であるデータ構造のコレクションであり、近隣を表す右または未照明のデータを持つエッジを介して接続できます。

ファイルの操作の問題に関する真実:ファイルの開きが失敗しました:不十分な権限、間違ったパス、およびファイルが占有されます。データの書き込みが失敗しました:バッファーがいっぱいで、ファイルは書き込みできず、ディスクスペースが不十分です。その他のFAQ:遅いファイルトラバーサル、誤ったテキストファイルエンコード、およびバイナリファイルの読み取りエラー。

C言語関数は、コードモジュール化とプログラム構築の基礎です。それらは、宣言(関数ヘッダー)と定義(関数体)で構成されています。 C言語は値を使用してパラメーターをデフォルトで渡しますが、外部変数はアドレスパスを使用して変更することもできます。関数は返品値を持つか、または持たない場合があり、返品値のタイプは宣言と一致する必要があります。機能の命名は、ラクダを使用するか、命名法を強調して、明確で理解しやすい必要があります。単一の責任の原則に従い、機能をシンプルに保ち、メンテナビリティと読みやすさを向上させます。

C言語関数名の定義には、以下が含まれます。関数名は、キーワードとの競合を避けるために、明確で簡潔で統一されている必要があります。関数名にはスコープがあり、宣言後に使用できます。関数ポインターにより、関数を引数として渡すか、割り当てます。一般的なエラーには、競合の命名、パラメータータイプの不一致、および未宣言の関数が含まれます。パフォーマンスの最適化は、機能の設計と実装に焦点を当てていますが、明確で読みやすいコードが重要です。

C言語関数は再利用可能なコードブロックです。彼らは入力を受け取り、操作を実行し、結果を返すことができます。これにより、再利用性が改善され、複雑さが軽減されます。関数の内部メカニズムには、パラメーターの渡し、関数の実行、および戻り値が含まれます。プロセス全体には、関数インラインなどの最適化が含まれます。単一の責任、少数のパラメーター、命名仕様、エラー処理の原則に従って、優れた関数が書かれています。関数と組み合わせたポインターは、外部変数値の変更など、より強力な関数を実現できます。関数ポインターは機能をパラメーターまたはストアアドレスとして渡し、機能への動的呼び出しを実装するために使用されます。機能機能とテクニックを理解することは、効率的で保守可能で、理解しやすいCプログラムを書くための鍵です。

C35の計算は、本質的に組み合わせ数学であり、5つの要素のうち3つから選択された組み合わせの数を表します。計算式はC53 = 5です! /(3! * 2!)。これは、ループで直接計算して効率を向上させ、オーバーフローを避けることができます。さらに、組み合わせの性質を理解し、効率的な計算方法をマスターすることは、確率統計、暗号化、アルゴリズム設計などの分野で多くの問題を解決するために重要です。

C#とCの歴史と進化はユニークであり、将来の見通しも異なります。 1.Cは、1983年にBjarnestrostrupによって発明され、オブジェクト指向のプログラミングをC言語に導入しました。その進化プロセスには、C 11の自動キーワードとラムダ式の導入など、複数の標準化が含まれます。C20概念とコルーチンの導入、将来のパフォーマンスとシステムレベルのプログラミングに焦点を当てます。 2.C#は2000年にMicrosoftによってリリースされました。CとJavaの利点を組み合わせて、その進化はシンプルさと生産性に焦点を当てています。たとえば、C#2.0はジェネリックを導入し、C#5.0は非同期プログラミングを導入しました。これは、将来の開発者の生産性とクラウドコンピューティングに焦点を当てます。

アルゴリズムは、問題を解決するための一連の指示であり、その実行速度とメモリの使用量はさまざまです。プログラミングでは、多くのアルゴリズムがデータ検索とソートに基づいています。この記事では、いくつかのデータ取得およびソートアルゴリズムを紹介します。線形検索では、配列[20,500,10,5,100,1,50]があることを前提としており、数50を見つける必要があります。線形検索アルゴリズムは、ターゲット値が見つかるまで、または完全な配列が見られるまで配列の各要素を1つずつチェックします。アルゴリズムのフローチャートは次のとおりです。線形検索の擬似コードは次のとおりです。各要素を確認します:ターゲット値が見つかった場合:return true return false c言語実装:#include#includeintmain(void){i
