> 백엔드 개발 > C++ > Intel의 컴파일러 종속성 없이 AVX2에서 log2(__m256d)를 효율적으로 구현하는 방법은 무엇입니까?

Intel의 컴파일러 종속성 없이 AVX2에서 log2(__m256d)를 효율적으로 구현하는 방법은 무엇입니까?

Patricia Arquette
풀어 주다: 2024-12-15 12:03:10
원래의
1014명이 탐색했습니다.

How to Efficiently Implement log2(__m256d) in AVX2 without Intel's Compiler Dependencies?

AVX2에서 log2(__m256d)의 효율적인 구현

AVX2의 맥락에서 Intel의 __m256d _mm256_log2_pd(__m256d a) 함수는 Intel 및 AMD 프로세서에서는 성능이 저하된 것으로 알려졌습니다. 이 문제를 해결하기 위해 효율성과 광범위한 호환성을 제공하는 대체 구현을 살펴보겠습니다.

log2 근사 전략

일반적으로 log2(ab)는 log2(a) log2로 계산됩니다. (비). a는 2^지수 가수로 표현되므로 계산은 지수 log2(가수)로 단순화됩니다. 제한된 범위의 가수(1.0 ~ 2.0)를 사용하면 log2(가수)를 계산하기 위한 맞춤형 다항식 근사가 가능합니다.

다항식 근사

테일러 급수 전개는 일반적으로 계수의 시작점으로 사용되지만, 목표 범위에 대한 오류를 최소화하려면 minimax 피팅을 권장합니다. 1.0에 가까운 값 주변의 더 높은 정밀도를 위해 mantissa-1.0을 다항식 입력으로 사용할 수 있으므로 상수 항이 필요하지 않습니다.

정확도 고려 사항

원하는 정확도 수준이 구현 선택에 영향을 미칩니다. . 정확도가 높을수록 일반적으로 추가 계산 단계로 인해 속도가 저하됩니다. Agner Fog의 VCL 라이브러리는 매우 정확한 기능을 제공하지만 모든 애플리케이션에 필수적이지 않을 수 있는 복잡한 기술을 사용합니다.

log2용 VCL 알고리즘

VCL의 log2 기능은 다음 단계로 구성됩니다.

  1. 지수 비트를 추출하여 float.
  2. 가수를 [0.5, 1.0) 또는 (0.5, 1.0]으로 조정하고 1.0을 뺍니다.
  3. 다항식 근사를 적용하여 x=1.0 주변의 log(x) 계산 , 단일 5차 다항식(이중) 또는 두 개의 5차 다항식 비율 사용 다항식(부동 소수점).
  4. 최종 결과를 얻으려면 지수 다항식_대략_log(가수)를 추가합니다.

정확도와 속도를 향상시키는 단계

정확도를 높이려면:

  • 보다 정확한 다항식 사용을 고려해보세요. 근사치입니다.
  • 잠재적인 정밀도 손실을 줄이려면 1.0으로 빼는 것을 피하세요(가수 - 1.0으로 유지).

속도를 최적화하려면:

  • 잘린 다항식을 사용하세요. 더 적은 수의 용어로 근사치를 구합니다.
  • 벡터화 사용 여러 값을 동시에 처리하는 지침.
  • 입력 값이 유한하고 양수인 것으로 알려진 경우 특수한 경우(예: 언더플로, 오버플로, 비정규)에 대한 불필요한 검사를 제거합니다.

위 내용은 Intel의 컴파일러 종속성 없이 AVX2에서 log2(__m256d)를 효율적으로 구현하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿