Comment pouvons-nous implémenter efficacement une fonction de logarithme vectorisé à l'aide d'AVX2 ?-C++-php.cn

Comment pouvons-nous implémenter efficacement une fonction de logarithme vectorisé à l'aide d'AVX2 ?

Mary-Kate Olsen

Libérer： 2024-11-28 07:47:13

original

508 Les gens l'ont consulté

How Can We Efficiently Implement a Vectorized Logarithm Function Using AVX2?

Implémentation efficace d'un logarithme vectoriel dans AVX2

L'objectif est d'implémenter une version vectorisée efficace de la fonction log2 pour 4 nombres double précision en utilisant AVX2, comparable aux performances du __m256d _mm256_log2_pd de SVML (__m256d a) mais disponible sur d'autres compilateurs.

Approche de mise en œuvre

La stratégie courante pour log2(a) consiste à calculer la somme de l'exposant et du log2 du mantisse, qui a une plage limitée de 1,0 à 2,0. Cela nous permet d'utiliser une approximation polynomiale pour le log2 de la mantisse.

Extraire l'exposant : Extrayez la partie exposant du vecteur d'entrée et reconvertissez-la en double précision valeur, en ajustant le biais.
Extraire et ajuster la mantisse : Extraire la mantisse et ajustez-le à une plage de [0,5, 1,0). Cela garantit que l'approximation polynomiale que nous utilisons sera plus précise.
approximation polynomiale : utilisez une approximation polynomiale pour calculer le log2 de la mantisse ajustée. Nous pouvons ajuster un polynôme en utilisant une expansion en série ou des techniques minimax.
Combinaison : Ajoutez l'exposant calculé et l'approximation polynomiale du log2 de la mantisse pour obtenir le résultat final log2.

Optimisations

Pour améliorer précision, nous pouvons utiliser un rapport de deux polynômes au lieu d’un seul polynôme d’ordre élevé. Cette technique réduit les erreurs d'arrondi et maintient une haute précision.

De plus, nous pouvons ignorer les vérifications de dépassement insuffisant, de débordement ou de valeurs dénormalisées si l'on sait que les valeurs d'entrée sont positives et finies. Cette optimisation peut accélérer considérablement la mise en œuvre.

Considérations relatives aux performances

Latence des instructions : Le matériel moderne a de longues latences d'instructions. Pour optimiser les performances, nous pouvons utiliser des schémas d'évaluation polynomiale plus rapides, tels que le schéma d'Estrin, qui permet l'exécution parallèle de termes polynomiaux.
Exploiter FMA : L'ajout de multiplication fusionné (FMA) l'enseignement est très efficace. En employant FMA dans notre mise en œuvre, nous pouvons accélérer le processus d'évaluation polynomiale.

Précision et portée

La précision et la portée de la mise en œuvre dépendent du spécifique approximation polynomiale utilisée. Il est possible d'obtenir une très grande précision sur une plage spécifique de valeurs de mantisse.

Comparaison avec les implémentations existantes

L'implémentation proposée vise à fournir un log vectorisé rapide et efficace2 fonction qui peut être utilisée sur n’importe quelle plate-forme avec support AVX2. Il vise des performances élevées comparables à l'implémentation SVML des compilateurs Intel tout en étant également disponible pour d'autres compilateurs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!