Implémentation efficace d'un logarithme vectoriel dans AVX2
L'objectif est d'implémenter une version vectorisée efficace de la fonction log2 pour 4 nombres double précision en utilisant AVX2, comparable aux performances du __m256d _mm256_log2_pd de SVML (__m256d a) mais disponible sur d'autres compilateurs.
Approche de mise en œuvre
La stratégie courante pour log2(a) consiste à calculer la somme de l'exposant et du log2 du mantisse, qui a une plage limitée de 1,0 à 2,0. Cela nous permet d'utiliser une approximation polynomiale pour le log2 de la mantisse.
Optimisations
Pour améliorer précision, nous pouvons utiliser un rapport de deux polynômes au lieu d’un seul polynôme d’ordre élevé. Cette technique réduit les erreurs d'arrondi et maintient une haute précision.
De plus, nous pouvons ignorer les vérifications de dépassement insuffisant, de débordement ou de valeurs dénormalisées si l'on sait que les valeurs d'entrée sont positives et finies. Cette optimisation peut accélérer considérablement la mise en œuvre.
Considérations relatives aux performances
Précision et portée
La précision et la portée de la mise en œuvre dépendent du spécifique approximation polynomiale utilisée. Il est possible d'obtenir une très grande précision sur une plage spécifique de valeurs de mantisse.
Comparaison avec les implémentations existantes
L'implémentation proposée vise à fournir un log vectorisé rapide et efficace2 fonction qui peut être utilisée sur n’importe quelle plate-forme avec support AVX2. Il vise des performances élevées comparables à l'implémentation SVML des compilateurs Intel tout en étant également disponible pour d'autres compilateurs.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!