Performances supérieures de BLAS en matière de multiplication matricielle
Vous avez constaté une différence frappante dans les performances de votre propre fonction de multiplication matricielle par rapport à celle de BLAS. Cela soulève deux questions :
1. Comment BLAS atteint-il des performances extrêmes ?
BLAS est divisé en trois niveaux basés sur des techniques de complexité et d'optimisation :
2. Pourquoi votre implémentation est-elle plus lente ?
Votre implémentation ne dispose pas de l'optimisation du cache utilisée par BLAS. Les opérations O(N^3) de multiplication matrice-matrice entraînent un mouvement de données important entre la mémoire et le cache. En mettant en œuvre des algorithmes dédiés qui minimisent les conflits de cache, BLAS accélère considérablement ce processus.
Bien que les compilateurs modernes aident à optimiser le code, ils ne peuvent pas compenser entièrement les techniques spécialisées utilisées dans les implémentations de BLAS comme ATLAS, GotoBLAS et OpenBLAS.
Algorithmes utilisés par BLAS
BLAS n'utilise pas d'algorithmes complexes comme Coppersmith-Winograd ou Strassen en raison de :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!