Maison développement back-end C++ Comprendre et résoudre le faux partage dans les applications multithread avec un problème réel que j'ai rencontré

Comprendre et résoudre le faux partage dans les applications multithread avec un problème réel que j'ai rencontré

Dec 06, 2024 am 02:08 AM

Understanding and Solving False Sharing in Multi-threaded Applications with an actual issue I had

Récemment, je travaillais sur une implémentation multithread d'une fonction pour calculer la distribution de Poisson (amath_pdist). L'objectif était de répartir la charge de travail sur plusieurs threads pour améliorer les performances, en particulier pour les grandes baies. Cependant, au lieu d’atteindre l’accélération attendue, j’ai remarqué un ralentissement significatif à mesure que la taille du tableau augmentait.

Après quelques investigations, j'ai découvert le coupable : faux partage. Dans cet article, j'expliquerai ce qu'est un faux partage, montrerai le code d'origine à l'origine du problème et partagerai les correctifs qui ont conduit à une amélioration substantielle des performances.


Le problème : faux partage dans du code multithread

Le

Faux partage se produit lorsque plusieurs threads fonctionnent sur différentes parties d'un tableau partagé, mais que leurs données résident dans la même ligne de cache. Les lignes de cache sont la plus petite unité de données transférée entre la mémoire et le cache du processeur (généralement 64 octets). Si un thread écrit sur une partie d’une ligne de cache, cela invalide la ligne pour les autres threads, même s’ils travaillent sur des données logiquement indépendantes. Cette invalidation inutile entraîne une dégradation significative des performances due au rechargement répété des lignes de cache.

Voici une version simplifiée de mon code original :

void *calculate_pdist_segment(void *data) {
    struct pdist_segment *segment = (struct pdist_segment *)data;
    size_t interval_a = segment->interval_a, interval_b = segment->interval_b;
    double lambda = segment->lambda;
    int *d = segment->data;

    for (size_t i = interval_a; i < interval_b; i++) {
        segment->pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1);
    }
    return NULL;
}

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist = malloc(sizeof(double) * n_elements);
    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i < n_threads; i++) {
        segments[i].data = data;
        segments[i].lambda = lambda;
        segments[i].pdist = pdist;
        segments[i].interval_a = step * i;
        segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1));
        pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]);
    }

    for (size_t i = 0; i < n_threads; i++) {
        pthread_join(threads[i], NULL);
    }

    return pdist;
}
Copier après la connexion

Où le problème se produit

Dans le code ci-dessus :

  • Le tableau pdist est partagé entre tous les threads.
  • Chaque thread écrit dans une plage spécifique d'index (interval_a à interval_b).
  • Aux limites des segments, les index adjacents peuvent résider dans la même ligne de cache. Par exemple, si pdist[249999] et pdist[250000] partagent une ligne de cache, le thread 1 (travaillant sur pdist[249999]) et le thread 2 (travaillant sur pdist[250000]) invalident mutuellement leurs lignes de cache.

Ce problème évoluait mal avec des tableaux plus grands. Même si le problème des limites peut sembler minime, le grand nombre d'itérations a amplifié le coût des invalidations de cache, entraînant des secondes de surcharge inutile.


La solution : aligner la mémoire sur les limites des lignes de cache

Pour résoudre le problème, j'ai utilisé posix_memalign pour m'assurer que le tableau pdist était aligné sur les limites de 64 octets. Cela garantit que les threads fonctionnent sur des lignes de cache complètement indépendantes, éliminant ainsi les faux partages.

Voici le code mis à jour :

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist;
    if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) {
        perror("Failed to allocate aligned memory");
        return NULL;
    }

    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i < n_threads; i++) {
        segments[i].data = data;
        segments[i].lambda = lambda;
        segments[i].pdist = pdist;
        segments[i].interval_a = step * i;
        segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1));
        pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]);
    }

    for (size_t i = 0; i < n_threads; i++) {
        pthread_join(threads[i], NULL);
    }

    return pdist;
}
Copier après la connexion

Pourquoi est-ce que ça marche ?

  1. Mémoire Alignée :

    • En utilisant posix_memalign, le tableau démarre sur une limite de ligne de cache.
    • La plage attribuée à chaque thread s'aligne parfaitement sur les lignes de cache, évitant ainsi les chevauchements.
  2. Pas de partage de ligne de cache :

    • Les threads fonctionnent sur des lignes de cache distinctes, éliminant les invalidations causées par un faux partage.
  3. Efficacité du cache améliorée :

    • Les modèles d'accès séquentiel à la mémoire s'alignent bien avec les prérécupérateurs de processeur, améliorant encore les performances.

Résultats et points à retenir

Après l'application du correctif, le temps d'exécution de la fonction amath_pdist a considérablement diminué. Pour un ensemble de données que je testais, la durée de l'horloge murale est passée de 10,92 secondes à 0,06 seconde.

Leçons clés :

  1. Le Faux partage est un problème subtil mais critique dans les applications multithread. Même de petits chevauchements aux limites des segments peuvent dégrader les performances.
  2. L'alignement de la mémoire à l'aide de posix_memalign est un moyen simple et efficace de résoudre les faux partages. L'alignement de la mémoire sur les limites des lignes de cache garantit que les threads fonctionnent de manière indépendante.
  3. Analysez toujours votre code pour détecter les problèmes liés au cache lorsque vous travaillez avec de grands tableaux ou un traitement parallèle. Des outils comme perf ou valgrind peuvent aider à identifier les goulots d'étranglement.

Merci d'avoir lu !

Pour toute personne curieuse de connaître le code, vous pouvez le trouver ici

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1669
14
Tutoriel PHP
1273
29
Tutoriel C#
1256
24
C # vs C: Histoire, évolution et perspectives d'avenir C # vs C: Histoire, évolution et perspectives d'avenir Apr 19, 2025 am 12:07 AM

L'histoire et l'évolution de C # et C sont uniques, et les perspectives d'avenir sont également différentes. 1.C a été inventé par Bjarnestrousstrup en 1983 pour introduire une programmation orientée objet dans le langage C. Son processus d'évolution comprend plusieurs normalisations, telles que C 11, introduisant des mots clés automobiles et des expressions de lambda, C 20 introduisant les concepts et les coroutines, et se concentrera sur les performances et la programmation au niveau du système à l'avenir. 2.C # a été publié par Microsoft en 2000. Combinant les avantages de C et Java, son évolution se concentre sur la simplicité et la productivité. Par exemple, C # 2.0 a introduit les génériques et C # 5.0 a introduit la programmation asynchrone, qui se concentrera sur la productivité et le cloud computing des développeurs à l'avenir.

C # vs C: courbes d'apprentissage et expérience du développeur C # vs C: courbes d'apprentissage et expérience du développeur Apr 18, 2025 am 12:13 AM

Il existe des différences significatives dans les courbes d'apprentissage de l'expérience C # et C et du développeur. 1) La courbe d'apprentissage de C # est relativement plate et convient au développement rapide et aux applications au niveau de l'entreprise. 2) La courbe d'apprentissage de C est raide et convient aux scénarios de contrôle haute performance et de bas niveau.

C et XML: Explorer la relation et le soutien C et XML: Explorer la relation et le soutien Apr 21, 2025 am 12:02 AM

C interagit avec XML via des bibliothèques tierces (telles que TinyXML, PUGIXML, XERCES-C). 1) Utilisez la bibliothèque pour analyser les fichiers XML et les convertir en structures de données propices à C. 2) Lors de la génération de XML, convertissez la structure des données C au format XML. 3) Dans les applications pratiques, le XML est souvent utilisé pour les fichiers de configuration et l'échange de données afin d'améliorer l'efficacité du développement.

Qu'est-ce que l'analyse statique en C? Qu'est-ce que l'analyse statique en C? Apr 28, 2025 pm 09:09 PM

L'application de l'analyse statique en C comprend principalement la découverte de problèmes de gestion de la mémoire, la vérification des erreurs de logique de code et l'amélioration de la sécurité du code. 1) L'analyse statique peut identifier des problèmes tels que les fuites de mémoire, les doubles versions et les pointeurs non initialisés. 2) Il peut détecter les variables inutilisées, le code mort et les contradictions logiques. 3) Les outils d'analyse statique tels que la couverture peuvent détecter le débordement de tampon, le débordement entier et les appels API dangereux pour améliorer la sécurité du code.

Comment utiliser la bibliothèque Chrono en C? Comment utiliser la bibliothèque Chrono en C? Apr 28, 2025 pm 10:18 PM

L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron

Au-delà du battage médiatique: évaluer la pertinence de C aujourd'hui Au-delà du battage médiatique: évaluer la pertinence de C aujourd'hui Apr 14, 2025 am 12:01 AM

C a toujours une pertinence importante dans la programmation moderne. 1) Les capacités de fonctionnement matériel et directes en font le premier choix dans les domaines du développement de jeux, des systèmes intégrés et de l'informatique haute performance. 2) Les paradigmes de programmation riches et les fonctionnalités modernes telles que les pointeurs intelligents et la programmation de modèles améliorent sa flexibilité et son efficacité. Bien que la courbe d'apprentissage soit raide, ses capacités puissantes le rendent toujours important dans l'écosystème de programmation d'aujourd'hui.

L'avenir de C: adaptations et innovations L'avenir de C: adaptations et innovations Apr 27, 2025 am 12:25 AM

L'avenir de C se concentrera sur l'informatique parallèle, la sécurité, la modularisation et l'apprentissage AI / Machine: 1) L'informatique parallèle sera améliorée par des fonctionnalités telles que les coroutines; 2) La sécurité sera améliorée par le biais de mécanismes de vérification et de gestion de la mémoire plus stricts; 3) La modulation simplifiera l'organisation et la compilation du code; 4) L'IA et l'apprentissage automatique inviteront C à s'adapter à de nouveaux besoins, tels que l'informatique numérique et le support de programmation GPU.

C: Est-ce que je meure ou est simplement en évolution? C: Est-ce que je meure ou est simplement en évolution? Apr 24, 2025 am 12:13 AM

C isnotdying; il se révolte.1) C reste réévèreurtoitSversatity et effecciation en termes

See all articles