> 백엔드 개발 > C++ > 내가 겪었던 실제 문제를 통해 멀티 스레드 응용 프로그램의 거짓 공유 이해 및 해결

내가 겪었던 실제 문제를 통해 멀티 스레드 응용 프로그램의 거짓 공유 이해 및 해결

DDD
풀어 주다: 2024-12-06 02:08:16
원래의
231명이 탐색했습니다.

Understanding and Solving False Sharing in Multi-threaded Applications with an actual issue I had

최근에 저는 포아송 분포를 계산하는 함수(amath_pdist)를 멀티스레드로 구현하는 작업을 하고 있었습니다. 목표는 작업 부하를 여러 스레드로 나누어 특히 대규모 어레이의 성능을 향상시키는 것이었습니다. 하지만 기대했던 속도 향상보다는 어레이의 크기가 커지면서 속도가 크게 느려지는 현상이 나타났습니다.

몇몇 조사 끝에 범인을 발견했습니다: 허위 공유. 이번 포스팅에서는 잘못된 공유가 무엇인지 설명하고, 문제를 일으키는 원본 코드를 보여주며, 실질적인 성능 향상을 가져온 수정 사항을 공유하겠습니다.


문제: 다중 스레드 코드의 잘못된 공유

거짓 공유는 여러 스레드가 공유 배열의 서로 다른 부분에서 작동하지만 해당 데이터가 동일한 캐시 라인에 있는 경우에 발생합니다. 캐시 라인은 메모리와 CPU 캐시 사이에 전송되는 데이터의 가장 작은 단위입니다(일반적으로 64바이트). 한 스레드가 캐시 라인의 일부에 쓰면 다른 스레드가 논리적으로 독립적인 데이터에 대해 작업 중이더라도 해당 라인이 무효화됩니다. 이러한 불필요한 무효화는 캐시 라인을 반복적으로 다시 로드하여 상당한 성능 저하를 초래합니다.

다음은 원래 코드의 단순화된 버전입니다.

void *calculate_pdist_segment(void *data) {
    struct pdist_segment *segment = (struct pdist_segment *)data;
    size_t interval_a = segment->interval_a, interval_b = segment->interval_b;
    double lambda = segment->lambda;
    int *d = segment->data;

    for (size_t i = interval_a; i < interval_b; i++) {
        segment->pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1);
    }
    return NULL;
}

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist = malloc(sizeof(double) * n_elements);
    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i < n_threads; i++) {
        segments[i].data = data;
        segments[i].lambda = lambda;
        segments[i].pdist = pdist;
        segments[i].interval_a = step * i;
        segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1));
        pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]);
    }

    for (size_t i = 0; i < n_threads; i++) {
        pthread_join(threads[i], NULL);
    }

    return pdist;
}
로그인 후 복사

문제가 발생하는 곳

위 코드에서:

  • 배열 pdist는 모든 스레드에서 공유됩니다.
  • 각 스레드는 특정 인덱스 범위(interval_a~interval_b)에 씁니다.
  • 세그먼트 경계에서 인접한 인덱스는 동일한 캐시 라인에 있을 수 있습니다. 예를 들어, pdist[249999]와 pdist[250000]가 캐시 라인을 공유하는 경우 스레드 1(pdist[249999]에서 작업)과 스레드 2(pdist[250000]에서 작업)는 서로의 캐시 라인을 무효화합니다.

이 문제는 더 큰 어레이에서는 제대로 확장되지 않았습니다. 경계 문제는 사소해 보일 수 있지만 반복 횟수가 너무 많아 캐시 무효화 비용이 확대되어 몇 초 동안 불필요한 오버헤드가 발생했습니다.


해결책: 캐시 라인 경계에 메모리 정렬

문제를 해결하기 위해 posix_memalign을 사용하여 pdist 배열이 64바이트 경계에 정렬되었는지 확인했습니다. 이는 스레드가 완전히 독립적인 캐시 라인에서 작동하도록 보장하여 잘못된 공유를 방지합니다.

업데이트된 코드는 다음과 같습니다.

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist;
    if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) {
        perror("Failed to allocate aligned memory");
        return NULL;
    }

    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i < n_threads; i++) {
        segments[i].data = data;
        segments[i].lambda = lambda;
        segments[i].pdist = pdist;
        segments[i].interval_a = step * i;
        segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1));
        pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]);
    }

    for (size_t i = 0; i < n_threads; i++) {
        pthread_join(threads[i], NULL);
    }

    return pdist;
}
로그인 후 복사

이것이 작동하는 이유는 무엇입니까?

  1. 정렬된 메모리:

    • posix_memalign을 사용하면 배열이 캐시 라인 경계에서 시작됩니다.
    • 각 스레드에 할당된 범위는 캐시 라인과 깔끔하게 정렬되어 중복을 방지합니다.
  2. 캐시 라인 공유 없음:

    • 스레드는 별개의 캐시 라인에서 작동하여 잘못된 공유로 인한 무효화를 제거합니다.
  3. 향상된 캐시 효율성:

    • 순차적 메모리 액세스 패턴은 CPU 프리페처와 잘 일치하여 성능을 더욱 향상시킵니다.

결과 및 시사점

수정 사항을 적용한 후 amat_pdist 함수의 런타임이 크게 떨어졌습니다. 제가 테스트한 데이터 세트의 경우 벽시계 시간이 10.92초에서 0.06초로 떨어졌습니다.

주요 교훈:

  1. 거짓 공유는 멀티 스레드 애플리케이션에서 미묘하지만 중요한 문제입니다. 세그먼트 경계에서 작은 겹침도 성능을 저하시킬 수 있습니다.
  2. posix_memalign을 사용하는 메모리 정렬은 잘못된 공유를 해결하는 간단하고 효과적인 방법입니다. 메모리를 캐시 라인 경계에 맞춰 정렬하면 스레드가 독립적으로 작동할 수 있습니다.
  3. 대규모 배열이나 병렬 처리 작업을 할 때는 항상 코드에서 캐시 관련 문제를 분석하세요. perf 또는 valgrind와 같은 도구는 병목 현상을 찾아내는 데 도움이 될 수 있습니다.

읽어주셔서 감사합니다!

코드가 궁금하신 분은 여기에서 찾으실 수 있습니다

위 내용은 내가 겪었던 실제 문제를 통해 멀티 스레드 응용 프로그램의 거짓 공유 이해 및 해결의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:dev.to
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿