최근에 저는 포아송 분포를 계산하는 함수(amath_pdist)를 멀티스레드로 구현하는 작업을 하고 있었습니다. 목표는 작업 부하를 여러 스레드로 나누어 특히 대규모 어레이의 성능을 향상시키는 것이었습니다. 하지만 기대했던 속도 향상보다는 어레이의 크기가 커지면서 속도가 크게 느려지는 현상이 나타났습니다.
몇몇 조사 끝에 범인을 발견했습니다: 허위 공유. 이번 포스팅에서는 잘못된 공유가 무엇인지 설명하고, 문제를 일으키는 원본 코드를 보여주며, 실질적인 성능 향상을 가져온 수정 사항을 공유하겠습니다.
거짓 공유는 여러 스레드가 공유 배열의 서로 다른 부분에서 작동하지만 해당 데이터가 동일한 캐시 라인에 있는 경우에 발생합니다. 캐시 라인은 메모리와 CPU 캐시 사이에 전송되는 데이터의 가장 작은 단위입니다(일반적으로 64바이트). 한 스레드가 캐시 라인의 일부에 쓰면 다른 스레드가 논리적으로 독립적인 데이터에 대해 작업 중이더라도 해당 라인이 무효화됩니다. 이러한 불필요한 무효화는 캐시 라인을 반복적으로 다시 로드하여 상당한 성능 저하를 초래합니다.
다음은 원래 코드의 단순화된 버전입니다.
void *calculate_pdist_segment(void *data) { struct pdist_segment *segment = (struct pdist_segment *)data; size_t interval_a = segment->interval_a, interval_b = segment->interval_b; double lambda = segment->lambda; int *d = segment->data; for (size_t i = interval_a; i < interval_b; i++) { segment->pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1); } return NULL; } double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist = malloc(sizeof(double) * n_elements); pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i < n_threads; i++) { segments[i].data = data; segments[i].lambda = lambda; segments[i].pdist = pdist; segments[i].interval_a = step * i; segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1)); pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]); } for (size_t i = 0; i < n_threads; i++) { pthread_join(threads[i], NULL); } return pdist; }
위 코드에서:
이 문제는 더 큰 어레이에서는 제대로 확장되지 않았습니다. 경계 문제는 사소해 보일 수 있지만 반복 횟수가 너무 많아 캐시 무효화 비용이 확대되어 몇 초 동안 불필요한 오버헤드가 발생했습니다.
문제를 해결하기 위해 posix_memalign을 사용하여 pdist 배열이 64바이트 경계에 정렬되었는지 확인했습니다. 이는 스레드가 완전히 독립적인 캐시 라인에서 작동하도록 보장하여 잘못된 공유를 방지합니다.
업데이트된 코드는 다음과 같습니다.
double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist; if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) { perror("Failed to allocate aligned memory"); return NULL; } pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i < n_threads; i++) { segments[i].data = data; segments[i].lambda = lambda; segments[i].pdist = pdist; segments[i].interval_a = step * i; segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1)); pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]); } for (size_t i = 0; i < n_threads; i++) { pthread_join(threads[i], NULL); } return pdist; }
정렬된 메모리:
캐시 라인 공유 없음:
향상된 캐시 효율성:
수정 사항을 적용한 후 amat_pdist 함수의 런타임이 크게 떨어졌습니다. 제가 테스트한 데이터 세트의 경우 벽시계 시간이 10.92초에서 0.06초로 떨어졌습니다.
읽어주셔서 감사합니다!
코드가 궁금하신 분은 여기에서 찾으실 수 있습니다
위 내용은 내가 겪었던 실제 문제를 통해 멀티 스레드 응용 프로그램의 거짓 공유 이해 및 해결의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!