最近,我正在研究計算泊松分佈(amath_pdist)的函數的多執行緒實作。目標是將工作負載分配到多個執行緒以提高效能,特別是對於大型陣列。然而,我注意到隨著數組大小的增加,速度明顯減慢,而不是達到預期的加速。
經過一番調查,我發現了罪魁禍首:虛假分享。在這篇文章中,我將解釋什麼是錯誤共享,展示導致問題的原始程式碼,並分享導致效能大幅提升的修復方法。
錯誤共享當多個執行緒在共享陣列的不同部分工作時發生,但它們的資料駐留在同一個快取行中。高速緩存行是記憶體和 CPU 快取之間傳輸的最小資料單元(通常為 64 位元組)。如果一個執行緒寫入快取行的一部分,就會使其他執行緒的該行無效,即使它們正在處理邏輯上獨立的資料。由於重複重新載入快取行,這種不必要的失效會導致效能顯著下降。
這是我的原始程式碼的簡化版本:
void *calculate_pdist_segment(void *data) { struct pdist_segment *segment = (struct pdist_segment *)data; size_t interval_a = segment->interval_a, interval_b = segment->interval_b; double lambda = segment->lambda; int *d = segment->data; for (size_t i = interval_a; i < interval_b; i++) { segment->pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1); } return NULL; } double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist = malloc(sizeof(double) * n_elements); pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i < n_threads; i++) { segments[i].data = data; segments[i].lambda = lambda; segments[i].pdist = pdist; segments[i].interval_a = step * i; segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1)); pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]); } for (size_t i = 0; i < n_threads; i++) { pthread_join(threads[i], NULL); } return pdist; }
上面的程式碼中:
這個問題對於較大的陣列來說擴充性很差。雖然邊界問題看起來很小,但迭代的絕對數量放大了快取失效的成本,導致數秒鐘的不必要的開銷。
為了解決這個問題,我使用 posix_memalign 來確保 pdist 陣列與 64 位元組邊界 對齊。這保證了執行緒在完全獨立的快取行上運行,消除了錯誤共享。
這是更新後的程式碼:
double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) { double *pdist; if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) { perror("Failed to allocate aligned memory"); return NULL; } pthread_t threads[n_threads]; struct pdist_segment segments[n_threads]; size_t step = n_elements / n_threads; for (size_t i = 0; i < n_threads; i++) { segments[i].data = data; segments[i].lambda = lambda; segments[i].pdist = pdist; segments[i].interval_a = step * i; segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1)); pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]); } for (size_t i = 0; i < n_threads; i++) { pthread_join(threads[i], NULL); } return pdist; }
對齊記憶體:
無快取線共享:
提高快取效率:
應用修復後,amath_pdist 函數的運行時間顯著下降。對於我正在測試的資料集,掛鐘時間從 10.92 秒下降到 0.06 秒。
感謝您的閱讀!
對於任何對程式碼感興趣的人,您可以在這裡找到它
以上是了解並解決多線程應用程式中的錯誤共享以及我遇到的實際問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!