首頁 > 後端開發 > C++ > 了解並解決多線程應用程式中的錯誤共享以及我遇到的實際問題

了解並解決多線程應用程式中的錯誤共享以及我遇到的實際問題

DDD
發布: 2024-12-06 02:08:16
原創
231 人瀏覽過

Understanding and Solving False Sharing in Multi-threaded Applications with an actual issue I had

最近,我正在研究計算泊松分佈(amath_pdist)的函數的多執行緒實作。目標是將工作負載分配到多個執行緒以提高效能,特別是對於大型陣列。然而,我注意到隨著數組大小的增加,速度明顯減慢,而不是達到預期的加速。

經過一番調查,我發現了罪魁禍首:虛假分享。在這篇文章中,我將解釋什麼是錯誤共享,展示導致問題的原始程式碼,並分享導致效能大幅提升的修復方法。


問題:多執行緒程式碼中的錯誤共享

錯誤共享當多個執行緒在共享陣列的不同部分工作時發生,但它們的資料駐留在同一個快取行中。高速緩存行是記憶體和 CPU 快取之間傳輸的最小資料單元(通常為 64 位元組)。如果一個執行緒寫入快取行的一部分,就會使其他執行緒的該行無效,即使它們正在處理邏輯上獨立的資料。由於重複重新載入快取行,這種不必要的失效會導致效能顯著下降。

這是我的原始程式碼的簡化版本:

void *calculate_pdist_segment(void *data) {
    struct pdist_segment *segment = (struct pdist_segment *)data;
    size_t interval_a = segment->interval_a, interval_b = segment->interval_b;
    double lambda = segment->lambda;
    int *d = segment->data;

    for (size_t i = interval_a; i < interval_b; i++) {
        segment->pdist[i] = pow(lambda, d[i]) * exp(-lambda) / tgamma(d[i] + 1);
    }
    return NULL;
}

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist = malloc(sizeof(double) * n_elements);
    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i < n_threads; i++) {
        segments[i].data = data;
        segments[i].lambda = lambda;
        segments[i].pdist = pdist;
        segments[i].interval_a = step * i;
        segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1));
        pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]);
    }

    for (size_t i = 0; i < n_threads; i++) {
        pthread_join(threads[i], NULL);
    }

    return pdist;
}
登入後複製

問題發生在哪裡

上面的程式碼中:

  • 陣列 pdist 在所有執行緒之間共用。
  • 每個執行緒寫入特定範圍的索引(interval_a 到interval_b)。
  • 在段邊界,相鄰索引可能駐留在同一快取行中。例如,如果 pdist[249999] 和 pdist[250000] 共用一個快取行,則執行緒 1(處理 pdist[249999])和執行緒 2(處理 pdist[250000])會使彼此的快取行無效。

這個問題對於較大的陣列來說擴充性很差。雖然邊界問題看起來很小,但迭代的絕對數量放大了快取失效的成本,導致數秒鐘的不必要的開銷。


解決方案:將記憶體與快取行邊界對齊

為了解決這個問題,我使用 posix_memalign 來確保 pdist 陣列與 64 位元組邊界 對齊。這保證了執行緒在完全獨立的快取行上運行,消除了錯誤共享。

這是更新後的程式碼:

double *amath_pdist(int *data, double lambda, size_t n_elements, size_t n_threads) {
    double *pdist;
    if (posix_memalign((void **)&pdist, 64, sizeof(double) * n_elements) != 0) {
        perror("Failed to allocate aligned memory");
        return NULL;
    }

    pthread_t threads[n_threads];
    struct pdist_segment segments[n_threads];
    size_t step = n_elements / n_threads;

    for (size_t i = 0; i < n_threads; i++) {
        segments[i].data = data;
        segments[i].lambda = lambda;
        segments[i].pdist = pdist;
        segments[i].interval_a = step * i;
        segments[i].interval_b = (i == n_threads - 1) ? n_elements : (step * (i + 1));
        pthread_create(&threads[i], NULL, calculate_pdist_segment, &segments[i]);
    }

    for (size_t i = 0; i < n_threads; i++) {
        pthread_join(threads[i], NULL);
    }

    return pdist;
}
登入後複製

為什麼這有效?

  1. 對齊記憶體:

    • 使用 posix_memalign,陣列從快取行邊界開始。
    • 每個執行緒的分配範圍與快取行整齊對齊,防止重疊。
  2. 無快取線共享:

    • 執行緒在不同的快取行上運行,消除了錯誤共享導致的失效。
  3. 提高快取效率

    • 順序記憶體存取模式與 CPU 預取器很好地配合,進一步提高效能。

結果和要點

應用修復後,amath_pdist 函數的運行時間顯著下降。對於我正在測試的資料集,掛鐘時間從 10.92 秒下降到 0.06 秒

主要經驗教訓:

  1. 錯誤共享是多執行緒應用程式中一個微妙但關鍵的問題。即使段邊界處的微小重疊也會降低性能。
  2. 記憶體對齊使用posix_memalign是解決錯誤共享的簡單有效的方法。將記憶體與快取行邊界對齊可確保執行緒獨立運行。
  3. 在處理大型陣列或平行處理時,始終分析程式碼是否有與快取相關的問題。 perf 或 valgrind 等工具可以幫助找出瓶頸。

感謝您的閱讀!

對於任何對程式碼感興趣的人,您可以在這裡找到它

以上是了解並解決多線程應用程式中的錯誤共享以及我遇到的實際問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:dev.to
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板