首頁 > 後端開發 > C++ > 為什麼在 Intel CPU 上用 64 位元替換 32 位元循環計數器會導致「_mm_popcnt_u64」效能下降?

為什麼在 Intel CPU 上用 64 位元替換 32 位元循環計數器會導致「_mm_popcnt_u64」效能下降?

Patricia Arquette
發布: 2024-12-03 15:04:10
原創
776 人瀏覽過

Why Does Replacing a 32-bit Loop Counter with 64-bit Cause Performance Degradation with `_mm_popcnt_u64` on Intel CPUs?

用64 位替換32 位循環計數器會在Intel CPU 上使用mm_popcnt_u64 引入瘋狂的性能偏差

摘要

文章調查了更換32 位元循環計數器時遇到的性能偏差使用_mm_popcnt_u64 內在函數在效能關鍵循環中使用 64 位元計數器。此問題導致 Intel CPU 的效能顯著下降,從而導致執行速度不同。作者探討了這種行為背後的原因並提供了潛在的解決方案。

詳細資訊

相關程式碼涉及一個迭代資料數組並執行 popcount 的循環使用 x86 內部指令進行操作。循環計數器變數最初是無符號整數,但將其替換為 64 位元無符號整數(uint64_t)導致效能下降約 50%。

為了調查原因,作者編譯了程式碼:各種最佳化標誌並分析了產生的彙編程式碼。他們觀察到32位元和64位元版本產生了不同的程序集,導致他們懷疑編譯器有錯誤。

但是,在使用不同的編譯器測試程式碼後,作者的結論是問題不在於由編譯器錯誤引起,而不是由硬體中的錯誤資料依賴性引起。 _mm_popcnt_u64 指令在 Intel Sandy/Ivy Bridge 和 Haswell 處理器上使用時,會表現出對目標暫存器的錯誤依賴性,其中指令會等到目標準備好後再執行。這種錯誤的依賴關係可能會跨循環迭代,從而阻止處理器並行化不同的迭代並導致效能損失。

作者提出了內聯彙編測試,透過隔離 popcount 操作並打破錯誤依賴關係來演示效能差異鏈。這些測試表明,錯誤的依賴關係對效能有顯著影響,導致速度從 18.6195 GB/s 降低至 8.49272 GB/s。

文章也強調該問題影響Intel CPU,而AMD 處理器似乎沒有這個假

解決方案

為了緩解此性能問題,作者建議了幾種解決方案:

  • 改用32 位元循環計數器用於此特定循環的64位計數器。
  • 如果使用 64 位元循環計數器必要時,在 popcount 操作中使用目標暫存器之前,透過明確清零目標暫存器來打破錯誤依賴鏈。
  • 使用能夠識別此錯誤依賴關係並產生程式碼來補償它的編譯器。

以上是為什麼在 Intel CPU 上用 64 位元替換 32 位元循環計數器會導致「_mm_popcnt_u64」效能下降?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板