对 Intel Sandybridge 系列 CPU 中的管道进行去优化
简介
任务是通过利用 Intel Sandybridge 处理器来降低 Monte-Carlo 模拟程序的效率 建筑学。该处理器具有无序管道,具有寄存器重命名和存储缓冲等功能,因此降低指令级并行性 (ILP) 并引入危险具有挑战性。
程序分析
该程序是蒙特卡罗模拟,用于计算欧洲普通看涨期权和看跌期权的价格。该程序的关键组件是:
- 迭代指定次数的循环
- 高斯随机数生成
- Black-Scholes 期权定价公式
优化技术
以下技术可用于降低程序效率:
-
错误依赖关系:在指令之间引入不必要的依赖关系,以增加危险停顿。
-
内存瓶颈:导致缓存未命中和内存访问由于数据不对齐或使用非连续内存访问模式而导致延迟。
-
延迟指令:使用具有较长延迟且可能被管道延迟的指令。
-
效率较低的运算:使用效率较低的数学运算,例如除法,而不是乘法。
-
分支错误预测:引入不可预测的分支导致管道刷新。
-
存储转发停顿:使用双精度高字节异或等技术引起存储转发
-
指令缓存未命中:将例程分成小块以导致指令缓存未命中。
具体建议
基于上述技术,这里有一些悲观化的具体建议节目:
- 使用 std::atomic; for 循环计数器并使其不对齐。
- 在非原子变量之间引入错误共享。
- 具有单个共享 std::atomic 循环计数器的多线程。
- 用关联/分配等价重写表达式以增加工作。
- 小心使用内部函数以避免管道停顿。
- 使用内联汇编来分解 uop 缓存。
- 使用 CPUID/RDTSC 来计时每次迭代并引发序列化.
- 以非连续顺序遍历数组并使用带填充和未对齐的数组元素。
- 使用 双精度 精度代替 float 来增加延迟。
- 强制从整数转换为浮点数,然后再返回。
-
使用 -O0 禁用编译器优化并使用-march=i386 用于较慢的指令。
- 经常设置不同 CPU 的 CPU 关联性。
以上是我们如何取消优化英特尔 Sandybridge 处理器的蒙特卡洛模拟?的详细内容。更多信息请关注PHP中文网其他相关文章!