首页 后端开发 C++ 我们如何取消优化蒙特卡洛模拟以暴露英特尔 Sandybridge 管道瓶颈?

我们如何取消优化蒙特卡洛模拟以暴露英特尔 Sandybridge 管道瓶颈?

Dec 09, 2024 am 12:48 AM

How Can We Deoptimize a Monte Carlo Simulation to Expose Intel Sandybridge Pipeline Bottlenecks?

对 Intel Sandybridge 系列 CPU 中的管道进行去优化

此作业的目标是修改给定的程序以使其运行速度较慢,同时保持相同的算法。这是为了更深入地了解英特尔 i7 流水线的运行方式以及指令路径如何重新排序以引入危险。

程序概述

该程序是对欧洲普通看涨期权和看跌期权进行定价的蒙特卡罗模拟。它使用 Box-Muller 算法生成高斯随机数并执行大量模拟来估计期权价格。

恶魔般的无能

目标是故意创建会减慢程序执行速度的不合格代码。以下是一些用“恶魔般的无能”来证明这种方法的合理性的想法:

错误共享

  • 创建由多个线程访问的共享数据结构,但未正确同步。这可能会导致缓存行乒乓球和内存顺序错误推测管道清除。

存储转发停顿

  • 避免使用浮点变量的“-”运算符。相反,将高字节与 0x80 进行异或以翻转符号位,从而导致存储转发停顿。

过多的时间测量

  • 每次迭代的时间具有 CPUID/RDTSC 等繁重操作的主循环,它会序列化指令并停止

不利的数学运算

  • 将常量乘法替换为倒数除法(“为了便于阅读”)。除法较慢且未完全流水线化。

矢量化效率低下

  • 使用 AVX 对乘/平方运算进行向量化,但在调用之前无法使用 vzeroupper标量数学库函数,导致 AVXSSE 转换

数据结构

  • 将 RNG 输出存储在链表或乱序遍历的数组中。对每次迭代的结果执行相同的操作并在最后求和。这引入了指针追逐加载并破坏了缓存局部性。

多线程误用

  • 多线程程序,但强制两个线程共享相同的循环计数器(具有原子增量)来创建错误的共享和争用。这也引入了原子操作不必要的开销。

其他建议

  • 引入不可预测的分支来创建错误预测和管道刷新。
  • 使用恶魔般无能的理由来增加循环携带的依赖链的长度。
  • 引入非连续内存访问模式最大限度地减少缓存利用率。
  • 额外费用学分:编写自己的平方根算法来替换作业中提供的算法。

修改的影响

这些修改预计会显着通过引入管道停顿、缓存未命中和其他性能瓶颈来减慢程序的执行速度。该作业鼓励创造力和愿意探索悲观化代码同时保持原始算法的不同方法的意愿。

以上是我们如何取消优化蒙特卡洛模拟以暴露英特尔 Sandybridge 管道瓶颈?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

C语言数据结构:树和图的数据表示与操作 C语言数据结构:树和图的数据表示与操作 Apr 04, 2025 am 11:18 AM

C语言数据结构:树和图的数据表示与操作树是一个层次结构的数据结构由节点组成,每个节点包含一个数据元素和指向其子节点的指针二叉树是一种特殊类型的树,其中每个节点最多有两个子节点数据表示structTreeNode{intdata;structTreeNode*left;structTreeNode*right;};操作创建树遍历树(先序、中序、后序)搜索树插入节点删除节点图是一个集合的数据结构,其中的元素是顶点,它们通过边连接在一起边可以是带权或无权的数据表示邻

C语言文件操作难题的幕后真相 C语言文件操作难题的幕后真相 Apr 04, 2025 am 11:24 AM

文件操作难题的真相:文件打开失败:权限不足、路径错误、文件被占用。数据写入失败:缓冲区已满、文件不可写、磁盘空间不足。其他常见问题:文件遍历缓慢、文本文件编码不正确、二进制文件读取错误。

c语言函数的基本要求有哪些 c语言函数的基本要求有哪些 Apr 03, 2025 pm 10:06 PM

C语言函数是代码模块化和程序搭建的基础。它们由声明(函数头)和定义(函数体)组成。C语言默认使用值传递参数,但也可使用地址传递修改外部变量。函数可以有返回值或无返回值,返回值类型必须与声明一致。函数命名应清晰易懂,使用驼峰或下划线命名法。遵循单一职责原则,保持函数简洁性,以提高可维护性和可读性。

c语言函数名定义 c语言函数名定义 Apr 03, 2025 pm 10:03 PM

C语言函数名定义包括:返回值类型、函数名、参数列表和函数体。函数名应清晰、简洁、统一风格,避免与关键字冲突。函数名具有作用域,可在声明后使用。函数指针允许将函数作为参数传递或赋值。常见错误包括命名冲突、参数类型不匹配和未声明的函数。性能优化重点在函数设计和实现上,而清晰、易读的代码至关重要。

c语言函数的概念 c语言函数的概念 Apr 03, 2025 pm 10:09 PM

C语言函数是可重复利用的代码块,它接收输入,执行操作,返回结果,可将代码模块化提高可复用性,降低复杂度。函数内部机制包含参数传递、函数执行、返回值,整个过程涉及优化如函数内联。编写好的函数遵循单一职责原则、参数数量少、命名规范、错误处理。指针与函数结合能实现更强大的功能,如修改外部变量值。函数指针将函数作为参数传递或存储地址,用于实现动态调用函数。理解函数特性和技巧是编写高效、可维护、易理解的C语言程序的关键。

c上标3下标5怎么算 c上标3下标5算法教程 c上标3下标5怎么算 c上标3下标5算法教程 Apr 03, 2025 pm 10:33 PM

C35 的计算本质上是组合数学,代表从 5 个元素中选择 3 个的组合数,其计算公式为 C53 = 5! / (3! * 2!),可通过循环避免直接计算阶乘以提高效率和避免溢出。另外,理解组合的本质和掌握高效的计算方法对于解决概率统计、密码学、算法设计等领域的许多问题至关重要。

CS-第 3 周 CS-第 3 周 Apr 04, 2025 am 06:06 AM

算法是解决问题的指令集,其执行速度和内存占用各不相同。编程中,许多算法都基于数据搜索和排序。本文将介绍几种数据检索和排序算法。线性搜索假设有一个数组[20,500,10,5,100,1,50],需要查找数字50。线性搜索算法会逐个检查数组中的每个元素,直到找到目标值或遍历完整个数组。算法流程图如下:线性搜索的伪代码如下:检查每个元素:如果找到目标值:返回true返回falseC语言实现:#include#includeintmain(void){i

C#与C:历史,进化和未来前景 C#与C:历史,进化和未来前景 Apr 19, 2025 am 12:07 AM

C#和C 的历史与演变各有特色,未来前景也不同。1.C 由BjarneStroustrup在1983年发明,旨在将面向对象编程引入C语言,其演变历程包括多次标准化,如C 11引入auto关键字和lambda表达式,C 20引入概念和协程,未来将专注于性能和系统级编程。2.C#由微软在2000年发布,结合C 和Java的优点,其演变注重简洁性和生产力,如C#2.0引入泛型,C#5.0引入异步编程,未来将专注于开发者的生产力和云计算。

See all articles