目录
对 Intel Sandybridge 系列 CPU 中的管道进行去优化
首页 后端开发 C++ 如何进一步优化蒙特卡洛模拟以显着减慢英特尔 Sandybridge 系列 CPU 的执行速度?

如何进一步优化蒙特卡洛模拟以显着减慢英特尔 Sandybridge 系列 CPU 的执行速度?

Nov 29, 2024 am 12:57 AM

How Can a Monte Carlo Simulation Be Further Deoptimized to Significantly Slow Down Execution on an Intel Sandybridge-Family CPU?

对 Intel Sandybridge 系列 CPU 中的管道进行去优化

目标: 通过利用以下知识来悲观程序运行速度较慢英特尔 i7

问题:

作业提供了两个选项:油石或蒙特卡罗程序。学生选择了蒙特卡洛模拟程序,但他们的悲观化努力只增加了代码运行时间一秒。

问题:

学生如何进一步悲观化代码实现更有意义速度变慢?

答案:

一般策略:

  • 引入不可预测的分支来增加误预测惩罚。
  • 延长循环携带的依赖链以减少指令级别并行性。
  • 使用较慢的 FP 操作和 div,尤其是 exp 和 log 函数。

Uarch 特定想法:

具有内在函数():

  • 使用 movnti 从缓存中逐出数据。
  • 在 FP 数学运算之间使用整数洗牌以导致旁路延迟。
  • 避免混合 SSE 和 AVX 指令而不使用vzeroupper。

使用(内联)asm:

  • 强制对齐问题以破坏 uop 缓存。
  • 使用 self-修改代码以触发管道

导致缓存未命中和内存减慢:

  • 执行狭窄存储导致存储转发停顿。
  • 替换具有大结构成员的局部变量来控制内存布局。
  • 安排内存布局以增加缓存未命中和页面拆分加载。
  • 使用未对齐的变量来跨越缓存行或页面边界。
  • 以非循环方式循环数组-连续顺序。
  • 考虑使用链表而不是

其他技术:

  • 使用 std::atomic;循环计数器用于较慢的原子操作。
  • 使用 -m32 或 -march=i386 进行编译以强制减慢代码生成速度。
  • 强制使用较低精度的长双精度计算以获得额外的速度。
  • 经常将CPU亲和力设置为不同的CPU。
  • 为上下文切换实现过多的系统调用

最后的注释:

  • 虽然这些技术有效地减慢了代码的速度,但它们的“恶魔般的无能”程度取决于给出的理由.
  • 作业讲师可能想让学生了解管道危险和依赖性,而不仅仅是应用这些技术盲目地。

以上是如何进一步优化蒙特卡洛模拟以显着减慢英特尔 Sandybridge 系列 CPU 的执行速度?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1653
14
CakePHP 教程
1413
52
Laravel 教程
1304
25
PHP教程
1251
29
C# 教程
1224
24
C语言数据结构:树和图的数据表示与操作 C语言数据结构:树和图的数据表示与操作 Apr 04, 2025 am 11:18 AM

C语言数据结构:树和图的数据表示与操作树是一个层次结构的数据结构由节点组成,每个节点包含一个数据元素和指向其子节点的指针二叉树是一种特殊类型的树,其中每个节点最多有两个子节点数据表示structTreeNode{intdata;structTreeNode*left;structTreeNode*right;};操作创建树遍历树(先序、中序、后序)搜索树插入节点删除节点图是一个集合的数据结构,其中的元素是顶点,它们通过边连接在一起边可以是带权或无权的数据表示邻

C语言文件操作难题的幕后真相 C语言文件操作难题的幕后真相 Apr 04, 2025 am 11:24 AM

文件操作难题的真相:文件打开失败:权限不足、路径错误、文件被占用。数据写入失败:缓冲区已满、文件不可写、磁盘空间不足。其他常见问题:文件遍历缓慢、文本文件编码不正确、二进制文件读取错误。

c语言函数的基本要求有哪些 c语言函数的基本要求有哪些 Apr 03, 2025 pm 10:06 PM

C语言函数是代码模块化和程序搭建的基础。它们由声明(函数头)和定义(函数体)组成。C语言默认使用值传递参数,但也可使用地址传递修改外部变量。函数可以有返回值或无返回值,返回值类型必须与声明一致。函数命名应清晰易懂,使用驼峰或下划线命名法。遵循单一职责原则,保持函数简洁性,以提高可维护性和可读性。

c语言函数名定义 c语言函数名定义 Apr 03, 2025 pm 10:03 PM

C语言函数名定义包括:返回值类型、函数名、参数列表和函数体。函数名应清晰、简洁、统一风格,避免与关键字冲突。函数名具有作用域,可在声明后使用。函数指针允许将函数作为参数传递或赋值。常见错误包括命名冲突、参数类型不匹配和未声明的函数。性能优化重点在函数设计和实现上,而清晰、易读的代码至关重要。

c语言函数的概念 c语言函数的概念 Apr 03, 2025 pm 10:09 PM

C语言函数是可重复利用的代码块,它接收输入,执行操作,返回结果,可将代码模块化提高可复用性,降低复杂度。函数内部机制包含参数传递、函数执行、返回值,整个过程涉及优化如函数内联。编写好的函数遵循单一职责原则、参数数量少、命名规范、错误处理。指针与函数结合能实现更强大的功能,如修改外部变量值。函数指针将函数作为参数传递或存储地址,用于实现动态调用函数。理解函数特性和技巧是编写高效、可维护、易理解的C语言程序的关键。

c上标3下标5怎么算 c上标3下标5算法教程 c上标3下标5怎么算 c上标3下标5算法教程 Apr 03, 2025 pm 10:33 PM

C35 的计算本质上是组合数学,代表从 5 个元素中选择 3 个的组合数,其计算公式为 C53 = 5! / (3! * 2!),可通过循环避免直接计算阶乘以提高效率和避免溢出。另外,理解组合的本质和掌握高效的计算方法对于解决概率统计、密码学、算法设计等领域的许多问题至关重要。

C#与C:历史,进化和未来前景 C#与C:历史,进化和未来前景 Apr 19, 2025 am 12:07 AM

C#和C 的历史与演变各有特色,未来前景也不同。1.C 由BjarneStroustrup在1983年发明,旨在将面向对象编程引入C语言,其演变历程包括多次标准化,如C 11引入auto关键字和lambda表达式,C 20引入概念和协程,未来将专注于性能和系统级编程。2.C#由微软在2000年发布,结合C 和Java的优点,其演变注重简洁性和生产力,如C#2.0引入泛型,C#5.0引入异步编程,未来将专注于开发者的生产力和云计算。

CS-第 3 周 CS-第 3 周 Apr 04, 2025 am 06:06 AM

算法是解决问题的指令集,其执行速度和内存占用各不相同。编程中,许多算法都基于数据搜索和排序。本文将介绍几种数据检索和排序算法。线性搜索假设有一个数组[20,500,10,5,100,1,50],需要查找数字50。线性搜索算法会逐个检查数组中的每个元素,直到找到目标值或遍历完整个数组。算法流程图如下:线性搜索的伪代码如下:检查每个元素:如果找到目标值:返回true返回falseC语言实现:#include#includeintmain(void){i

See all articles