C++ 함수 성능 최적화의 메모리 정렬 기술-C++-php.cn

C++ 함수 성능 최적화의 메모리 정렬 기술

PHPz

풀어 주다： 2024-04-23 21:42:02

원래의

629명이 탐색했습니다.

메모리 정렬은 특정 경계의 데이터 구조에 변수를 배치하여 메모리 액세스 속도를 향상시킵니다. C++에서는 속성((aligned)) 매크로나 #pragma pack 지시문을 통해 메모리 정렬을 수행할 수 있습니다. 예를 들어 구조체 멤버를 4바이트 경계에 맞추면 최신 컴퓨터가 4바이트 블록으로 메모리에 액세스하기 때문에 해당 멤버의 데이터에 액세스하는 성능이 크게 향상될 수 있습니다. 벤치마크 테스트에서는 정렬된 구조가 정렬되지 않은 구조에 비해 거의 두 배 빠르게 액세스되는 것으로 나타났습니다.

C++ 函数性能优化中的内存对齐技术

C++ 함수 성능 최적화의 메모리 정렬 기술

소개

메모리 정렬은 특정 크기의 정수로 나누어질 수 있도록 데이터 구조의 메모리 주소에 변수를 배치하는 것을 말합니다. C++에서는 __attribute__ ((aligned)) 매크로나 #pragma pack 지시문을 사용하여 메모리 정렬을 수행할 수 있습니다. __attribute__ ((aligned)) 宏或 #pragma pack 指令来实现。

原理

现代计算机以特定大小的块（称为缓存行）访问内存。如果变量的地址与缓存行的边界对齐，则访问该变量的数据可以一次性加载到缓存中。这可以显著提高内存访问速度。

实战案例

考虑以下结构体：

struct UnalignedStruct {
  int x;
  char y;
  double z;
};

로그인 후 복사

此结构体未对齐，因为它没有将成员放置在内存地址的 4 字节边界上。可以通过使用 __attribute__ ((aligned)) 宏强制对齐此结构体：

struct AlignedStruct {
  int x;
  char y __attribute__ ((aligned (4)));
  double z;
};

로그인 후 복사

现在，y 成员的地址将对齐到 4 字节边界上，这可以提高访问 y

원리

현대 컴퓨터는 캐시 라인이라고 불리는 특정 크기의 블록으로 메모리에 액세스합니다. 변수의 주소가 캐시 라인 경계와 일치하면 해당 변수에 접근하는 데이터를 한 번에 캐시에 로드할 수 있습니다. 이렇게 하면 메모리 액세스 속도가 크게 향상될 수 있습니다.

실용 예

다음 구조를 고려하세요. 🎜

#include <iostream>
#include <benchmark/benchmark.h>

struct UnalignedStruct {
  int x;
  char y;
  double z;
};

struct AlignedStruct {
  int x;
  char y __attribute__ ((aligned (4)));
  double z;
};

void BM_UnalignedAccess(benchmark::State& state) {
  UnalignedStruct s;
  for (auto _ : state) {
    benchmark::DoNotOptimize(s.y);  // Prevent compiler optimization
    benchmark::ClobberMemory();
  }
}

void BM_AlignedAccess(benchmark::State& state) {
  AlignedStruct s;
  for (auto _ : state) {
    benchmark::DoNotOptimize(s.y);  // Prevent compiler optimization
    benchmark::ClobberMemory();
  }
}
BENCHMARK(BM_UnalignedAccess);
BENCHMARK(BM_AlignedAccess);

로그인 후 복사

🎜이 구조는 메모리 주소의 4바이트 경계에 멤버를 배치하지 않기 때문에 정렬되지 않습니다. __attribute__ ((aligned)) 매크로를 사용하여 이 구조를 강제로 정렬할 수 있습니다. 🎜

Benchmark                         Time             CPU   Iterations
-----------------------------------------------------------------------------------
BM_UnalignedAccess             12.598 ns        12.591 ns     5598826
BM_AlignedAccess                6.623 ns         6.615 ns    10564496

로그인 후 복사

🎜이제 y 멤버의 주소는 4- 작동하는 바이트 경계 y 데이터 액세스 성능을 향상시킵니다. 🎜🎜🎜성능 개선🎜🎜🎜다음 벤치마크는 정렬된 구조체와 정렬되지 않은 구조체의 메모리 액세스 성능을 비교합니다. 🎜rrreee🎜이 벤치마크를 실행하면 다음 결과가 생성됩니다. 🎜rrreee🎜결과에서 볼 수 있듯이 정렬된 구조체 액세스 속도는 거의 두 배 빠릅니다. 정렬되지 않은 구조. 🎜

위 내용은 C++ 함수 성능 최적화의 메모리 정렬 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!