Intel Sandybridge 계열 CPU의 파이프라인용 프로그램 비최적화
소개
The 임무는 Intel Sandybridge 프로세서를 활용하여 Monte-Carlo 시뮬레이션 프로그램의 효율성을 줄이는 것입니다. 건축학. 이 프로세서에는 레지스터 이름 변경 및 버퍼링 저장과 같은 기능을 갖춘 비순차적 파이프라인이 있으므로 ILP(명령 수준 병렬 처리)를 줄이고 위험을 초래하는 것이 어렵습니다.
프로그램 분석
이 프로그램은 유럽 바닐라 콜 및 풋 옵션의 가격을 계산하는 몬테카를로 시뮬레이션입니다. 프로그램의 주요 구성 요소는 다음과 같습니다.
- 지정된 횟수만큼 반복하는 루프
- 가우스 난수 생성
- Black-Scholes 옵션 가격 공식
최적화 기술
다음 기술을 사용하여 프로그램 효율성을 줄일 수 있습니다.
-
잘못된 종속성: 위험 지연을 증가시키기 위해 명령어 간에 불필요한 종속성을 도입합니다.
-
메모리 병목 현상: 캐시 원인 데이터 정렬이 잘못되거나 연속되지 않은 메모리 액세스 패턴을 사용하여 누락 및 메모리 액세스 지연이 발생합니다.
-
지연된 명령어: 지연 시간이 길고 파이프라인에 의해 지연될 수 있는 명령어를 사용하세요.
-
덜 효율적인 연산: 대신 나눗셈과 같은 덜 효율적인 수학 연산을 사용합니다. 곱셈.
-
분기 예측 오류: 파이프라인 플러시를 유발하는 예측할 수 없는 분기를 도입합니다.
-
저장소 전달 지연: 높은 바이트의 double을 XOR하는 것과 같은 기술을 사용합니다. 매장 전달을 유발하다 지연.
-
명령어 캐시 미스: 루틴을 작은 덩어리로 나누어 명령 캐시 미스를 유발합니다.
구체적인 제안
위의 기술을 바탕으로 다음은 비관적인 상황을 비관하기 위한 몇 가지 구체적인 제안입니다. 프로그램:
- std::atomic을 사용하세요. for 루프 카운터를 사용하여 잘못 정렬합니다.
- 비원자 변수 간의 잘못된 공유를 유도합니다.
- 단일 공유 std::atomic루프 카운터를 사용하는 다중 스레드.
- 연관/분배 등가물로 표현식을 다시 작성하여
- 파이프라인 중단을 방지하려면 내장 함수를 주의 깊게 사용하세요.
- 인라인 어셈블리를 사용하여 uop 캐시를 분할합니다.
- CPUID/RDTSC를 사용하여 각 반복의 시간을 측정하고 직렬화를 유도합니다. .
- 연속되지 않은 순서로 배열을 탐색하고 패딩이 있고 잘못 정렬된 배열을 사용합니다. 요소.
- 지연 시간을 늘리려면 float 대신 이중 정밀도를 사용하세요.
- 정수에서 부동 소수점으로 변환한 후 다시 되돌리세요.
-
-O0을 사용하여 컴파일러 최적화를 비활성화하고 다음을 사용합니다. -march=i386 느린 명령의 경우.
- CPU 선호도를 다른 CPU에 자주 설정하세요.
위 내용은 Intel Sandybridge 프로세서에 대한 Monte-Carlo 시뮬레이션을 어떻게 최적화 해제할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!