32비트 루프 카운터를 64비트로 교체하면 Intel CPU에서 '_mm_popcnt_u64'로 인해 성능이 저하되는 이유는 무엇입니까?
32비트 루프 카운터를 64비트로 교체하면 Intel CPU에서 mm_popcnt_u64로 엄청난 성능 편차가 발생합니다
요약
이 기사에서는 32비트를 교체할 때 발생하는 성능 편차를 조사합니다. _mm_popcnt_u64 내장 함수를 사용하여 성능이 중요한 루프에서 64비트 카운터가 있는 루프 카운터. 이 문제로 인해 Intel CPU의 성능이 크게 저하되어 실행 속도가 달라졌습니다. 작성자는 이러한 동작의 원인을 탐색하고 잠재적인 해결책을 제시합니다.
세부 정보
문제의 코드에는 데이터 배열을 반복하고 팝 카운트를 수행하는 루프가 포함되어 있습니다. x86 내장 명령어를 사용한 작업. 루프 카운터 변수는 처음에는 부호 없는 정수였지만 64비트 부호 없는 정수(uint64_t)로 바꾸면 성능이 약 50% 저하되었습니다.
원인을 조사하기 위해 작성자는 다음과 같이 코드를 컴파일했습니다. 다양한 최적화 플래그를 적용하고 결과 어셈블리 코드를 분석했습니다. 32비트 버전과 64비트 버전에서 서로 다른 어셈블리가 생성되는 것을 관찰하여 컴파일러 버그를 의심했습니다.
그러나 다른 컴파일러로 코드를 테스트한 후 작성자는 문제가 아니라고 결론을 내렸습니다. 컴파일러 버그가 아니라 하드웨어의 잘못된 데이터 종속성으로 인해 발생합니다. Intel Sandy/Ivy Bridge 및 Haswell 프로세서에서 사용되는 _mm_popcnt_u64 명령은 명령이 실행되기 전에 대상이 준비될 때까지 기다리는 대상 레지스터에 대한 잘못된 종속성을 나타냅니다. 이러한 잘못된 종속성은 루프 반복을 통해 전달되어 프로세서가 다른 반복을 병렬화하는 것을 방지하고 성능 손실로 이어질 수 있습니다.
저자는 팝카운트 작업을 격리하고 잘못된 종속성을 깨뜨려 성능 차이를 보여주는 인라인 어셈블리 테스트를 제시합니다. 체인. 이 테스트에서는 잘못된 종속성이 성능에 심각한 영향을 미쳐 속도가 18.6195GB/s에서 8.49272GB/s로 감소한다는 사실을 보여줍니다.
이 기사에서는 또한 이 문제가 Intel CPU에 영향을 미치는 반면 AMD 프로세서에는 영향을 미친다는 점을 강조합니다. 이 내용이 거짓인 것 같지는 않습니다. dependency.
솔루션
이 성능 문제를 완화하기 위해 저자는 여러 솔루션을 제안합니다.
- 대신 32비트 루프 카운터 사용 이 특정 루프에 대한 64비트 카운터입니다.
- 64비트 루프 카운터를 사용하는 경우 필요한 경우 대상 레지스터를 팝카운트 작업에 사용하기 전에 명시적으로 0으로 설정하여 잘못된 종속성 체인을 끊습니다.
- 이러한 잘못된 종속성을 인식하고 이를 보상하는 코드를 생성하는 컴파일러를 사용하세요.
위 내용은 32비트 루프 카운터를 64비트로 교체하면 Intel CPU에서 '_mm_popcnt_u64'로 인해 성능이 저하되는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

C#과 C의 역사와 진화는 독특하며 미래의 전망도 다릅니다. 1.C는 1983 년 Bjarnestroustrup에 의해 발명되어 객체 지향 프로그래밍을 C 언어에 소개했습니다. Evolution 프로세스에는 자동 키워드 소개 및 Lambda Expressions 소개 C 11, C 20 도입 개념 및 코 루틴과 같은 여러 표준화가 포함되며 향후 성능 및 시스템 수준 프로그래밍에 중점을 둘 것입니다. 2.C#은 2000 년 Microsoft에 의해 출시되었으며 C와 Java의 장점을 결합하여 진화는 단순성과 생산성에 중점을 둡니다. 예를 들어, C#2.0은 제네릭과 C#5.0 도입 된 비동기 프로그래밍을 소개했으며, 이는 향후 개발자의 생산성 및 클라우드 컴퓨팅에 중점을 둘 것입니다.

C는 시스템 프로그래밍 및 하드웨어 상호 작용에 적합합니다. 하드웨어에 가까운 제어 기능 및 객체 지향 프로그래밍의 강력한 기능을 제공하기 때문입니다. 1) C는 포인터, 메모리 관리 및 비트 운영과 같은 저수준 기능을 통해 효율적인 시스템 수준 작동을 달성 할 수 있습니다. 2) 하드웨어 상호 작용은 장치 드라이버를 통해 구현되며 C는 이러한 드라이버를 작성하여 하드웨어 장치와의 통신을 처리 할 수 있습니다.

C 및 XML의 미래 개발 동향은 다음과 같습니다. 1) C는 프로그래밍 효율성 및 보안을 개선하기 위해 C 20 및 C 23 표준을 통해 모듈, 개념 및 코 루틴과 같은 새로운 기능을 소개합니다. 2) XML은 데이터 교환 및 구성 파일에서 중요한 위치를 계속 차지하지만 JSON 및 YAML의 문제에 직면하게 될 것이며 XMLSCHEMA1.1 및 XPATH 3.1의 개선과 같이보다 간결하고 쉽게 구문 분석하는 방향으로 발전 할 것입니다.

C 지속적인 사용 이유에는 고성능, 광범위한 응용 및 진화 특성이 포함됩니다. 1) 고효율 성능 : C는 메모리 및 하드웨어를 직접 조작하여 시스템 프로그래밍 및 고성능 컴퓨팅에서 훌륭하게 수행합니다. 2) 널리 사용 : 게임 개발, 임베디드 시스템 등의 분야에서의 빛나기.

C 멀티 스레딩 및 동시 프로그래밍의 핵심 개념에는 스레드 생성 및 관리, 동기화 및 상호 제외, 조건부 변수, 스레드 풀링, 비동기 프로그래밍, 일반적인 오류 및 디버깅 기술, 성능 최적화 및 모범 사례가 포함됩니다. 1) std :: 스레드 클래스를 사용하여 스레드를 만듭니다. 예제는 스레드가 완성 될 때까지 생성하고 기다리는 방법을 보여줍니다. 2) std :: mutex 및 std :: lock_guard를 사용하여 공유 리소스를 보호하고 데이터 경쟁을 피하기 위해 동기화 및 상호 배제. 3) 조건 변수는 std :: 조건 _variable을 통한 스레드 간의 통신과 동기화를 실현합니다. 4) 스레드 풀 예제는 ThreadPool 클래스를 사용하여 효율성을 향상시키기 위해 작업을 병렬로 처리하는 방법을 보여줍니다. 5) 비동기 프로그래밍은 std :: as를 사용합니다

C는 XML과 타사 라이브러리 (예 : TinyXML, Pugixml, Xerces-C)와 상호 작용합니다. 1) 라이브러리를 사용하여 XML 파일을 구문 분석하고 C- 처리 가능한 데이터 구조로 변환하십시오. 2) XML을 생성 할 때 C 데이터 구조를 XML 형식으로 변환하십시오. 3) 실제 애플리케이션에서 XML은 종종 구성 파일 및 데이터 교환에 사용되어 개발 효율성을 향상시킵니다.

C의 메모리 관리, 포인터 및 템플릿은 핵심 기능입니다. 1. 메모리 관리는 새롭고 삭제를 통해 메모리를 수동으로 할당하고 릴리스하며 힙과 스택의 차이에주의를 기울입니다. 2. 포인터는 메모리 주소를 직접 작동시키고주의해서 사용할 수 있습니다. 스마트 포인터는 관리를 단순화 할 수 있습니다. 3. 템플릿은 일반적인 프로그래밍을 구현하고 코드 재사용 성과 유연성을 향상 시키며 유형 파생 및 전문화를 이해해야합니다.

C 학습자와 개발자는 StackoverFlow, Reddit의 R/CPP 커뮤니티, Coursera 및 EDX 코스, GitHub의 오픈 소스 프로젝트, 전문 컨설팅 서비스 및 CPPCon에서 리소스와 지원을받을 수 있습니다. 1. StackoverFlow는 기술적 인 질문에 대한 답변을 제공합니다. 2. Reddit의 R/CPP 커뮤니티는 최신 뉴스를 공유합니다. 3. Coursera와 Edx는 공식적인 C 과정을 제공합니다. 4. LLVM 및 부스트 기술 향상과 같은 GitHub의 오픈 소스 프로젝트; 5. JetBrains 및 Perforce와 같은 전문 컨설팅 서비스는 기술 지원을 제공합니다. 6. CPPCON 및 기타 회의는 경력을 돕습니다
