메모리 최적화는 고성능 소프트웨어 시스템을 작성하는 데 매우 중요합니다. 소프트웨어에 사용할 수 있는 메모리 양이 한정되어 있는 경우 해당 메모리가 효율적으로 사용되지 않으면 많은 문제가 발생할 수 있습니다. 이것이 바로 전반적인 성능 향상을 위해 메모리 최적화가 중요한 이유입니다.
Go는 C의 많은 장점을 물려받았지만, 제가 주목한 점은 Go를 사용하는 많은 사람들이 이 언어의 모든 기능을 알지 못한다는 것입니다. 그 이유 중 하나는 낮은 수준에서 어떻게 작동하는지에 대한 지식이 부족하거나 C 또는 C와 같은 언어에 대한 경험이 부족하기 때문일 수 있습니다. 제가 C와 C를 언급한 이유는 Go의 기반이 C/C의 놀라운 기능을 기반으로 구축되었기 때문입니다. Google I/O 2012에서 Ken Thompson의 인터뷰를 인용한 것은 우연이 아닙니다.
내가 Go에 열광했던 이유는 우리가 Go를 시작하는 것과 거의 동시에 C 0x가 제안한 표준을 읽었기 때문입니다. 나.
오늘은 Go 프로그램을 어떻게 최적화할 수 있는지, 좀 더 구체적으로 Go에서 구조체를 어떻게 활용하면 좋은지에 대해 이야기해보겠습니다. 먼저 구조가 무엇인지 말해 보겠습니다.
구조체는 다양한 유형의 관련 변수를 단일 이름으로 그룹화하는 사용자 정의 데이터 유형입니다.
문제가 있는 부분을 완전히 이해하기 위해 최신 프로세서는 메모리에서 한 번에 1바이트를 읽지 않는다는 점을 언급하겠습니다. CPU는 메모리에 저장된 데이터나 명령을 어떻게 가져오나요?
컴퓨터 아키텍처에서 워드는 프로세서가 단일 작업으로 처리할 수 있는 데이터 단위로, 일반적으로 주소를 지정할 수 있는 가장 작은 메모리 단위입니다. 고정된 크기의 비트 그룹(이진수)입니다. 프로세서의 워드 크기는 데이터를 효율적으로 처리하는 능력을 결정합니다. 일반적인 단어 크기에는 8, 16, 32 및 64비트가 포함됩니다. 일부 컴퓨터 프로세서 아키텍처는 워드 비트 수의 절반인 하프워드와 두 개의 인접한 단어인 더블워드를 지원합니다.
현재 가장 일반적인 아키텍처는 32비트와 64비트입니다. 32비트 프로세서를 사용하는 경우 한 번에 4바이트에 액세스할 수 있으며 이는 워드 크기가 4바이트라는 의미입니다. 64비트 프로세서를 사용하는 경우 한 번에 8바이트에 액세스할 수 있으며 이는 단어 크기가 8바이트임을 의미합니다.
데이터를 메모리에 저장할 때 각 32비트 데이터 워드는 아래와 같이 고유한 주소를 갖습니다.
그림. 1 ‑ 워드 주소 지정 가능 메모리
로드 워드(lw) 명령어를 사용하여 메모리의 데이터를 읽어 하나의 레지스터에 로드할 수 있습니다.
위의 이론을 알고 나면 실천이 무엇인지 살펴보겠습니다. 구조적 데이터 구조의 사례를 설명하기 위해 C 언어를 사용하여 설명하겠습니다. C의 구조체는 여러 변수를 그룹화하여 동일한 메모리 블록에 저장할 수 있는 복합 데이터 유형입니다. 앞서 말했듯이 CPU 액세스는 주어진 아키텍처에 따라 달라집니다. C의 모든 데이터 유형에는 정렬 요구 사항이 있습니다.
그러면 간단한 구조로 다음과 같이 해보자:
// structure 1 typedef struct example_1 { char c; short int s; } struct1_t; // structure 2 typedef struct example_2 { double d; int s; char c; } struct2_t;
이제 다음 구조의 크기를 계산해 보세요.
구조체 크기 1 = (char short int) 크기 = 1 2 = 3.
구조체 2의 크기 = (이중 정수 문자)의 크기 = 8 4 1= 13.
C 프로그램을 사용한 실제 크기는 여러분을 놀라게 할 수도 있습니다.
#include <stdio.h> // structure 1 typedef struct example_1 { char c; short int s; } struct1_t; // structure 2 typedef struct example_2 { double d; int s; char c; } struct2_t; int main() { printf("sizeof(struct1_t) = %lu\n", sizeof(struct1_t)); printf("sizeof(struct2_t) = %lu\n", sizeof(struct2_t)); return 0; }
출력
sizeof(struct1_t) = 4 sizeof(struct2_t) = 16
보시다시피 구조물의 크기가 계산한 것과 다릅니다.
C와 Go는 '구조체 패딩'이라는 기술을 사용하여 데이터가 메모리에 적절하게 정렬되도록 하며, 이는 하드웨어 및 아키텍처 제약으로 인해 성능에 큰 영향을 미칠 수 있습니다. 데이터 패딩 및 정렬은 주로 데이터 경계가 단어 크기에 맞게 정렬되도록 하여 CPU 액세스 시간을 최적화하기 위해 시스템 아키텍처의 요구 사항을 준수합니다.
Go가 패딩과 정렬을 처리하는 방법을 설명하는 예를 살펴보겠습니다. 다음 구조체를 고려하세요.
type Employee struct { IsAdmin bool Id int64 Age int32 Salary float32 }
bool은 1바이트, int64는 8바이트, int32는 4바이트, float32는 4바이트 = 17바이트(총)입니다.
컴파일된 Go 프로그램을 검사하여 구조체 크기를 검증해 보겠습니다.
package main import ( "fmt" "unsafe" ) type Employee struct { IsAdmin bool Id int64 Age int32 Salary float32 } func main() { var emp Employee fmt.Printf("Size of Employee: %d\n", unsafe.Sizeof(emp)) }
출력
Size of Employee: 24
보고된 크기는 17바이트가 아닌 24바이트입니다. 이러한 불일치는 메모리 정렬로 인해 발생합니다. 정렬이 어떻게 작동하는지 이해하려면 구조를 검사하고 구조가 차지하는 메모리를 시각화해야 합니다.
그림 2 - 최적화되지 않은 메모리 레이아웃
Employee 구조체는 8*3 = 24바이트를 소비합니다. 이제 문제가 보입니다. Employee 레이아웃에 빈 구멍이 많이 있습니다(정렬 규칙에 의해 생성된 공백을 "패딩"이라고 함).
메모리 정렬과 패딩이 애플리케이션 성능에 어떤 영향을 미칠 수 있는지 이해하는 것이 중요합니다. 특히 데이터 정렬은 구조체 내의 필드에 액세스하는 데 필요한 CPU 주기 수에 영향을 미칩니다. 이러한 영향은 주로 원시 클럭 주기 자체가 아닌 CPU 캐시 효과에서 발생합니다. 캐시 동작은 데이터 지역성과 메모리 블록 내 정렬에 크게 좌우되기 때문입니다.
최신 CPU는 메모리에서 고정 크기 블록(일반적으로 64바이트)으로 구성된 캐시라는 더 빠른 중개자로 데이터를 가져옵니다. 데이터가 동일하거나 더 적은 캐시 라인 내에서 잘 정렬되고 지역화되면 캐시 로딩 작업이 줄어들어 CPU가 더 빠르게 데이터에 액세스할 수 있습니다.
최적 정렬과 불량 정렬을 설명하려면 다음 Go 구조를 고려하세요.
// structure 1 typedef struct example_1 { char c; short int s; } struct1_t; // structure 2 typedef struct example_2 { double d; int s; char c; } struct2_t;
CPU는 바이트 크기가 아닌 워드 크기로 데이터를 읽습니다. 처음에 설명했듯이 64비트 시스템의 한 단어는 8바이트인 반면, 32비트 시스템의 한 단어는 4바이트입니다. 즉, CPU는 워드 크기의 배수로 주소를 읽습니다. PassportId 변수를 가져오기 위해 CPU는 데이터에 액세스하는 데 1주기가 아닌 2주기가 소요됩니다. 첫 번째 주기는 메모리 0부터 7까지 가져오고 후속 주기는 나머지를 가져옵니다. 그리고 이것은 비효율적입니다. 데이터 구조 정렬이 필요합니다. 단순히 데이터를 정렬함으로써 컴퓨터는 ONE CPU 주기
에서 var PassportId를 검색할 수 있도록 보장합니다.그림 3 - 메모리 액세스 효율성 비교
패딩은 데이터 정렬을 달성하는 데 핵심입니다. 패딩은 최신 CPU가 정렬된 주소의 메모리에서 데이터를 읽도록 최적화되어 있기 때문에 발생합니다. 이러한 정렬을 통해 CPU는 단일 작업으로 데이터를 읽을 수 있습니다.
그림 4 - 간단히 데이터 정렬
패딩이 없으면 데이터가 잘못 정렬되어 다중 메모리 액세스가 발생하고 성능이 저하될 수 있습니다. 따라서 패딩은 일부 메모리를 낭비할 수 있지만 프로그램이 효율적으로 실행되도록 보장합니다.
Aligned 구조체는 Misaligned에 비해 더 나은 구조체 필드 순서를 갖고 있기 때문에 더 적은 메모리를 소비합니다. 패딩 때문에 두 개의 13바이트 데이터 구조는 각각 16바이트와 24바이트가 됩니다. 따라서 구조체 필드를 재정렬하여 추가 메모리를 절약할 수 있습니다.
그림 5 - 필드 순서 최적화
CPU가 잘못 정렬된 필드에 액세스하려면 여러 사이클이 필요할 수 있으므로 데이터가 잘못 정렬되면 성능이 저하될 수 있습니다. 반대로, 올바르게 정렬된 데이터는 캐시 라인 로드를 최소화합니다. 이는 특히 메모리 속도에 병목 현상이 발생하는 시스템에서 성능에 매우 중요합니다.
이를 증명하기 위해 간단한 벤치마크를 수행해 보겠습니다.
#include <stdio.h> // structure 1 typedef struct example_1 { char c; short int s; } struct1_t; // structure 2 typedef struct example_2 { double d; int s; char c; } struct2_t; int main() { printf("sizeof(struct1_t) = %lu\n", sizeof(struct1_t)); printf("sizeof(struct2_t) = %lu\n", sizeof(struct2_t)); return 0; }
출력
sizeof(struct1_t) = 4 sizeof(struct2_t) = 16
보시다시피 Aligned는 순회하는 데 실제로 다른 것보다 시간이 덜 걸립니다.
앞서 본 것처럼 각 구조체 필드가 필요에 따라 메모리에 올바르게 정렬되도록 패딩이 추가되었습니다. 그러나 패딩은 효율적인 액세스를 가능하게 하지만 필드가 제대로 정렬되지 않은 경우 공간을 낭비할 수도 있습니다.
패딩으로 인한 메모리 낭비를 최소화하기 위해 구조체 필드를 올바르게 정렬하는 방법을 이해하는 것은 효율적인 메모리 사용, 특히 성능이 중요한 애플리케이션에서 중요합니다. 아래에서는 잘못 정렬된 구조의 예를 제공하고 동일한 구조의 최적화된 버전을 보여 드리겠습니다.
잘못 정렬된 구조체에서는 크기와 정렬 요구 사항을 고려하지 않고 필드가 정렬되므로 패딩이 추가되고 메모리 사용량이 증가할 수 있습니다.
// structure 1 typedef struct example_1 { char c; short int s; } struct1_t; // structure 2 typedef struct example_2 { double d; int s; char c; } struct2_t;
따라서 총 메모리는 1(bool) 7(padding) 8(float64) 4(int32) 4(padding) 16(string) = 40바이트가 될 수 있습니다.
최적화된 구조는 필드를 가장 큰 크기에서 가장 작은 크기로 배열하여 추가 패딩의 필요성을 크게 줄이거나 없애줍니다.
#include <stdio.h> // structure 1 typedef struct example_1 { char c; short int s; } struct1_t; // structure 2 typedef struct example_2 { double d; int s; char c; } struct2_t; int main() { printf("sizeof(struct1_t) = %lu\n", sizeof(struct1_t)); printf("sizeof(struct2_t) = %lu\n", sizeof(struct2_t)); return 0; }
그러면 총 메모리는 8(float64) 16(문자열) 4(int32) 1(bool) 3(패딩) = 32바이트로 깔끔하게 구성됩니다.
위 내용을 증명해 보겠습니다.
sizeof(struct1_t) = 4 sizeof(struct2_t) = 16
출력
type Employee struct { IsAdmin bool Id int64 Age int32 Salary float32 }
구조 크기를 40바이트에서 32바이트로 줄이면 Person 인스턴스당 메모리 사용량이 20% 감소합니다. 이를 통해 이러한 인스턴스가 많이 생성되거나 저장되는 애플리케이션에서 상당한 비용 절감 효과를 얻을 수 있어 캐시 효율성이 향상되고 잠재적으로 캐시 누락 횟수가 줄어들 수 있습니다.
데이터 정렬은 메모리 활용도를 최적화하고 시스템 성능을 향상시키는 데 중요한 요소입니다. 구조체 데이터를 올바르게 배열하면 메모리 사용량이 더 효율적일 뿐만 아니라 CPU 읽기 시간 측면에서도 빨라져 전체 시스템 효율성에 크게 기여합니다.
위 내용은 Go에서 메모리 사용량 최적화: 데이터 구조 정렬 마스터하기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!