


Apakah yang menyebabkan kehilangan prestasi 4x Go pada penanda aras akses tatasusunan ini (berbanding dengan GCC)?
Dalam penanda aras akses tatasusunan ini (berbanding dengan GCC), Go mengalami kehilangan prestasi sebanyak 4x. Apakah yang menyebabkan ini? Isu ini melibatkan banyak aspek seperti mekanisme masa jalan dan pengoptimuman pengkompil bagi bahasa Go. Pertama sekali, bahasa Go menggunakan mekanisme semakan sempadan apabila mengakses tatasusunan, iaitu, semakan sempadan dilakukan setiap kali elemen tatasusunan diakses, yang akan menyebabkan kehilangan prestasi tertentu. Kedua, pengkompil bahasa Go agak lemah dalam pengoptimuman dan tidak dapat mengoptimumkan akses tatasusunan dengan baik. Selain itu, mekanisme kutipan sampah bahasa Go juga akan memberi kesan tertentu terhadap prestasi. Jika digabungkan, faktor ini digabungkan menyebabkan Go mengalami kehilangan prestasi 4x ganda dalam penanda aras akses tatasusunan.
Kandungan soalan
Saya menulis penanda aras mikro ini untuk lebih memahami ciri prestasi go supaya saya boleh membuat pilihan termaklum tentang masa untuk menggunakannya.
Daripada perspektif overhed prestasi, saya rasa ini akan menjadi senario yang sesuai untuk pergi:
- Tiada peruntukan/percuma di dalam gelung
- Akses tatasusunan jelas dalam had (semakan sempadan boleh dialih keluar)
Namun begitu, saya melihat perbezaan kelajuan 4x berbanding gcc -o3
pada amd64. kenapa begitu?
(Gunakan pemasaan shell. Ia mengambil masa beberapa saat setiap kali, jadi permulaan boleh diabaikan)
package main import "fmt" func main() { fmt.println("started"); var n int32 = 1024 * 32 a := make([]int32, n, n) b := make([]int32, n, n) var it, i, j int32 for i = 0; i < n; i++ { a[i] = i b[i] = -i } var r int32 = 10 var sum int32 = 0 for it = 0; it < r; it++ { for i = 0; i < n; i++ { for j = 0; j < n; j++ { sum += (a[i] + b[j]) * (it + 1) } } } fmt.printf("n = %d, r = %d, sum = %d\n", n, r, sum) }
c Versi:
#include <stdio.h> #include <stdlib.h> int main() { printf("started\n"); int32_t n = 1024 * 32; int32_t* a = malloc(sizeof(int32_t) * n); int32_t* b = malloc(sizeof(int32_t) * n); for(int32_t i = 0; i < n; ++i) { a[i] = i; b[i] = -i; } int32_t r = 10; int32_t sum = 0; for(int32_t it = 0; it < r; ++it) { for(int32_t i = 0; i < n; ++i) { for(int32_t j = 0; j < n; ++j) { sum += (a[i] + b[j]) * (it + 1); } } } printf("n = %d, r = %d, sum = %d\n", n, r, sum); free(a); free(b); }
Kemas kini:
- Digunakan seperti yang disyorkan
range
boleh meningkatkan kelajuan pergi sebanyak 2 kali ganda. - Sebaliknya, dalam ujian saya,
-march=native
将 c 速度提高了 2 倍。 (并且-mno-sse
给出编译错误,显然与-o3
tidak serasi) - gccgo kelihatan setara dengan gcc di sini (dan tidak memerlukan
range
)
Penyelesaian
Lihat pada output pemasang program C dan program Go Sekurang-kurangnya pada versi Go dan GCC yang saya gunakan (masing-masing 1.19.6 dan 12.2.0), perbezaan yang paling langsung dan jelas ialah GCC. Vectorize program C secara automatik, yang pengkompil Go nampaknya tidak dapat lakukan.
Ini juga menerangkan dengan baik mengapa anda akan melihat peningkatan prestasi empat kali ganda, memandangkan GCC menggunakan SSE dan bukannya AVX apabila tidak menyasarkan seni bina tertentu, yang bermaksud arahan skalar 32-bit adalah empat kali lebih lebar untuk beroperasi. Malah, menambah -march=native
memberi saya peningkatan prestasi 2x ganda kerana ia menghasilkan kod AVX keluaran GCC pada CPU saya.
Saya tidak cukup mahir dengan Go untuk memberitahu anda jika pengkompil Go secara intrinsik tidak dapat autovektor, atau jika program tertentu ini sahaja yang menyebabkannya pepijat atas sebab tertentu, tetapi itu nampaknya puncanya
Atas ialah kandungan terperinci Apakah yang menyebabkan kehilangan prestasi 4x Go pada penanda aras akses tatasusunan ini (berbanding dengan GCC)?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

Masalah Threading Giliran di GO Crawler Colly meneroka masalah menggunakan Perpustakaan Colly Crawler dalam bahasa Go, pemaju sering menghadapi masalah dengan benang dan permintaan beratur. � ...

Perpustakaan mana yang dibangunkan oleh syarikat besar atau projek sumber terbuka yang terkenal? Semasa pengaturcaraan di GO, pemaju sering menghadapi beberapa keperluan biasa, ...

Dua cara untuk menentukan struktur dalam bahasa Go: perbezaan antara VAR dan jenis kata kunci. Apabila menentukan struktur, pergi bahasa sering melihat dua cara menulis yang berbeza: pertama ...

Perbezaan antara percetakan rentetan dalam bahasa Go: perbezaan kesan menggunakan fungsi println dan rentetan () sedang ...

Masalah menggunakan redisstream untuk melaksanakan beratur mesej dalam bahasa Go menggunakan bahasa Go dan redis ...

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apabila menggunakan Goland untuk Pembangunan Bahasa GO, banyak pemaju akan menghadapi tag struktur tersuai ...

GO Pointer Syntax dan menangani masalah dalam penggunaan perpustakaan Viper semasa pengaturcaraan dalam bahasa Go, adalah penting untuk memahami sintaks dan penggunaan petunjuk, terutama dalam ...
