Go の新しい関数呼び出し規約はどれくらい高速化できるでしょうか?-Golang-php.cn

#コンパイラーとランタイムを継続的に最適化すると、Go プログラムの構築と操作がよりスムーズになります。 Go 1.18 のリリースノートで Chopper は、Go の新しい関数呼び出し規則 (レジスタベース) が arm64 アーキテクチャ (amd64 はすでにサポートされています) に拡張され、パフォーマンスが 10% 以上向上することを発見しました。これは注目に値します。先へ。

#この記事では、関数呼び出し規約の変更が Go にどれだけのメリットをもたらすかを検討します。

Go の新しい関数呼び出し規約はどれくらい高速化できるでしょうか?

#関数呼び出し規約

Go 関数呼び出し規約の記事 (このセクションに詳しくない読者は、最初にこの記事を読むことをお勧めします) で、Go 言語の関数呼び出し規則について説明しました。いわゆる関数呼び出し規約とは、関数の呼び出し元と呼び出し先が従う必要がある特定の合意を指します。主に、関数のパラメーターの受け渡しの方法、渡す順番など。

#パラメータの受け渡し方法は、通常、レジスタ受け渡しとスタック受け渡しの 2 つの状況に分けられます。

Go 1.17 より前の Go 言語では、異なる CPU レジスタ間の違いを避けるためにスタック転送が使用されていました。このアプローチの最大の利点は、実装が簡単で、コンパイラの保守が容易になることです。ただし、一部のパフォーマンスが犠牲になるという欠点も明らかです。 CPU アクセスレジスタの速度はメモリの速度よりもはるかに高速になるためです。

改变

基于性能考虑，寄存器的调用惯例，是大多数语言采纳的方式。Go 也准备做点改变，在 1.17 版本中，对于 linux/amd64, darwin/amd64, windows/amd64 系统，首先实现了新的基于寄存器的调用惯例。

package main

//go:noinline
func add(i, j int) int {
 return i + j
}

func main() {
 add(100, 200)
}

ログイン後にコピー

我们在 darwin/amd64 系统上，分别使用 Go 1.17 和 Go 1.16 的代码进行编译，得到它们的汇编语句分别如下。

Go 1.17 汇编语句

$ go version
go version go1.17 darwin/amd64
$ go tool compile -S main.go
"".add STEXT nosplit size=4 args=0x10 locals=0x0 funcid=0x0
 0x0000 00000 (main.go:4) TEXT "".add(SB), NOSPLIT|ABIInternal, $0-16
 0x0000 00000 (main.go:4) FUNCDATA $0, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
 0x0000 00000 (main.go:4) FUNCDATA $1, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
 0x0000 00000 (main.go:4) FUNCDATA $5, "".add.arginfo1(SB)
 0x0000 00000 (main.go:5) ADDQ BX, AX
 0x0003 00003 (main.go:5) RET
 0x0000 48 01 d8 c3                                      H...
"".main STEXT size=54 args=0x0 locals=0x18 funcid=0x0
 0x0000 00000 (main.go:8) TEXT "".main(SB), ABIInternal, $24-0
 0x0000 00000 (main.go:8) CMPQ SP, 16(R14)
 0x0004 00004 (main.go:8) PCDATA $0, $-2
 0x0004 00004 (main.go:8) JLS 47
 0x0006 00006 (main.go:8) PCDATA $0, $-1
 0x0006 00006 (main.go:8) SUBQ $24, SP
 0x000a 00010 (main.go:8) MOVQ BP, 16(SP)
 0x000f 00015 (main.go:8) LEAQ 16(SP), BP
 0x0014 00020 (main.go:8) FUNCDATA $0, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
 0x0014 00020 (main.go:8) FUNCDATA $1, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
 0x0014 00020 (main.go:9) MOVL $100, AX
 0x0019 00025 (main.go:9) MOVL $200, BX
 0x001e 00030 (main.go:9) PCDATA $1, $0
 0x001e 00030 (main.go:9) NOP
 0x0020 00032 (main.go:9) CALL "".add(SB)
 0x0025 00037 (main.go:10) MOVQ 16(SP), BP
 0x002a 00042 (main.go:10) ADDQ $24, SP
 0x002e 00046 (main.go:10) RET
 0x002f 00047 (main.go:10) NOP
 0x002f 00047 (main.go:8) PCDATA $1, $-1
 0x002f 00047 (main.go:8) PCDATA $0, $-2
 0x002f 00047 (main.go:8) CALL runtime.morestack_noctxt(SB)
 0x0034 00052 (main.go:8) PCDATA $0, $-1
 0x0034 00052 (main.go:8) JMP 0
 ...

ログイン後にコピー

Go 1.16 汇编语句

$ go1.16.4 version
go version go1.16.4 darwin/amd64
$ go1.16.4 tool compile -S main.go
"".add STEXT nosplit size=19 args=0x18 locals=0x0 funcid=0x0
 0x0000 00000 (main.go:4) TEXT "".add(SB), NOSPLIT|ABIInternal, $0-24
 0x0000 00000 (main.go:4) FUNCDATA $0, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
 0x0000 00000 (main.go:4) FUNCDATA $1, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
 0x0000 00000 (main.go:5) MOVQ "".j+16(SP), AX
 0x0005 00005 (main.go:5) MOVQ "".i+8(SP), CX
 0x000a 00010 (main.go:5) ADDQ CX, AX
 0x000d 00013 (main.go:5) MOVQ AX, "".~r2+24(SP)
 0x0012 00018 (main.go:5) RET
 0x0000 48 8b 44 24 10 48 8b 4c 24 08 48 01 c8 48 89 44  H.D$.H.L$.H..H.D
 0x0010 24 18 c3                                         $..
"".main STEXT size=71 args=0x0 locals=0x20 funcid=0x0
 0x0000 00000 (main.go:8) TEXT "".main(SB), ABIInternal, $32-0
 0x0000 00000 (main.go:8) MOVQ (TLS), CX
 0x0009 00009 (main.go:8) CMPQ SP, 16(CX)
 0x000d 00013 (main.go:8) PCDATA $0, $-2
 0x000d 00013 (main.go:8) JLS 64
 0x000f 00015 (main.go:8) PCDATA $0, $-1
 0x000f 00015 (main.go:8) SUBQ $32, SP
 0x0013 00019 (main.go:8) MOVQ BP, 24(SP)
 0x0018 00024 (main.go:8) LEAQ 24(SP), BP
 0x001d 00029 (main.go:8) FUNCDATA $0, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
 0x001d 00029 (main.go:8) FUNCDATA $1, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
 0x001d 00029 (main.go:9) MOVQ $100, (SP)
 0x0025 00037 (main.go:9) MOVQ $200, 8(SP)
 0x002e 00046 (main.go:9) PCDATA $1, $0
 0x002e 00046 (main.go:9) CALL "".add(SB)
 0x0033 00051 (main.go:10) MOVQ 24(SP), BP
 0x0038 00056 (main.go:10) ADDQ $32, SP
 0x003c 00060 (main.go:10) RET
 0x003d 00061 (main.go:10) NOP
 0x003d 00061 (main.go:8) PCDATA $1, $-1
 0x003d 00061 (main.go:8) PCDATA $0, $-2
 0x003d 00061 (main.go:8) NOP
 0x0040 00064 (main.go:8) CALL runtime.morestack_noctxt(SB)
 0x0045 00069 (main.go:8) PCDATA $0, $-1
 0x0045 00069 (main.go:8) JMP 0

ログイン後にコピー

看到这么多汇编代码，不要紧张。这里我们需要留意的就以下这么几行

// Go 1.17 汇编参数调用代码
"".add STEXT nosplit size=4 args=0x10 locals=0x0 funcid=0x0
...
0x0000 00000 (main.go:5) ADDQ BX, AX
...
"".main STEXT size=54 args=0x0 locals=0x18 funcid=0x0
...
 0x0014 00020 (main.go:9) MOVL $100, AX
 0x0019 00025 (main.go:9) MOVL $200, BX
 0x001e 00030 (main.go:9) PCDATA $1, $0
 0x001e 00030 (main.go:9) NOP
 0x0020 00032 (main.go:9) CALL "".add(SB)
...

// Go 1.16 汇编参数调用代码
"".add STEXT nosplit size=19 args=0x18 locals=0x0 funcid=0x0
...
 0x0000 00000 (main.go:5) MOVQ "".j+16(SP), AX
 0x0005 00005 (main.go:5) MOVQ "".i+8(SP), CX
 0x000a 00010 (main.go:5) ADDQ CX, AX
 0x000d 00013 (main.go:5) MOVQ AX, "".~r2+24(SP)
...
"".main STEXT size=71 args=0x0 locals=0x20 funcid=0x0
...
 0x001d 00029 (main.go:9) MOVQ $100, (SP)
 0x0025 00037 (main.go:9) MOVQ $200, 8(SP)
 0x002e 00046 (main.go:9) PCDATA $1, $0
 0x002e 00046 (main.go:9) CALL "".add(SB)
...

ログイン後にコピー

看出差异了吗？

在 Go 1.17 的汇编代码中，参数值 100 和 200 直接基于寄存器 AX 和 BX 来操作。而 Go 1.16 中，参数值是通过指向栈顶的栈指针寄存器SP的偏移量来表示和传递的。

在 Go 1.17 的release notes中，编译器的此项改变会让 Go 程序运行性能和二进制大小两个方面得到优化，

二进制大小

首先，我们比较编译后的二进制大小。

$ go build -o main1.17 main.go
$ go1.16.4 build -o main1.16 main.go
$ ls -al main1.17 main1.16
-rwxr-xr-x  1 slp  staff  1200640 Dec 26 21:09 main1.16
-rwxr-xr-x  1 slp  staff  1142208 Dec 26 21:09 main1.17

ログイン後にコピー

可以看出，Go 1.17 基于寄存器传递的函数调用惯例编译出的二进制，相较于 Go 1.16 基于栈传递的减少 4.8% 的大小。

性能

通过 benchmark 比较程序执行效率

// Go 1.17
$ go test -bench=.
goos: darwin
goarch: amd64
pkg: workspace/add
cpu: Intel(R) Core(TM) i5-8279U CPU @ 2.40GHz
BenchmarkIt-8    918887481          1.257 ns/op
PASS
ok   workspace/add 1.299s

// Go 1.16
$ go1.16.4 test -bench=.
goos: darwin
goarch: amd64
pkg: workspace/add
cpu: Intel(R) Core(TM) i5-8279U CPU @ 2.40GHz
BenchmarkIt-8    801041754          1.469 ns/op
PASS
ok   workspace/add 1.336s

ログイン後にコピー

从 1.469 ns/op 提升至 1.257 ns/op，大约提升了 14%。

总结

我们常谈论到，Go 是在不断优化迭代的，我们值得期待与建设更好的 Go 语言。

スタック転送に基づくパフォーマンス損失を軽減するために、Go 1.17 以降、レジスタ転送に基づくコンパイルの変更が導入されています。現在、この変更は amd64 プラットフォームのみをサポートしています。ただし、Go 1.18 では、arm64、ppc64、および ppc64le プラットフォームのサポートが拡張されます。

Go のリリースノートで述べたように、新しい関数呼び出し規則により、コンパイルされたバイナリサイズが小さくなり、実行効率が向上するという 2 つの側面で改善がもたらされます。同時に、既存のアセンブリ関数との互換性を維持するために、コンパイラは古い呼び出し規則と新しい呼び出し規則の間で変換するアダプター関数を生成します。

以上がGo の新しい関数呼び出し規約はどれくらい高速化できるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。