如何使用汇编来优化 8 位位置 popcount 算法，特别是通过关注内部循环并利用预取和标量总体计数等技术？-Golang-PHP中文网

如何使用汇编来优化这个 8 位位置 popcount？

首页

后端开发

Golang

如何使用汇编来优化 8 位位置 popcount 算法，特别是通过关注内部循环并利用预取和标量总体计数等技术？

Patricia Arquette

Oct 27, 2024 am 09:02 AM

How can you optimize an 8-bit positional popcount algorithm using assembly, specifically by focusing on the inner loop and utilizing techniques like prefetching and scalar population counting?

如何使用汇编来优化这个 8 位位置 popcount？

在提供的代码中， 函数 __mm_add_epi32_inplace_purego 可以使用汇编来优化提高其性能。特别是可以优化内部循环以加快执行速度。

提供的用于计算位置人口的算法称为“位置人口计数”。该算法用于机器学习，涉及计算一系列字节中设置位的数量。在给定的代码中，_mm_add_epi32_inplace_purego 在两级循环中被调用，目标是优化内部循环。

提供的代码主要适用于名为的 8 位整数数组很重要。内部循环迭代字节片，对于每个字节，它将位模式数组 (_expand_byte) 中的相应位位置添加到计数数组中。 _expand_byte 数组包含将每个字节扩展为各个位的位模式。

要使用汇编优化内部循环，您需要将计数器保留在通用寄存器中以获得更好的性能和提前预取内存以改善流行为。您还可以使用简单的移位和加法组合 (SHRL/ADCL) 来实现标量总体计数。

下面提供了优化的汇编代码的示例。此代码是针对特定处理器架构编写的，可能需要修改才能在其他系统上运行。

<code class="assembly">#include "textflag.h"

// func PospopcntReg(counts *[8]int32, buf []byte)
TEXT ·PospopcntReg(SB),NOSPLIT,-32
    MOVQ counts+0(FP), DI
    MOVQ buf_base+8(FP), SI     // SI = &buf[0]
    MOVQ buf_len+16(FP), CX     // CX = len(buf)

    // load counts into register R8--R15
    MOVL 4*0(DI), R8
    MOVL 4*1(DI), R9
    MOVL 4*2(DI), R10
    MOVL 4*3(DI), R11
    MOVL 4*4(DI), R12
    MOVL 4*5(DI), R13
    MOVL 4*6(DI), R14
    MOVL 4*7(DI), R15

    SUBQ , CX            // pre-subtract 32 bit from CX
    JL scalar

vector: VMOVDQU (SI), Y0        // load 32 bytes from buf
    PREFETCHT0 384(SI)      // prefetch some data
    ADDQ , SI            // advance SI past them

    VPMOVMSKB Y0, AX        // move MSB of Y0 bytes to AX
    POPCNTL AX, AX          // count population of AX
    ADDL AX, R15            // add to counter
    VPADDD Y0, Y0, Y0       // shift Y0 left by one place

    VPMOVMSKB Y0, AX        // move MSB of Y0 bytes to AX
    POPCNTL AX, AX          // count population of AX
    ADDL AX, R14            // add to counter
    VPADDD Y0, Y0, Y0       // shift Y0 left by one place

    VPMOVMSKB Y0, AX        // move MSB of Y0 bytes to AX
    POPCNTL AX, AX          // count population of AX
    ADDL AX, R13            // add to counter
    VPADDD Y0, Y0, Y0       // shift Y0 left by one place

    VPMOVMSKB Y0, AX        // move MSB of Y0 bytes to AX
    POPCNTL AX, AX          // count population of AX
    ADDL AX, R12            // add to counter
    VPADDD Y0, Y0, Y0       // shift Y0 left by one place

    VPMOVMSKB Y0, AX        // move MSB of Y0 bytes to AX
    POPCNTL AX, AX          // count population of AX
    ADDL AX, R11            // add to counter
    VPADDD Y0, Y0, Y0       // shift Y0 left by one place

    VPMOVMSKB Y0, AX        // move MSB of Y0 bytes to AX
    POPCNTL AX, AX          // count population of AX
    ADDL AX, R10            // add to counter
    VPADDD Y0, Y0, Y0       // shift Y0 left by one place

    VPMOVMSKB Y0, AX        // move MSB of Y0 bytes to AX
    POPCNTL AX, AX          // count population of AX
    ADDL AX, R9         // add to counter
    VPADDD Y0, Y0, Y0       // shift Y0 left by one place

    VPMOVMSKB Y0, AX        // move MSB of Y0 bytes to AX
    POPCNTL AX, AX          // count population of AX
    ADDL AX, R8         // add to counter

    SUBQ , CX
    JGE vector          // repeat as long as bytes are left

scalar: ADDQ , CX            // undo last subtraction
    JE done             // if CX=0, there's nothing left

loop:   MOVBLZX (SI), AX        // load a byte from buf
    INCQ SI             // advance past it

    SHRL , AX         // CF=LSB, shift byte to the right
    ADCL , R8         // add CF to R8

    SHRL , AX
    ADCL , R9         // add CF to R9

    SHRL , AX
    ADCL , R10            // add CF to R10

    SHRL , AX
    ADCL , R11            // add CF to R11

    SHRL , AX
    ADCL , R12            // add CF to R12

    SHRL , AX
    ADCL , R13            // add CF to R13

    SHRL , AX
    ADCL , R14            // add CF to R14

    SHRL , AX
    ADCL , R15            // add CF to R15

    DECQ CX             // mark this byte as done
    JNE loop            // and proceed if any bytes are left

    // write R8--R15 back to counts
done:   MOVL R8, 4*0(DI)
    MOVL R9, 4*1(DI)
    MOVL R10, 4*2(DI)
    MOVL R11, 4*3(DI)
    MOVL R12, 4*4(DI)
    MOVL R13, 4*5(DI)
    MOVL R14, 4*6(DI)
    MOVL R15, 4*7(DI)

    VZEROUPPER          // restore SSE-compatibility
    RET</code>

登录后复制

总而言之，优化涉及使用通用寄存器作为计数器，提前预取内存，并使用 SHRL/ADCL 实现标量总体计数。这种方法可以显着提高位置人口计数算法的性能。

以上是如何使用汇编来优化 8 位位置 popcount 算法，特别是通过关注内部循环并利用预取和标量总体计数等技术？的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1670

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1276

C# 教程

1256

显示更多

Related knowledge

Golang vs. Python：性能和可伸缩性 Apr 19, 2025 am 12:18 AM

Golang在性能和可扩展性方面优于Python。1)Golang的编译型特性和高效并发模型使其在高并发场景下表现出色。2)Python作为解释型语言，执行速度较慢，但通过工具如Cython可优化性能。

Golang和C：并发与原始速度 Apr 21, 2025 am 12:16 AM

Golang在并发性上优于C ，而C 在原始速度上优于Golang。1)Golang通过goroutine和channel实现高效并发，适合处理大量并发任务。2)C 通过编译器优化和标准库，提供接近硬件的高性能，适合需要极致优化的应用。

开始GO：初学者指南 Apr 26, 2025 am 12:21 AM

goisidealforbeginnersandsubableforforcloudnetworkservicesduetoitssimplicity，效率和concurrencyFeatures.1）installgromtheofficialwebsitealwebsiteandverifywith'.2）

Golang vs.C：性能和速度比较 Apr 21, 2025 am 12:13 AM

Golang适合快速开发和并发场景，C 适用于需要极致性能和低级控制的场景。1)Golang通过垃圾回收和并发机制提升性能，适合高并发Web服务开发。2)C 通过手动内存管理和编译器优化达到极致性能，适用于嵌入式系统开发。

Golang的影响：速度，效率和简单性 Apr 14, 2025 am 12:11 AM

GoimpactsdevelopmentPositationalityThroughSpeed，效率和模拟性。1）速度：gocompilesquicklyandrunseff，ifealforlargeprojects.2）效率：效率：ITScomprehenSevestAndArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdEcceSteral Depentencies，增强开发的简单性：3）SimpleflovelmentIcties：3）简单性。