Wie optimiert man diesen 8-Bit-Positional-Popcount mithilfe von Assembly?
Die bereitgestellte Implementierung von __mm_add_epi32_inplace_purego in Go ist aufgrund der teuren Weitergabe nicht optimal von [8]int32 Arrays. Um die Leistung zu verbessern, wird empfohlen, stattdessen einen Zeiger auf das Array zu übergeben.
Die Frage geht jedoch über die Optimierung dieser spezifischen Funktion hinaus und untersucht die Optimierung der inneren Schleife mithilfe von Assembler für einen Algorithmus zur Positionsanzahlzählung von Bytes .
Assembly-Optimierung
Der bereitgestellte Assembler-Code bietet zwei Varianten des Positionspopulationszählalgorithmus:
Eingeführte Verbesserungen
Der Assemblercode nutzt verschiedene Techniken zur Verbesserung Leistung:
Leistungsbenchmarks
Benchmarks zeigen, dass die Baugruppenoptimierungen zu erheblichen Leistungsverbesserungen im Vergleich zu einer naiven Referenzimplementierung in reinem Go führen :
Vollständiger Quellcode
Der vollständige Quellcode für beide Assembly-Varianten ist auf GitHub zu finden. Der Code enthält außerdem eine portable Bibliothek, die für beide Varianten in jedem Go-Programm verwendet werden kann.
Fazit
Durch die Implementierung des Positionspopulationszählalgorithmus in Assembly wird eine erhebliche Leistung erzielt Gewinne erzielt werden können. Der bereitgestellte Assemblercode nutzt verschiedene Optimierungen, um den Durchsatz zu maximieren. Weitere Details und Beispiele finden Sie im GitHub-Repository.
Das obige ist der detaillierte Inhalt vonWie kann die Assembly-Optimierung die Leistung eines Positions-Popcount-Algorithmus für Bytes steigern?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!