Deoptimierung eines Programms für die Pipeline in CPUs der Intel Sandybridge-Familie
Problem:
Die Aufgabe besteht darin, Ineffizienzen in ein bestimmtes Programm einzuführen, um seine Ausführungsgeschwindigkeit zu verlangsamen. Das Programm ist eine Monte-Carlo-Simulation mit Gaußschen Zufallszahlen und der Schwerpunkt liegt auf der Ausnutzung der Pipeline-Struktur von CPUs der Intel Sandybridge-Familie.
Lösung:
Einführung von Ineffizienzen für die Pipeline Gefahren:
-
Verwenden Sie atomare Operationen mit Store-Load-Fences: Wiederholte atomare Operationen an gemeinsam genutzten Variablen erzeugen Speicherabhängigkeiten, die die Pipeline blockieren. Darüber hinaus erzwingen Store-Load-Fences eine serialisierte Ausführung von Speichervorgängen.
-
Erstellen Sie eine falsche Freigabe: Stellen Sie sicher, dass mehrere Threads auf benachbarte Speicherorte in verschiedenen Cache-Zeilen zugreifen, was zu Cache-Bank-Konflikten und Ungültigmachungen führt.
-
Verwenden Sie unregelmäßige Speicherzugriffsmuster: Vermeiden Sie sequenzielle Speicherzugriffe, um effizientes Vorabrufen und Cache-Nutzung zu verhindern. Greifen Sie beispielsweise auf Elemente in einer nicht zusammenhängenden Reihenfolge zu oder verwenden Sie verknüpfte Listen anstelle von Arrays.
Abschwächung der Parallelität auf Schleifenebene:
-
Schleifeniterationen serialisieren: Verwenden Sie Synchronisierungsmechanismen wie Sperren oder atomare Inkremente, um sicherzustellen, dass jeweils nur ein Thread ausgeführt wird Schleifeniteration nacheinander.
-
Führen Sie unvorhersehbare Verzweigungen ein: Schließen Sie Verzweigungen ein, die für den Verzweigungsprädiktor schwer vorherzusagen sind, was zu Fehlvorhersagen und Pipeline-Leerungen führt, wenn der falsche Pfad eingeschlagen wird.
-
Verwenden Sie ineffiziente Operationen: Ersetzen Sie effiziente arithmetische Operationen durch langsamere Alternativen, wie zum Beispiel Division statt Multiplikation oder Quadratwurzel statt Multiplikation und Multiplikation von Konstanten statt Logarithmen und Exponentialfunktionen.
Ausnutzung mikroarchitektonischer Funktionen:
-
Verursacht unnötige Registerüberläufe und -füllungen: Verwenden Sie viele lokale Variablen und große Datenstrukturen und erzwingen Sie Überlauf- und Fülloperationen in den Speicher.
-
Verwenden Sie ineffiziente Anweisungen:Verwenden Sie Anweisungen, die zu erheblichen Verzögerungen führen oder die Parallelität auf Befehlsebene verringern, wie z. B. nicht ausgerichtete Speicherzugriffe oder 16-Bit-Operationen im 32-Bit-Modus.
-
Kämpfen Sie um Cache-Ressourcen:Erzeugen Sie übermäßige Cache-Fehler, indem Sie auf mehrere Arrays oder Datenstrukturen zugreifen gleichzeitig, unter Verwendung nicht zusammenhängender Speicherzugriffsmuster oder explizites Ungültigmachen von Cache-Zeilen mithilfe von Anweisungen wie CLFLUSH.
Compiler-Optimierungsvermeidung:
-
Inline-Assembly verwenden: Compiler-Optimierungen umgehen, indem Inline-Assembly verwendet wird, um die Befehlsgenerierung manuell zu steuern und Cache-freundliche Codetransformationen zu vermeiden.
-
Undefiniertes Verhalten verwenden: Führen Sie Vorgänge aus, die zu unerwartetem Verhalten führen oder ineffizienten Code generieren können, z. B. Zeigerarithmetik für Nicht-Zeigertypen oder nicht initialisierten Speicher Zugriffe.
-
Unnötige Neukompilierungen erzwingen: Ändern Sie Code auf eine Weise, die eine Neukompilierung erfordert, z. B. durch das Hinzufügen von Kommentaren oder das Ändern von Makros, um zwischengespeicherte Codepfade ungültig zu machen und die Wirksamkeit von Compileroptimierungen zu verringern.
Fazit:
Durch die Einbeziehung dieser Durch Ineffizienzen im Programm ist es möglich, die Ausführungsgeschwindigkeit erheblich zu verlangsamen und die Bedeutung der Codeoptimierung für moderne Pipeline-Architekturen hervorzuheben. Es ist jedoch wichtig zu beachten, dass diese Techniken nicht für den praktischen Einsatz in realen Anwendungen gedacht sind und lediglich die möglichen Auswirkungen einer schlechten Optimierung auf die Leistung veranschaulichen sollen.
Das obige ist der detaillierte Inhalt vonWie können wir ein Programm absichtlich deoptimieren, um Engpässe in der Intel Sandybridge-Pipeline aufzudecken?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!