Deoptimierung eines Programms für die Pipeline in CPUs der Intel Sandybridge-Familie
Ziel: Ein Programm so zu optimieren, dass es langsamer läuft, indem das Wissen darüber ausgenutzt wird der Intel i7 Pipeline.
Problem:
Die Aufgabe bot zwei Optionen: Whetstone- oder Monte-Carlo-Programme. Der Student entschied sich für das Monte-Carlo-Simulationsprogramm, aber seine Pessimisierungsbemühungen verlängerten die Codelaufzeit nur um eine Sekunde.
Frage:
Wie kann der Student weiter pessimieren? Der Code, um eine größere Bedeutung zu erreichen Verlangsamung?
Antwort:
Allgemeine Strategien:
- Führen Sie unvorhersehbare Zweige ein, um die Strafen für Fehlvorhersagen zu erhöhen.
- Verlängern Sie schleifengeführte Abhängigkeitsketten, um die Befehlsebene zu reduzieren Parallelität.
- Verwenden Sie langsamere FP-Operationen und Divs, insbesondere Exp- und Log-Funktionen.
Uarch-spezifische Ideen:
Mit Eigenheiten ():
- Verwenden Sie movnti, um Daten aus dem Cache zu entfernen.
- Verwenden Sie Ganzzahl-Shuffles zwischen FP-Matheoperationen, um Umgehungsverzögerungen zu verursachen.
- Vermeiden Sie das Mischen von SSE- und AVX-Anweisungen ohne Verwendung vzeroupper.
Mit (inline) asm:
- Ausrichtungsprobleme erzwingen, um den UOP-Cache zu unterbrechen.
- Verwenden Sie selbst- Code ändern, um Pipeline-Löschvorgänge auszulösen.
Cache-Fehler hervorrufen und Speicherverlangsamung:
- Führen Sie enge Speichervorgänge aus, um Speicherweiterleitungsverzögerungen zu verursachen.
- Ersetzen Sie lokale Variablen durch Mitglieder einer großen Struktur, um das Speicherlayout zu steuern.
- Ordnen Sie das Speicherlayout, um Cache-Fehler und Seitenaufteilungslasten zu erhöhen.
- Verwenden Sie falsch ausgerichtete Variablen zum Überspannen Cache-Zeilen- oder Seitengrenzen.
- Arrays in nicht zusammenhängender Reihenfolge durchlaufen.
- Erwägen Sie die Verwendung verknüpfter Listen anstelle von Arrays.
Andere Techniken :
- Verwenden std::atomic Schleifenzähler für langsamere atomare Operationen.
- Kompilieren Sie mit -m32 oder -march=i386, um eine langsamere Codegenerierung zu erzwingen.
- Erzwingen Sie lange Doppelberechnungen mit geringerer Genauigkeit für zusätzliche Langsamkeit.
- Stellen Sie die CPU-Affinität häufig auf verschiedene CPUs ein.
- Implementieren Sie übermäßige Systemaufrufe für den Kontextwechsel Overhead.
Abschlussbemerkungen:
- Während diese Techniken den Code effektiv verlangsamen, hängt ihr Grad an „teuflischer Inkompetenz“ von der gegebenen Begründung ab .
- Der Aufgabenleiter hatte möglicherweise vor, dass die Schüler etwas über die Gefahren und Abhängigkeiten von Pipelines lernen, anstatt nur diese Techniken anzuwenden blind.
Das obige ist der detaillierte Inhalt vonWie kann eine Monte-Carlo-Simulation weiter deoptimiert werden, um die Ausführung auf einer CPU der Intel Sandybridge-Familie deutlich zu verlangsamen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!