Effizientes Löschen aufeinanderfolgender Duplikate in Pandas
Bei der Arbeit mit Pandas DataFrames ist es oft notwendig, doppelte Werte zu entfernen. Die integrierte Methode drop_duplicates() entfernt jedoch alle Instanzen doppelter Werte, einschließlich aufeinanderfolgender Duplikate. Für Fälle, in denen nur aufeinanderfolgende Duplikate gelöscht werden müssen, stehen effizientere Methoden zur Verfügung.
Ein Ansatz besteht darin, die Funktion „shift()“ zu verwenden. Durch den Vergleich des DataFrame mit seiner verschobenen Version (a.shift(-1)) kann eine boolesche Maske erstellt werden, die identifiziert, wo aufeinanderfolgende Duplikate auftreten. Diese Maske kann dann verwendet werden, um nur die eindeutigen Werte auszuwählen, wie im folgenden Beispiel zu sehen ist:
a.loc[a.shift(-1) != a]
Eine andere Methode verwendet die Funktion diff(). Es berechnet die Differenz zwischen Zeilen und kann zur Identifizierung aufeinanderfolgender Duplikate verwendet werden. Bei großen Datensätzen ist sie jedoch langsamer als die Methode „shift()“.
Verwendung:
a.loc[a.diff() != 0]
Die ursprüngliche Antwort schlug die Verwendung von „shift()“ mit einem Zeitraum von -1 vor, die Verwendung war jedoch korrekt ist Shift(1) (oder einfach Shift()), da die Standardverschiebungsperiode 1 ist. Diese Änderung stellt sicher, dass nur der erste aufeinanderfolgende Wert zurückgegeben wird:
a.loc[a.shift(1) != a]
Beide Die Methoden „shift()“ und „diff()“ bieten effiziente Möglichkeiten zum Löschen aufeinanderfolgender Duplikate in Pandas und sollten basierend auf dem spezifischen Kontext und den Leistungsanforderungen in Betracht gezogen werden.
Das obige ist der detaillierte Inhalt vonWie kann man aufeinanderfolgende Duplikate in Pandas effizient löschen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!