Wie entferne ich effizient doppelte Indexzeilen in Pandas?-Python-Tutorial-php.cn

Wie entferne ich effizient doppelte Indexzeilen in Pandas?

Susan Sarandon

Freigeben： 2024-11-19 10:58:02

Original

375 Leute haben es durchsucht

How to Efficiently Remove Duplicate Index Rows in pandas?

Effiziente Entfernung doppelter Indexzeilen in Pandas

In Pandas können doppelte Indexwerte aus verschiedenen Quellen stammen. Um diese Redundanzen effektiv zu beseitigen, ist es entscheidend, die zugrunde liegenden Mechanismen zu verstehen und die am besten geeignete Lösung für verschiedene Szenarien einzusetzen.

Ein gängiger Ansatz ist die Verwendung der Methode drop_duplicates. Dies kann jedoch zu erheblichen Leistungseinbußen führen, insbesondere bei der Arbeit mit großen Datensätzen. Alternativ bietet die Groupby-Methode eine effizientere Option, indem sie Zeilen basierend auf ihren Indexwerten gruppiert und die erste oder letzte nicht duplizierte Zeile auswählt.

Die effizienteste Lösung besteht jedoch darin, die duplizierte Methode direkt zu verwenden Der Pandas-Index. Durch Angabe des Keep-Arguments als „first“ gibt diese Methode eine boolesche Reihe zurück, die doppelte Indizes angibt. Zeilen mit doppelten Werten können dann mithilfe der booleschen Indizierung herausgefiltert werden.

Betrachten Sie beispielsweise den folgenden DataFrame:

                      Sta  Precip1hr  Precip5min  Temp  DewPnt  WindSpd  WindDir  AtmPress
Date                                                                                      
2001-01-01 00:00:00  KPDX          0           0     4       3        0        0     30.31
2001-01-01 00:05:00  KPDX          0           0     4       3        0        0     30.30
2001-01-01 00:10:00  KPDX          0           0     4       3        4       80     30.30
2001-01-01 00:15:00  KPDX          0           0     3       2        5       90     30.30
2001-01-01 00:20:00  KPDX          0           0     3       2       10      110     30.28

Nach dem Login kopieren

Um doppelte Indexwerte zu entfernen, können wir den folgenden Code verwenden:

df = df[~df.index.duplicated(keep='first')]

Nach dem Login kopieren

Diese Lösung ist effizient und prägnant und bietet eine praktische Methode zum Entfernen doppelter Indexzeilen aus einem Pandas-DataFrame.

Das obige ist der detaillierte Inhalt vonWie entferne ich effizient doppelte Indexzeilen in Pandas?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!