Heim > Backend-Entwicklung > Python-Tutorial > Wie entferne ich effizient doppelte Indexzeilen in Pandas?

Wie entferne ich effizient doppelte Indexzeilen in Pandas?

Susan Sarandon
Freigeben: 2024-11-19 10:58:02
Original
322 Leute haben es durchsucht

How to Efficiently Remove Duplicate Index Rows in pandas?

Effiziente Entfernung doppelter Indexzeilen in Pandas

In Pandas können doppelte Indexwerte aus verschiedenen Quellen stammen. Um diese Redundanzen effektiv zu beseitigen, ist es entscheidend, die zugrunde liegenden Mechanismen zu verstehen und die am besten geeignete Lösung für verschiedene Szenarien einzusetzen.

Ein gängiger Ansatz ist die Verwendung der Methode drop_duplicates. Dies kann jedoch zu erheblichen Leistungseinbußen führen, insbesondere bei der Arbeit mit großen Datensätzen. Alternativ bietet die Groupby-Methode eine effizientere Option, indem sie Zeilen basierend auf ihren Indexwerten gruppiert und die erste oder letzte nicht duplizierte Zeile auswählt.

Die effizienteste Lösung besteht jedoch darin, die duplizierte Methode direkt zu verwenden Der Pandas-Index. Durch Angabe des Keep-Arguments als „first“ gibt diese Methode eine boolesche Reihe zurück, die doppelte Indizes angibt. Zeilen mit doppelten Werten können dann mithilfe der booleschen Indizierung herausgefiltert werden.

Betrachten Sie beispielsweise den folgenden DataFrame:

                      Sta  Precip1hr  Precip5min  Temp  DewPnt  WindSpd  WindDir  AtmPress
Date                                                                                      
2001-01-01 00:00:00  KPDX          0           0     4       3        0        0     30.31
2001-01-01 00:05:00  KPDX          0           0     4       3        0        0     30.30
2001-01-01 00:10:00  KPDX          0           0     4       3        4       80     30.30
2001-01-01 00:15:00  KPDX          0           0     3       2        5       90     30.30
2001-01-01 00:20:00  KPDX          0           0     3       2       10      110     30.28
Nach dem Login kopieren

Um doppelte Indexwerte zu entfernen, können wir den folgenden Code verwenden:

df = df[~df.index.duplicated(keep='first')]
Nach dem Login kopieren

Diese Lösung ist effizient und prägnant und bietet eine praktische Methode zum Entfernen doppelter Indexzeilen aus einem Pandas-DataFrame.

Das obige ist der detaillierte Inhalt vonWie entferne ich effizient doppelte Indexzeilen in Pandas?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage