Heim > Backend-Entwicklung > Python-Tutorial > Wie entferne ich doppelte Spalten in einem Pandas-Datenrahmen?

Wie entferne ich doppelte Spalten in einem Pandas-Datenrahmen?

DDD
Freigeben: 2024-11-01 14:08:02
Original
353 Leute haben es durchsucht

How to Remove Duplicate Columns in a Pandas Dataframe?

Doppelte Spalten in einem Pandas-Datenrahmen entfernen

Beim Umgang mit Datenrahmen, die doppelte Spalten enthalten, ist es für effektive Daten erforderlich, diese Redundanzen zu beseitigen Analyse. Dieser Artikel bietet eine umfassende Lösung zum Entfernen doppelter Spalten in Pandas und geht auf alle Aspekte des Problems ein.

Doppelte Spaltennamen

Um Spalten zu entfernen, die ausschließlich auf doppelten Namen basieren, Eine einfache Lösung ist:

<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>
Nach dem Login kopieren

Diese Zeile prüft auf doppelte Spaltennamen und behält nur diejenigen bei, die vorhanden sind einzigartig.

Doppelte Spaltenwerte

Wenn das Ziel darin besteht, Spalten basierend auf doppelten Werten zu entfernen, ist ein anderer Ansatz erforderlich, ohne den Datenrahmen zu transponieren:

<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>
Nach dem Login kopieren

Diese Methode prüft, ob in jeder Spalte doppelte Werte vorhanden sind, und eliminiert Spalten, in denen sich alle Werte befinden Duplikate.

Duplizierte Indizes

Um doppelte Indizes zu entfernen, gehen Sie ähnlich vor:

<code class="python">df = df.loc[~df.index.duplicated(),:].copy()</code>
Nach dem Login kopieren

Zusätzliche Hinweise

  • Die bereitgestellten Lösungen gehen davon aus, dass der Datenrahmen bereits in eine Variable mit dem Namen geladen ist df.
  • ~df.columns.duplicated() und ~df.index.duplicated() geben boolesche Arrays zurück, die angeben, welche Spalten oder Indizes Duplikate sind.
  • Die all()-Funktion in ~df .apply(lambda x: x.duplicated(),axis=1).all() prüft, ob alle Werte innerhalb einer Spalte vorhanden sind Duplikate.
  • Die Methode .copy() wird verwendet, um einen neuen Datenrahmen mit den Änderungen zu erstellen, wodurch Probleme beim Ändern des vorhandenen Datenrahmens vermieden werden.

Das obige ist der detaillierte Inhalt vonWie entferne ich doppelte Spalten in einem Pandas-Datenrahmen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage