Entfernen doppelter Spalten in Python-Datenrahmen
Bei der Arbeit mit einem Datenrahmen können häufig doppelte Spalten entstehen, die zu Redundanzen führen und möglicherweise Verwirrung stiften. Dies kann besonders frustrierend sein, wenn Sie nur eindeutige Spalten beibehalten möchten. Glücklicherweise gibt es einfache Lösungen zum Entfernen doppelter Spalten in Python-Pandas.
Lösung zum Entfernen von Spalten nach Namen
Um doppelte Spalten basierend auf ihren Namen zu entfernen, verwenden Sie Folgendes line:
<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>
Dieser Ansatz verwendet den ~-Operator, um die von df.columns.duplicated() zurückgegebenen booleschen Werte zu invertieren, die nach doppelten Spaltennamen suchen. Das resultierende boolesche Array wird dann verwendet, um nur die nicht duplizierten Spalten in der df.loc-Indizierung auszuwählen. Die Methode .copy() wurde hinzugefügt, um potenzielle Fehler bei der späteren Änderung des ursprünglichen Datenrahmens zu vermeiden.
Lösung zum Entfernen von Duplikaten nach Werten
Angenommen, Sie möchten doppelte Spalten entfernen indem wir ihre Werte überprüfen, nicht nur ihre Namen. Dies kann mit dem folgenden Code erreicht werden:
<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>
Diese Lösung vermeidet das Transponieren des Datenrahmens, was bei großen Datenrahmen zeitaufwändig sein kann. Es wendet eine Lambda-Funktion auf jede Spalte an, um nach doppelten Werten zu suchen. Das resultierende boolesche Array wird dann verwendet, um nur die Spalten ohne doppelte Werte auszuwählen.
Hinweis: Seien Sie vorsichtig, wenn Sie den wertbasierten Ansatz verwenden. In bestimmten Fällen führt es möglicherweise nicht immer zu den gewünschten Ergebnissen.
Zusätzliche Tipps
Das obige ist der detaillierte Inhalt vonWie entferne ich doppelte Spalten in Python-DataFrames?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!