Abfragen nach eindeutigen Werten in einer Datenrahmenspalte
Bei der Arbeit mit Datenrahmen ist es häufig erforderlich, Zeilen basierend auf unterschiedlichen Werten in einer Datenrahmenspalte abzurufen bestimmte Spalte. Dadurch können wir doppelte Werte eliminieren und einen eindeutigen Satz von Datenpunkten erhalten.
Betrachten Sie den folgenden Datenrahmen:
COL1 COL2 a.com 22 b.com 45 c.com 34 e.com 45 f.com 56 g.com 22 h.com 45
Angenommen, wir möchten die Zeilen extrahieren, die den eindeutigen Werten in der Spalte entsprechen COL2. Um dies zu erreichen, können wir die Funktion drop_duplicates von Pandas verwenden. Diese Funktion verwendet einen Spaltennamen als Argument und entfernt doppelte Zeilen aus dem Datenrahmen.
<code class="python">import pandas as pd df = pd.DataFrame(...) # assuming the given dataframe df = df.drop_duplicates('COL2')</code>
Standardmäßig behält drop_duplicates das erste Vorkommen jedes eindeutigen Werts bei. Alternativ können wir keep='last' angeben, um das letzte Vorkommen beizubehalten, oder keep=False angeben, um alle doppelten Zeilen zu entfernen:
<code class="python"># Keep first occurrence df = df.drop_duplicates('COL2', keep='first') # Keep last occurrence df = df.drop_duplicates('COL2', keep='last') # Remove all duplicates df = df.drop_duplicates('COL2', keep=False')</code>
Nach der Ausführung eines der oben genannten Befehle enthält der Datenrahmen df nur die Zeilen entsprechend den unterschiedlichen Werten in Spalte COL2:
COL1 COL2 0 a.com 22 1 b.com 45 2 c.com 34 4 f.com 56
Das obige ist der detaillierte Inhalt vonWie extrahiere ich Zeilen basierend auf eindeutigen Werten in einer Datenrahmenspalte?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!