Pandas-Datenmanipulation: Extrahieren von Zahlen aus Zeichenfolgenspalten
Bei der Arbeit mit Datenrahmen in Pandas ist es notwendig, verschiedene Manipulationen zum Extrahieren durchzuführen aussagekräftige Informationen. Eine solche Aufgabe könnte das Extrahieren numerischer Werte aus Zeichenfolgen umfassen, die in einer Datenrahmenspalte enthalten sind. Hier untersuchen wir ein spezifisches Szenario, um dieser Anforderung gerecht zu werden.
Betrachten Sie den folgenden Datenrahmen mit einer Spalte namens „A“, die Zeichenfolgenwerte enthält:
<code class="python">import pandas as pd import numpy as np df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'], }) print(df)</code>
Das Ziel ist Extrahieren Sie nur die Zahlen aus jeder Zelle in der Spalte „A“, was zu einem neuen Datenrahmen führt, in dem die Spalte „A“ nur numerische Werte enthält.
Um dies zu erreichen, kann man den leistungsstarken str nutzen .extract-Funktion in Pandas. Durch die Verwendung einer Regex-Erfassungsgruppe innerhalb des str.extract-Ausdrucks wird es möglich, die Ziffern aus jeder Zeichenfolge im Datenrahmen zu isolieren und zu extrahieren:
<code class="python">df.A.str.extract('(\d+)')</code>
Das Regex-Muster „(d)“ entspricht einem oder mehr Ziffern (d) und erfasst sie als Gruppe (die Klammern ( und )). Das Ausführen des obigen Codes führt zu folgendem Ergebnis:
<code class="python"> A 0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object</code>
Die ursprünglichen Zeichenfolgen in der Spalte „A“ werden erfolgreich in numerische Werte konvertiert, während NaN für Zellen mit fehlenden Werten beibehalten wird. Diese Methode erweist sich als besonders effektiv zum Extrahieren ganzer Zahlen aus Zeichenfolgen und macht sie zu einem wertvollen Werkzeug in Datenanalyse- und Manipulationsszenarien.
Das obige ist der detaillierte Inhalt vonWie extrahiere ich numerische Werte aus Zeichenfolgenspalten in Pandas?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!