Wie extrahiere ich Zahlen aus Zeichenfolgen in Pandas DataFrames?

Patricia Arquette
Freigeben: 2024-10-24 10:24:02
Original
428 Leute haben es durchsucht

How to Extract Numbers from Strings in Pandas DataFrames?

Zahlen aus DataFrame-Strings mit Pandas extrahieren

Bei der Datenanalyse ist es oft notwendig, bestimmte Muster oder Datentypen aus Strings zu extrahieren. Im Fall von Pandas DataFrames können Zeichenfolgenspalten gemischte Datentypen enthalten, einschließlich Zeichen und Zahlen. Dieser Artikel befasst sich mit der Herausforderung, Zahlen aus solchen Zeichenfolgen mithilfe der leistungsstarken Pandas-Bibliothek zu extrahieren.

Betrachten Sie den folgenden Beispiel-DataFrame namens „df“ mit einer Spalte namens „A“, die eine Mischung aus Zeichenfolgen und numerischen Werten enthält:

<code class="python">import pandas as pd
import numpy as np
df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'],
                   })</code>
Nach dem Login kopieren

Unser Ziel ist es, die numerischen Werte aus jeder Zelle zu isolieren, was zu einer sauberen Spalte führt, die nur Ganzzahlen enthält:

    A
0   1
1   NaN
2   10
3   100
4   0
Nach dem Login kopieren

Verwendung regulärer Ausdrücke und Erfassungsgruppen

Ein effektiver Ansatz zum Extrahieren von Zahlen aus Zeichenfolgen ist die Verwendung regulärer Ausdrücke (Regex) in Kombination mit Capture-Gruppen. Mit Regex können wir Muster angeben, die mit bestimmten Zeichen oder Sequenzen in einer Zeichenfolge übereinstimmen. Mit Capture-Gruppen können wir den übereinstimmenden Teil der Zeichenfolge erfassen und extrahieren.

In diesem Fall können wir das folgende Regex-Muster verwenden:

(\d+)
Nach dem Login kopieren

Dieses Muster stellt eine übereinstimmende Capture-Gruppe dar eine oder mehrere Ziffern (d) hintereinander.

Das Anwenden dieses Musters auf unseren DataFrame mit der Methode „str.extract“:

<code class="python">df.A.str.extract('(\d+)')</code>
Nach dem Login kopieren

erzeugt das gewünschte Ergebnis:

0      1
1    NaN
2     10
3    100
4      0
Name: A, dtype: object
Nach dem Login kopieren

Die Erfassungsgruppe hat die numerischen Teile der Zeichenfolgen erfolgreich extrahiert und dabei die Zeichen ignoriert. Es ist wichtig zu beachten, dass diese Methode spezifisch für ganze Zahlen ist und nicht für Gleitkommawerte funktioniert.

Zusammenfassend lässt sich sagen, dass die Verwendung regulärer Ausdrücke mit Erfassungsgruppen eine präzise und effiziente Möglichkeit bietet, Zahlen aus Zeichenfolgenspalten zu extrahieren innerhalb von Pandas DataFrames. Durch die Integration dieser Technik können Datenanalysten numerische Daten effektiv für die weitere Analyse und Bearbeitung isolieren.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich Zahlen aus Zeichenfolgen in Pandas DataFrames?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!