Grundlegende Methoden und Techniken für die Pandas-Datenfilterung, spezifische Codebeispiele sind erforderlich
Einführung:
Mit der kontinuierlichen Weiterentwicklung der Datenanalyse und -verarbeitung hat sich Pandas zu einem leistungsstarken Werkzeug für Datenwissenschaftler und -analysten entwickelt. Pandas ist eine auf NumPy basierende Open-Source-Datenanalysebibliothek, die eine flexible und effiziente Datenstruktur bereitstellt, die sich zum Lesen, Bereinigen, Analysieren und Visualisieren von Daten eignet. Im Datenanalyseprozess ist die Datenfilterung ein sehr wichtiger Link. In diesem Artikel werden die grundlegenden Methoden und Techniken der Pandas-Datenfilterung vorgestellt und spezifische Codebeispiele bereitgestellt, um den Lesern das bessere Verständnis und die Anwendung zu erleichtern.
1. Überprüfung der Pandas-Datenstruktur
Bevor wir mit dem spezifischen Datenscreening beginnen, werfen wir zunächst einen Blick auf die wichtigsten Datenstrukturen von Pandas – Series und DataFrame.
1.1 Serie
Series ist ein Objekt, das einem eindimensionalen Array ähnelt und aus einer Reihe von Daten und Indizes besteht. Daten können von beliebiger Art sein und ein Index ist eine Bezeichnung, die uns beim Auffinden und Zugreifen auf Daten hilft. Wir können eine Serie auf folgende Weise erstellen:
import pandas as pd data = pd.Series([1, 2, 3, 4, 5])
1.2 DataFrame
DataFrame ist die am häufigsten verwendete Datenstruktur in Pandas und kann als Objekt ähnlich einem zweidimensionalen Array oder einer zweidimensionalen Tabelle betrachtet werden. Es besteht aus einem geordneten Satz von Spalten, von denen jede einen anderen Datentyp haben kann (Ganzzahl, Gleitkommazahl, Zeichenfolge usw.). Wir können einen DataFrame auf folgende Weise erstellen:
data = {'Name': ['Tom', 'John', 'Amy', 'Lisa'], 'Age': [25, 30, 28, 35], 'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen']} df = pd.DataFrame(data)
2. Pandas-Datenfilterungsmethoden und -techniken
Pandas bietet eine Fülle von Datenfilterungsmethoden und -techniken. Im Folgenden stellen wir einige häufig verwendete Methoden vor.
2.1 Grundlegende Bedingungsfilterung
Das Filtern nach bestimmten Bedingungen ist eine der gebräuchlichsten Methoden zum Filtern von Daten. Pandas bietet ähnliche Funktionen wie das Schlüsselwort WHERE in SQL. Wir können Vergleichsoperatoren (==, !=, >, <, >=, <=) verwenden, um Bedingungen auf den gesamten DataFrame anzuwenden. Ein Beispiel ist wie folgt:
# 筛选年龄大于等于30的数据 df[df['Age'] >= 30]
2.2 Filterung mit mehreren Bedingungen
Zusätzlich zur Filterung nach einer einzelnen Bedingung können wir auch mehrere Bedingungen kombinieren, um nach logischen Operatoren (und, oder, nicht) und Klammern zu filtern. Ein Beispiel ist wie folgt:
# 筛选年龄大于等于30并且城市为上海的数据 df[(df['Age'] >= 30) & (df['City'] == 'Shanghai')]
2.3 isin()-Funktionsfilterung
isin()-Funktion ist eine sehr nützliche Filtermethode, die uns helfen kann, Daten herauszufiltern, die bestimmte Bedingungen erfüllen. Ein Beispiel ist wie folgt:
# 筛选城市为上海或深圳的数据 df[df['City'].isin(['Shanghai', 'Shenzhen'])]
2.4 query()-Funktionsfilterung
query()-Funktion ist eine erweiterte Filtermethode von Pandas, die komplexe Datenfilterung in einer Codezeile implementieren kann. Ein Beispiel ist wie folgt:
# 使用query()函数筛选年龄大于等于30的数据 df.query('Age >= 30')
2.5 Nach Spaltennamen filtern
Manchmal müssen wir nur Daten in bestimmten Spalten herausfiltern, und wir können filtern, indem wir Spaltennamen angeben. Ein Beispiel lautet wie folgt:
# 筛选出名字和城市两列的数据 df[['Name', 'City']]
2.6 Filtern mit loc und iloc
Zusätzlich zu den oben genannten Methoden bietet Pandas auch zwei spezielle Attribute, loc und iloc, für die Datenfilterung. loc wird für die Indizierung basierend auf der Beschriftung verwendet, während iloc für die Indizierung basierend auf der Position verwendet wird. Ein Beispiel ist wie folgt:
# 使用loc基于标签进行筛选 df.loc[df['Age'] >= 30, ['Name', 'City']] # 使用iloc基于位置进行筛选 df.iloc[df['Age'] >= 30, [0, 2]]
3. Zusammenfassung
In diesem Artikel werden die grundlegenden Methoden und Techniken der Pandas-Datenfilterung vorgestellt und spezifische Codebeispiele bereitgestellt. Durch die Beherrschung dieser Methoden können wir Daten flexibel filtern und verarbeiten, um die benötigten Informationen zu extrahieren. Zusätzlich zu den oben genannten Methoden bietet Pandas auch viele andere leistungsstarke Funktionen und Tools für weiteres Lernen und Erkunden basierend auf den tatsächlichen Anforderungen. Ich hoffe, dass dieser Artikel den Lesern beim Datenscreening hilfreich sein wird und Pandas besser für die Datenanalyse und -verarbeitung in praktischen Anwendungen nutzen kann.
Das obige ist der detaillierte Inhalt vonGrundlegende Datenfilterungsmethoden und -techniken von Pandas. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!