Einfaches und leicht verständliches Pandas-Sortier-Tutorial: Ermöglicht Ihnen den einfachen Umgang mit Datensortierungsproblemen. Es sind spezifische Codebeispiele erforderlich.
Bei der Datenanalyse und -verarbeitung ist es häufig erforderlich, die Daten zu sortieren, um sie besser zu sortieren die Eigenschaften und Muster der Daten verstehen. In Python ist die Pandas-Bibliothek eines der wichtigen Werkzeuge für die Datenanalyse und -verarbeitung. In diesem Tutorial wird erklärt, wie Sie mit Pandas Daten schnell und flexibel sortieren können, und es werden konkrete Codebeispiele bereitgestellt.
1. Grundkonzepte der Datensortierung
Vor dem Sortieren müssen wir die Grundkonzepte der Datensortierung verstehen. In Pandas gibt es zwei Hauptmethoden zum Sortieren von Daten: Sortieren nach Zeile und Sortieren nach Spalte.
Nach Zeile sortieren: Sortieren Sie die gesamte Datenzeile nach dem Wert einer bestimmten Spalte oder Spalten. Dadurch kann schnell die Rangfolge einer oder mehrerer Datenspalten ermittelt werden.
Nach Spalte sortieren: Sortieren Sie die gesamte Datenspalte nach numerischer Größe. Dadurch werden die Daten nach einem bestimmten Merkmal sortiert und so leichter verständlich und auswertbar.
2. Nach Zeilen sortieren
1. Nach einzelner Spalte sortieren
Zuerst müssen wir einen einfachen Datensatz erstellen, um den Prozess der Datensortierung zu demonstrieren.
import pandas as pd data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [25, 32, 28, 19], '分数': [80, 90, 85, 75]} df = pd.DataFrame(data)
Als nächstes können wir die Daten mit der Funktion „sort_values“ sortieren. Standardmäßig sortiert diese Funktion in aufsteigender Reihenfolge nach der angegebenen Spalte.
df_sorted = df.sort_values(by='年龄') print(df_sorted)
Die laufenden Ergebnisse sind wie folgt:
姓名 年龄 分数 3 赵六 19 75 0 张三 25 80 2 王五 28 85 1 李四 32 90
Sie können sehen, dass nach der Sortierung nach der Spalte „Alter“ die Daten in aufsteigender Reihenfolge sortiert werden.
2. Nach mehreren Spalten sortieren
Wenn wir nach mehreren Spalten sortieren müssen, müssen wir nur mehrere Spaltennamen im Parameter „by“ übergeben.
df_sorted = df.sort_values(by=['年龄', '分数']) print(df_sorted)
Die laufenden Ergebnisse sind wie folgt:
姓名 年龄 分数 3 赵六 19 75 0 张三 25 80 2 王五 28 85 1 李四 32 90
Sie können sehen, dass die Daten zuerst nach der Spalte „Alter“ und dann nach der Spalte „Punktzahl“ sortiert werden.
3. Sortieren nach Spalte
Sortieren nach Spalte dient hauptsächlich dazu, die gesamte Datenspalte nach numerischer Größe zu sortieren, um die Daten besser zu verstehen und zu analysieren.
1. Nach Spaltennamen sortieren
Wir können die Funktion „sort_index“ verwenden, um die Spalten zu sortieren. Standardmäßig sortiert diese Funktion alphabetisch nach Spaltennamen.
df_sorted = df.sort_index(axis=1) print(df_sorted)
Die laufenden Ergebnisse lauten wie folgt:
分数 年龄 姓名 0 80 25 张三 1 90 32 李四 2 85 28 王五 3 75 19 赵六
Sie können sehen, dass die Daten in alphabetischer Reihenfolge nach den Spaltennamen „Punktzahl“, „Alter“ und „Name“ sortiert sind.
2. Nach Spaltendaten sortieren
Wir können auch nach der Größe der Spaltendaten sortieren, indem Sie einfach die Spaltendaten im Parameter „by“ übergeben.
df_sorted = df.sort_values(by='年龄', axis=1) print(df_sorted)
Die laufenden Ergebnisse lauten wie folgt:
姓名 分数 年龄 0 张三 80 25 1 李四 90 32 2 王五 85 28 3 赵六 75 19
Sie können sehen, dass die Daten zuerst nach der Spalte „Alter“ und dann nach den entsprechenden Spaltendaten sortiert werden.
4. Andere Sortierparameter
Zusätzlich zur grundlegenden Sortiermethode bietet Pandas auch einige andere nützliche Sortierparameter, wie z. B. aufsteigende Sortierung, absteigende Sortierung, Verarbeitung fehlender Werte usw.
In der Funktion „sort_values“ können wir den Parameter „ascending“ verwenden, um eine aufsteigende oder absteigende Sortierung festzulegen. Standardmäßig ist dieser Parameter „True“, wodurch in aufsteigender Reihenfolge sortiert wird.
df_sorted = df.sort_values(by='年龄', ascending=False) print(df_sorted)
Die laufenden Ergebnisse sind wie folgt:
姓名 年龄 分数 1 李四 32 90 2 王五 28 85 0 张三 25 80 3 赵六 19 75
Sie können sehen, dass die Daten in absteigender Reihenfolge nach der Spalte „Alter“ sortiert sind.
Neben der auf- und absteigenden Sortierung können wir auch mit fehlenden Werten während des Sortiervorgangs umgehen. In der Funktion „sort_values“ können wir mit dem Parameter „na_position“ festlegen, wie mit fehlenden Werten umgegangen wird. Standardmäßig ist dieser Parameter „last“, wodurch fehlende Werte zuletzt sortiert werden. Wenn dieser Parameter auf „first“ gesetzt ist, werden fehlende Werte zuerst sortiert.
data = {'姓名': ['张三', '李四', '王五', None], '年龄': [25, None, 28, 19], '分数': [80, 90, 85, 75]} df = pd.DataFrame(data) df_sorted = df.sort_values(by='年龄', na_position='first') print(df_sorted)
Die laufenden Ergebnisse sind wie folgt:
姓名 年龄 分数 1 李四 NaN 90 3 None 19.0 75 0 张三 25.0 80 2 王五 28.0 85
Sie können sehen, dass beim Sortieren nach der Spalte „Alter“ die fehlenden Werte zuerst platziert werden.
Zusammenfassend lässt sich sagen, dass dieses Tutorial ein einfaches und leicht verständliches Tutorial zum Pandas-Sortieren vorstellt, einschließlich Sortieren nach Zeile und Sortieren nach Spalte, und spezifische Codebeispiele bereitstellt. Durch das Studium dieses Tutorials glaube ich, dass Sie Datensortierungsprobleme leicht lösen und es flexibel bei der Datenanalyse und -verarbeitung verwenden können.
Das obige ist der detaillierte Inhalt vonLösen Sie Datensortierungsprobleme einfach: einfache und leicht verständliche Pandas-Sortieranleitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!