Tutoriel de tri des pandas simple et facile à comprendre : permet de traiter facilement les problèmes de tri des données, des exemples de code spécifiques sont nécessaires
Dans l'analyse et le traitement des données, il est souvent nécessaire de trier les données afin de mieux comprendre les caractéristiques et les modèles des données. En Python, la bibliothèque pandas est l'un des outils importants pour l'analyse et le traitement des données. Ce didacticiel explique comment utiliser pandas pour trier les données de manière rapide et flexible, et fournit des exemples de code spécifiques.
1. Concepts de base du tri des données
Avant le tri, nous devons comprendre les concepts de base du tri des données. Dans les pandas, il existe deux manières principales de trier les données : le tri par ligne et le tri par colonne.
Trier par ligne : Triez la ligne entière de données en fonction de la valeur d'une ou plusieurs colonnes spécifiques. Cela permet de connaître rapidement le classement d'une ou plusieurs colonnes de données.
Trier par colonne : Triez toute la colonne de données en fonction de la taille numérique. Cela trie les données selon une certaine caractéristique, ce qui les rend plus faciles à comprendre et à analyser.
2. Trier par lignes
1. Trier par colonne unique
Tout d'abord, nous devons créer un ensemble de données simple pour démontrer le processus de tri des données.
import pandas as pd data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [25, 32, 28, 19], '分数': [80, 90, 85, 75]} df = pd.DataFrame(data)
Ensuite, nous pouvons trier les données à l'aide de la fonction "sort_values". Par défaut, cette fonction trie par ordre croissant selon la colonne spécifiée.
df_sorted = df.sort_values(by='年龄') print(df_sorted)
Les résultats courants sont les suivants :
姓名 年龄 分数 3 赵六 19 75 0 张三 25 80 2 王五 28 85 1 李四 32 90
Vous pouvez voir qu'après le tri par la colonne "âge", les données sont triées par ordre croissant.
2. Trier par plusieurs colonnes
Si nous devons trier par plusieurs colonnes, il nous suffit de transmettre plusieurs noms de colonnes dans le paramètre "par".
df_sorted = df.sort_values(by=['年龄', '分数']) print(df_sorted)
Les résultats en cours sont les suivants :
姓名 年龄 分数 3 赵六 19 75 0 张三 25 80 2 王五 28 85 1 李四 32 90
Vous pouvez voir que les données sont d'abord triées par la colonne "âge", puis triées par la colonne "score".
3. Trier par colonne
Le tri par colonne consiste principalement à trier la colonne entière de données en fonction de la taille numérique afin de mieux comprendre et analyser les données.
1. Trier par nom de colonne
Nous pouvons utiliser la fonction "sort_index" pour trier les colonnes. Par défaut, cette fonction trie par ordre alphabétique par nom de colonne.
df_sorted = df.sort_index(axis=1) print(df_sorted)
Les résultats en cours d'exécution sont les suivants :
分数 年龄 姓名 0 80 25 张三 1 90 32 李四 2 85 28 王五 3 75 19 赵六
Vous pouvez voir que les données sont triées par ordre alphabétique selon les noms de colonnes "Score", "Âge" et "Nom".
2. Trier par données de colonne
Nous pouvons également trier en fonction de la taille des données de colonne, il suffit de transmettre les données de colonne dans le paramètre "par".
df_sorted = df.sort_values(by='年龄', axis=1) print(df_sorted)
Les résultats d'exécution sont les suivants :
姓名 分数 年龄 0 张三 80 25 1 李四 90 32 2 王五 85 28 3 赵六 75 19
Vous pouvez voir que les données sont d'abord triées par la colonne "âge", puis triées par les données de la colonne correspondante.
4. Autres paramètres de tri
En plus de la méthode de tri de base, pandas fournit également d'autres paramètres de tri utiles, tels que le tri ascendant, le tri décroissant, le traitement des valeurs manquantes, etc.
Dans la fonction "sort_values", nous pouvons utiliser le paramètre "ascending" pour spécifier un tri croissant ou décroissant. Par défaut, ce paramètre est "True", qui trie par ordre croissant.
df_sorted = df.sort_values(by='年龄', ascending=False) print(df_sorted)
Les résultats en cours d'exécution sont les suivants :
姓名 年龄 分数 1 李四 32 90 2 王五 28 85 0 张三 25 80 3 赵六 19 75
Vous pouvez voir que les données sont triées par ordre décroissant selon la colonne "âge".
En plus du tri ascendant et décroissant, nous pouvons également gérer les valeurs manquantes lors du processus de tri. Dans la fonction "sort_values", nous pouvons utiliser le paramètre "na_position" pour spécifier comment les valeurs manquantes sont gérées. Par défaut, ce paramètre est "last", qui trie les valeurs manquantes en dernier ; lorsque ce paramètre est défini sur "first", il trie les valeurs manquantes en premier.
data = {'姓名': ['张三', '李四', '王五', None], '年龄': [25, None, 28, 19], '分数': [80, 90, 85, 75]} df = pd.DataFrame(data) df_sorted = df.sort_values(by='年龄', na_position='first') print(df_sorted)
Les résultats en cours d'exécution sont les suivants :
姓名 年龄 分数 1 李四 NaN 90 3 None 19.0 75 0 张三 25.0 80 2 王五 28.0 85
Vous pouvez voir que lors du tri par la colonne "âge", les valeurs manquantes sont placées en premier.
Pour résumer, ce tutoriel présente un tutoriel de tri de pandas simple et facile à comprendre, comprenant le tri par ligne et le tri par colonne, et fournit des exemples de code spécifiques. En étudiant ce didacticiel, je pense que vous pouvez facilement résoudre les problèmes de tri des données et l'utiliser de manière flexible dans l'analyse et le traitement des données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!