Conseils pratiques pour utiliser Pandas pour le filtrage des données
Pandas est une puissante bibliothèque de traitement de données largement utilisée dans l'analyse et la science des données. Le filtrage des données est une tâche courante lors du traitement des données. Cet article explique comment utiliser Pandas pour le filtrage des données et fournit des exemples de code spécifiques.
1. Filtrer les données en fonction des conditions
Pandas fournit une variété d'opérateurs conditionnels pour filtrer les données en fonction des conditions. Les opérateurs couramment utilisés incluent égal (==), différent de (!=), supérieur à (>), inférieur à (=), inférieur ou égal à (
Par exemple, supposons qu'il existe un objet DataFrame df, qui contient le nom, l'âge et le score des étudiants. Nous pouvons utiliser le code suivant pour filtrer les données des étudiants dont les scores sont supérieurs ou égaux à 90 points :
df_filtered = df[df['score'] >= 90]
En plus d'une seule condition, Pandas prend également en charge l'utilisation de plusieurs conditions pour le filtrage des données. Les conditions peuvent être combinées à l'aide des opérateurs logiques et, ou et non.
Par exemple, supposons que nous souhaitions filtrer les données des étudiants âgés de 18 à 25 ans et dont les scores sont supérieurs ou égaux à 80 points. Vous pouvez utiliser le code suivant :
df_filtered = df[(df['age'] >= 18) & (df['age'] <= 25) & (df['score'] >= 80)]
2. Filtrer les données en fonction. sur l'index
L'objet DataFrame dans Pandas sera par défaut Un index entier est automatiquement généré et peut être utilisé pour le filtrage des données.
Vous pouvez utiliser l'attribut iloc pour filtrer les données en fonction de l'index de position des lignes et des colonnes.
Par exemple, supposons que nous souhaitions filtrer les données des lignes 2 à 5, vous pouvez utiliser le code suivant :
df_filtered = df.iloc[2:6, :]
Si l'index d'étiquette est défini dans l'objet DataFrame, vous peut utiliser l'attribut loc Filtrer les données en fonction de l'index des balises.
Par exemple, supposons que nous souhaitions filtrer les données des étudiants âgés de 20 ans ou plus, vous pouvez utiliser le code suivant :
df_filtered = df.loc[df['age'] >= 20, :]
3. Filtrer les données en fonction des champs
En plus du filtrage à l'aide de conditions et d'index, vous pouvez également filtrer les données en fonction des champs.
Vous pouvez utiliser les noms de colonnes pour filtrer les données de colonne spécifiées.
Par exemple, supposons que nous souhaitions filtrer uniquement les données dans les deux colonnes de nom et de notes, vous pouvez utiliser le code suivant :
df_filtered = df[['name', 'score']]
Vous pouvez utiliser la valeur du champ pour filtrer les données correspondant à la valeur du champ.
Par exemple, supposons que nous souhaitions filtrer les données des étudiants avec des scores compris entre 80 et 90 points, nous pouvons utiliser le code suivant :
df_filtered = df[df['score'].between(80, 90)]
Ce qui précède sont des conseils pratiques pour utiliser Pandas pour le filtrage des données en utilisant de manière flexible les conditions, les index et. champs, vous pouvez facilement filtrer les données dont vous avez besoin. J’espère que cet article vous aidera dans votre démarche de traitement de données !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!