Maison > développement back-end > Tutoriel Python > Comment puis-je sélectionner efficacement des lignes dans un DataFrame Pandas en fonction des valeurs de colonne ?

Comment puis-je sélectionner efficacement des lignes dans un DataFrame Pandas en fonction des valeurs de colonne ?

Patricia Arquette
Libérer: 2024-12-25 16:02:15
original
806 Les gens l'ont consulté

How Can I Efficiently Select Rows in a Pandas DataFrame Based on Column Values?

Sélection de lignes en fonction des valeurs de colonne dans Pandas

Comme toute base de données relationnelle, vous devrez peut-être sélectionner certaines lignes d'un DataFrame en fonction des valeurs d'une colonne particulière. Pour y parvenir de manière transparente dans Pandas, plusieurs méthodes sont à votre disposition.

Filtrage avec == et isin

Pour récupérer les lignes dont les valeurs de colonne correspondent à une valeur spécifique, utilisez l'opérateur == :

1

df.loc[df['column_name'] == some_value]

Copier après la connexion

À l'inverse, si vous souhaitez sélectionner des lignes où les valeurs de colonne appartiennent à une collection de valeurs, utilisez isin :

1

df.loc[df['column_name'].isin(some_values)]

Copier après la connexion

Combinaison de conditions avec &

Pour combiner plusieurs conditions dans votre sélection, connectez-les avec & :

1

df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]

Copier après la connexion

Remarque : Les parenthèses sont ici cruciales pour garantir une évaluation correcte.

Exclure les valeurs avec != et ~

Pour exclure des lignes avec des valeurs de colonne spécifiques, utilisez !=:

1

df.loc[df['column_name'] != some_value]

Copier après la connexion

Alternativement, pour les valeurs en dehors d'une certaine plage, annulez le résultat isin en utilisant ~:

1

df = df.loc[~df['column_name'].isin(some_values)] # .loc is not in-place replacement

Copier après la connexion

Exemples d'applications

Considérez ce qui suit DataFrame :

1

2

3

4

5

6

import pandas as pd

import numpy as np

df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),

                   'B': 'one one two three two two one three'.split(),

                   'C': np.arange(8), 'D': np.arange(8) * 2})

print(df)

Copier après la connexion

Sélection de lignes avec la valeur « A » « foo » :

1

print(df.loc[df['A'] == 'foo'])

Copier après la connexion

Sélection de lignes avec les valeurs « B » « un » ou « trois » :

1

print(df.loc[df['B'].isin(['one','three'])])

Copier après la connexion

Performances améliorées avec l'indexation

Pour les opérations de filtrage fréquentes, c'est plus efficace pour créer d'abord un index :

1

2

df = df.set_index(['B'])

print(df.loc['one'])

Copier après la connexion

Vous pouvez également utiliser df.index.isin :

1

df.loc[df.index.isin(['one','two'])]

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal