Requête de valeurs distinctes dans une colonne de dataframe
Lorsque vous travaillez avec des dataframes, il est souvent nécessaire de récupérer des lignes basées sur des valeurs distinctes dans un colonne spécifique. Cela nous permet d'éliminer les valeurs en double et d'obtenir un ensemble unique de points de données.
Considérons le cadre de données suivant :
COL1 COL2 a.com 22 b.com 45 c.com 34 e.com 45 f.com 56 g.com 22 h.com 45
Supposons que nous souhaitions extraire les lignes correspondant aux valeurs uniques de la colonne. COL2. Pour y parvenir, nous pouvons utiliser la fonction drop_duplicates de pandas. Cette fonction prend un nom de colonne comme argument et supprime les lignes en double du dataframe.
<code class="python">import pandas as pd df = pd.DataFrame(...) # assuming the given dataframe df = df.drop_duplicates('COL2')</code>
Par défaut, drop_duplicates conserve la première occurrence de chaque valeur unique. Alternativement, nous pouvons spécifier keep='last' pour conserver la dernière occurrence ou keep=False pour supprimer toutes les lignes en double :
<code class="python"># Keep first occurrence df = df.drop_duplicates('COL2', keep='first') # Keep last occurrence df = df.drop_duplicates('COL2', keep='last') # Remove all duplicates df = df.drop_duplicates('COL2', keep=False')</code>
Après avoir exécuté l'une des commandes ci-dessus, le dataframe df ne contiendra que les lignes correspondant aux valeurs distinctes de la colonne COL2 :
COL1 COL2 0 a.com 22 1 b.com 45 2 c.com 34 4 f.com 56
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!