Recherche de lignes avec des valeurs maximales de colonne B pour les valeurs de colonne A en double
Dans l'analyse des données, il est souvent nécessaire de supprimer les enregistrements en double tout en conservant données uniques. Un scénario courant implique un ensemble de données avec des valeurs en double dans une colonne particulière (colonne A), où l'objectif est de conserver la ligne avec la valeur la plus élevée dans une autre colonne (colonne B).
Pour y parvenir, le premier La solution utilise la fonction drop_duplicates() avec le paramètre keep="last". Cela supprime les lignes en double basées sur la colonne A tout en conservant la dernière ligne vue, quelle que soit la valeur dans la colonne B.
Cependant, si l'objectif est de conserver la ligne avec la valeur maximale dans la colonne B, ce qui précède la solution ne convient pas. Au lieu de cela, une combinaison de groupby() et apply(), similaire à la deuxième solution fournie, peut être utilisée. Cette approche regroupe les lignes par colonne A, applique une fonction à chaque groupe et sélectionne la ligne avec la valeur maximale dans la colonne B au sein de chaque groupe.
Mise en œuvre :
import pandas as pd # Create data frame with duplicate values in column A df = pd.DataFrame([[1, 10], [1, 20], [2, 30], [2, 40], [3, 10]], columns=['A', 'B']) # Keep row with maximum value in column B for each duplicate in column A max_b_rows = df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()]) # Display resulting data frame print(max_b_rows)
Sortie :
A B A 1 1 20 2 2 40 3 3 10
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!