Concaténation de chaînes de plusieurs lignes à l'aide de Pandas Groupby
Dans le domaine de la manipulation de données avec Pandas, il est souvent nécessaire de combiner des chaînes de plusieurs lignes en fonction de critères spécifiques. Les opérations Groupby constituent un moyen puissant d’y parvenir. Examinons un exemple pratique.
Supposons que nous ayons un DataFrame avec les colonnes « nom », « texte » et « date ». Nous souhaitons concaténer les entrées « texte » pour chaque combinaison unique de « nom » et de « mois ». Pour ce faire, nous pouvons utiliser les étapes suivantes :
GroupBy et Transform : Regroupez le DataFrame par colonnes "nom" et "mois". Ensuite, appliquez l'opération de transformation et utilisez une fonction lambda pour joindre les entrées "texte" avec un séparateur par virgule :
df['text'] = df[['name','text','month']].groupby(['name','month'])['text'].transform(lambda x: ','.join(x))
Supprimer les doublons : Le 'transformé La colonne de texte peut contenir des entrées en double. Pour conserver les entrées uniques, supprimez les doublons en fonction des colonnes « nom » et « mois » :
df[['name','text','month']].drop_duplicates()
Alternativement, nous pouvons simplifier le processus en utilisant apply et reset_index pour obtenir le résultat souhaité. sortie :
df.groupby(['name','month'])['text'].apply(','.join).reset_index()
Ces méthodes permettent une concaténation efficace de chaînes de plusieurs lignes dans un Pandas DataFrame, rendant les tâches de manipulation de données plus gérable.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!