Comment diviser une colonne de chaîne de dataframe en deux colonnes ?
Dans le domaine de l'analyse des données, rencontrer des dataframes avec des colonnes de chaîne qui doivent être divisé est un phénomène courant. Pour réaliser cet exploit, deux questions essentielles se posent :
La solution réside dans l'attribut str polyvalent d'une série pandas, en particulier son indexation interface :
df['AB'].str[0] # accesses the first element of each string df['AB'].str[1] # accesses the second element of each string
En tirant parti de cette interface d'indexation et du déballage des tuples, nous pouvons créer de nouvelles colonnes avec les éléments fractionnés :
df['A'], df['B'] = df['AB'].str.split('-').str
Alternativement, Pandas fournit une méthode intégrée pratique, str.split(), pour diviser les chaînes et renvoyer automatiquement une série de listes :
df['AB_split'] = df['AB'].str.split('-')
Pour développer cette liste en plusieurs colonnes, nous utilisons le paramètre expand=True :
df[['A', 'B']] = df['AB'].str.split(' ', n=1, expand=True)
Pour les cas avec des longueurs de division variées, expand=True le gère avec élégance, garantissant des longueurs de colonnes cohérentes :
df.join(df['AB'].str.split('-', expand=True).rename(columns={0:'A', 1:'B', 2:'C'}))
Grâce à ces techniques , Pandas vous permet de diviser efficacement les colonnes de chaînes et de restructurer votre dataframe pour répondre à vos besoins d'analyse spécifiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!