Manipulation de données Pandas : extraire des nombres à partir de colonnes de chaînes
Lorsque vous travaillez avec des blocs de données dans Pandas, il devient nécessaire d'effectuer diverses manipulations pour extraire informations significatives. Une telle tâche peut impliquer l'extraction de valeurs numériques à partir de chaînes contenues dans une colonne de bloc de données. Ici, nous explorons un scénario spécifique pour répondre à cette exigence.
Considérons le bloc de données suivant avec une colonne nommée « A » contenant des valeurs de chaîne :
<code class="python">import pandas as pd import numpy as np df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'], }) print(df)</code>
L'objectif est de extraire uniquement les nombres de chaque cellule de la colonne « A », ce qui entraîne un nouveau bloc de données dans lequel la colonne « A » ne contient que des valeurs numériques.
Pour y parvenir, on peut exploiter le puissant str Fonction .extract dans Pandas. En employant un groupe de capture d'expression régulière dans l'expression str.extract, il devient possible d'isoler et d'extraire les chiffres de chaque chaîne du bloc de données :
<code class="python">df.A.str.extract('(\d+)')</code>
Le modèle d'expression régulière '(d )' correspond à un ou plus de chiffres (d) et les capture en tant que groupe (les parenthèses ( et )). L'exécution du code ci-dessus donne le résultat suivant :
<code class="python"> A 0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object</code>
Les chaînes d'origine de la colonne « A » sont converties avec succès en valeurs numériques, tandis que NaN est conservé pour les cellules avec des valeurs manquantes. Cette méthode s'avère particulièrement efficace pour extraire des nombres entiers à partir de chaînes, ce qui en fait un outil précieux dans les scénarios d'analyse et de manipulation de données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!