Python est un langage de programmation de haut niveau largement utilisé dans le domaine de la science des données. Il est largement utilisé dans la collecte, le nettoyage, l'analyse et la visualisation de données. La gestion des données est une compétence essentielle dans le traitement des données. Cet article présentera quelques techniques courantes de gestion des données en Python pour aider les lecteurs à mieux traiter et analyser les données.
Dans le processus de régularisation des données, il est souvent nécessaire de convertir différents types de données. Les types de données courants incluent les chaînes, les entiers, les nombres à virgule flottante et les valeurs booléennes. Python fournit de puissantes fonctions de conversion de type, telles que int(), float(), str(), bool(), etc., qui peuvent convertir un type de données en un autre type de données, telles que :
# 将字符串转换成整数 age_str = '18' age_int = int(age_str) # 将整数转换成字符串 age_int = 18 age_str = str(age_int) # 将浮点数转换成整数 height_float = 1.75 height_int = int(height_float) # 将整数转换成布尔值 num = 0 is_zero = bool(num) # False
Lors du traitement d'une grande quantité de données, des données en double peuvent se produire et des techniques de déduplication des données doivent être utilisées. L'utilisation de la fonction set() en Python peut rapidement supprimer les éléments en double d'une liste, par exemple :
# 去除列表中的重复元素 lst = [1, 2, 3, 2, 4, 1] lst_unique = list(set(lst)) print(lst_unique) # [1, 2, 3, 4]
Dans le processus de régularisation des données, il est parfois nécessaire de remplir les valeurs manquantes pour une meilleure suite traitement . La fonction fillna() en Python peut être utilisée pour remplir facilement des données, par exemple :
# 对缺失值进行填充 import pandas as pd df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [18, None, 21], 'gender': ['F', 'M', None]}) df_fill = df.fillna(value={'age': df['age'].mean(), 'gender': 'U'}) print(df_fill)
Le résultat de sortie est le suivant :
name age gender 0 Alice 18.0 F 1 Bob 19.5 M 2 Charlie 21.0 U
Dans le processus de régularisation des données, un remodelage des données peut être nécessaire pour améliorez-le pour un traitement ultérieur. L'utilisation de la fonction pivot() en Python peut facilement remodeler les données, par exemple :
# 数据重塑 import pandas as pd df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'gender': ['F', 'M', 'M'], 'subject': ['Math', 'Math', 'English'], 'score': [90, 87, 88]}) df_res = df.pivot(index='name', columns='subject', values='score') print(df_res)
Le résultat de sortie est le suivant :
subject English Math name Alice NaN 90.0 Bob NaN 87.0 Charlie 88.0 NaN
Dans les opérations réelles, les données sont généralement stockées dans différentes tables et doivent être fusionner. L'utilisation de la fonction merge() en Python peut faciliter la fusion de données, par exemple :
# 数据合并 import pandas as pd df1 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [18, 19, 21], 'gender': ['F', 'M', 'M']}) df2 = pd.DataFrame({'name': ['Alice', 'Bob'], 'score': [90, 87]}) df_merge = pd.merge(df1, df2, on='name') print(df_merge)
Le résultat de sortie est le suivant :
name age gender score 0 Alice 18 F 90 1 Bob 19 M 87
En résumé, les compétences de mise en forme des données en Python incluent la conversion de types de données, la déduplication des données, le remplissage des données et le remodelage des données. et fusion de données, etc. Ces techniques peuvent aider les lecteurs à mieux traiter et analyser les données et à améliorer l'efficacité et la précision du traitement des données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!