Comment utiliser les pandas pour la visualisation des données et l'analyse exploratoire
Introduction :
Dans le processus d'analyse des données, la visualisation et l'analyse exploratoire sont des liens indispensables. Pandas est une bibliothèque d'analyse de données très puissante en Python En plus des fonctions de traitement de données, elle fournit également une série d'outils pour la visualisation des données et l'analyse exploratoire. Cet article expliquera comment utiliser les pandas pour la visualisation de données et l'analyse exploratoire, et donnera des exemples de code spécifiques.
1. Visualisation des données
1. Graphique linéaire
Le graphique linéaire est une méthode de visualisation de données couramment utilisée qui peut être utilisée pour montrer la tendance des changements de données au fil du temps. Dessiner un graphique linéaire à l'aide de pandas est très simple, il suffit d'appeler la méthode plot de DataFrame. Voici un exemple de code :
import pandas as pd # 创建一个DataFrame data = {'日期': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'], '销售额': [100, 200, 150, 180]} df = pd.DataFrame(data) # 将日期列转换成日期类型 df['日期'] = pd.to_datetime(df['日期']) # 设置日期列为索引 df.set_index('日期', inplace=True) # 绘制折线图 df.plot()
2. Histogramme
L'histogramme est une méthode de visualisation courante pour comparer différentes catégories de données. De même, il est très simple de dessiner un histogramme à l'aide de pandas. Il vous suffit d'appeler la méthode plot de DataFrame et de définir le paramètre kind sur 'bar'. Voici un exemple de code :
import pandas as pd # 创建一个DataFrame data = {'城市': ['北京', '上海', '广州', '深圳'], '人口': [2152, 2424, 1348, 1303]} df = pd.DataFrame(data) # 设置城市列为索引 df.set_index('城市', inplace=True) # 绘制柱状图 df.plot(kind='bar')
3. Nuage de points
Les nuages de points sont souvent utilisés pour montrer la corrélation entre deux variables numériques. Pandas fournit également la fonction de dessiner des nuages de points. Voici un exemple de code :
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 绘制散点图 df.plot.scatter(x='身高', y='体重')
2. Analyse exploratoire
1. Analyse statistique de base
pandas fournit une série de méthodes pour l'analyse statistique de base, telles que la moyenne, la médiane, le minimum, le maximum, etc. Voici un exemple de code :
import pandas as pd # 创建一个DataFrame data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [18, 20, 22, 24], '身高': [170, 175, 180, 185]} df = pd.DataFrame(data) # 输出年龄的平均值、中位数、最小值、最大值等统计量 print('平均年龄:', df['年龄'].mean()) print('年龄中位数:', df['年龄'].median()) print('最小年龄:', df['年龄'].min()) print('最大年龄:', df['年龄'].max())
2. Analyse de corrélation
Les méthodes courantes incluent le coefficient de corrélation et la covariance. Voici un exemple de code :
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 计算体重和身高的相关系数和协方差 print('相关系数:', df['体重'].corr(df['身高'])) print('协方差:', df['体重'].cov(df['身高']))
3. Traitement des valeurs manquantes
pandas fournit une série de méthodes pour le traitement des valeurs manquantes, telles que isnull, fillna, dropna, etc. Voici un exemple de code :
import pandas as pd import numpy as np # 创建一个包含缺失值的DataFrame data = {'姓名': ['张三', '李四', np.nan, '赵六'], '年龄': [18, 20, np.nan, 24]} df = pd.DataFrame(data) # 判断哪些值是缺失值 print(df.isnull()) # 填充缺失值 df.fillna(0, inplace=True) # 删除包含缺失值的行 df.dropna(inplace=True)
Cet article explique comment utiliser les pandas pour la visualisation des données et l'analyse exploratoire, et donne des exemples de code spécifiques. En maîtrisant ces techniques, vous pouvez traiter les données de manière plus flexible, les analyser et tirer des conclusions significatives.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!