Maison > développement back-end > Tutoriel Python > Conseils et méthodes pour la visualisation et l'analyse exploratoire des données à l'aide de pandas

Conseils et méthodes pour la visualisation et l'analyse exploratoire des données à l'aide de pandas

WBOY
Libérer: 2024-01-13 15:40:17
original
1390 Les gens l'ont consulté

Conseils et méthodes pour la visualisation et lanalyse exploratoire des données à laide de pandas

Comment utiliser les pandas pour la visualisation des données et l'analyse exploratoire

Introduction :
Dans le processus d'analyse des données, la visualisation et l'analyse exploratoire sont des liens indispensables. Pandas est une bibliothèque d'analyse de données très puissante en Python En plus des fonctions de traitement de données, elle fournit également une série d'outils pour la visualisation des données et l'analyse exploratoire. Cet article expliquera comment utiliser les pandas pour la visualisation de données et l'analyse exploratoire, et donnera des exemples de code spécifiques.

1. Visualisation des données
1. Graphique linéaire
Le graphique linéaire est une méthode de visualisation de données couramment utilisée qui peut être utilisée pour montrer la tendance des changements de données au fil du temps. Dessiner un graphique linéaire à l'aide de pandas est très simple, il suffit d'appeler la méthode plot de DataFrame. Voici un exemple de code :

import pandas as pd

# 创建一个DataFrame
data = {'日期': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'],
        '销售额': [100, 200, 150, 180]}
df = pd.DataFrame(data)

# 将日期列转换成日期类型
df['日期'] = pd.to_datetime(df['日期'])

# 设置日期列为索引
df.set_index('日期', inplace=True)

# 绘制折线图
df.plot()
Copier après la connexion

2. Histogramme
L'histogramme est une méthode de visualisation courante pour comparer différentes catégories de données. De même, il est très simple de dessiner un histogramme à l'aide de pandas. Il vous suffit d'appeler la méthode plot de DataFrame et de définir le paramètre kind sur 'bar'. Voici un exemple de code :

import pandas as pd

# 创建一个DataFrame
data = {'城市': ['北京', '上海', '广州', '深圳'],
        '人口': [2152, 2424, 1348, 1303]}
df = pd.DataFrame(data)

# 设置城市列为索引
df.set_index('城市', inplace=True)

# 绘制柱状图
df.plot(kind='bar')
Copier après la connexion

3. Nuage de points
Les nuages ​​de points sont souvent utilisés pour montrer la corrélation entre deux variables numériques. Pandas fournit également la fonction de dessiner des nuages ​​de points. Voici un exemple de code :

import pandas as pd

# 创建一个DataFrame
data = {'体重': [65, 75, 58, 80, 68],
        '身高': [175, 180, 160, 190, 170]}
df = pd.DataFrame(data)

# 绘制散点图
df.plot.scatter(x='身高', y='体重')
Copier après la connexion

2. Analyse exploratoire
1. Analyse statistique de base
pandas fournit une série de méthodes pour l'analyse statistique de base, telles que la moyenne, la médiane, le minimum, le maximum, etc. Voici un exemple de code :

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [18, 20, 22, 24],
        '身高': [170, 175, 180, 185]}
df = pd.DataFrame(data)

# 输出年龄的平均值、中位数、最小值、最大值等统计量
print('平均年龄:', df['年龄'].mean())
print('年龄中位数:', df['年龄'].median())
print('最小年龄:', df['年龄'].min())
print('最大年龄:', df['年龄'].max())
Copier après la connexion

2. Analyse de corrélation
Les méthodes courantes incluent le coefficient de corrélation et la covariance. Voici un exemple de code :

import pandas as pd

# 创建一个DataFrame
data = {'体重': [65, 75, 58, 80, 68],
        '身高': [175, 180, 160, 190, 170]}
df = pd.DataFrame(data)

# 计算体重和身高的相关系数和协方差
print('相关系数:', df['体重'].corr(df['身高']))
print('协方差:', df['体重'].cov(df['身高']))
Copier après la connexion

3. Traitement des valeurs manquantes
pandas fournit une série de méthodes pour le traitement des valeurs manquantes, telles que isnull, fillna, dropna, etc. Voici un exemple de code :

import pandas as pd
import numpy as np

# 创建一个包含缺失值的DataFrame
data = {'姓名': ['张三', '李四', np.nan, '赵六'],
        '年龄': [18, 20, np.nan, 24]}
df = pd.DataFrame(data)

# 判断哪些值是缺失值
print(df.isnull())

# 填充缺失值
df.fillna(0, inplace=True)

# 删除包含缺失值的行
df.dropna(inplace=True)
Copier après la connexion

Cet article explique comment utiliser les pandas pour la visualisation des données et l'analyse exploratoire, et donne des exemples de code spécifiques. En maîtrisant ces techniques, vous pouvez traiter les données de manière plus flexible, les analyser et tirer des conclusions significatives.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal