pandas を使用したデータ視覚化と探索的データ分析のヒントと方法

WBOY
リリース: 2024-01-13 15:40:17
オリジナル
1366 人が閲覧しました

pandas を使用したデータ視覚化と探索的データ分析のヒントと方法

データの視覚化と探索的分析にパンダを使用する方法

はじめに:
データ分析のプロセスでは、視覚化と探索的分析は不可欠なリンクです。 Pandas は Python の非常に強力なデータ分析ライブラリであり、データ処理機能に加えて、データの視覚化と探索的分析のための一連のツールも提供します。この記事では、データの視覚化と探索的分析にパンダを使用する方法と、具体的なコード例を紹介します。

1. データの視覚化
1. 折れ線グラフ
折れ線グラフは、時間の経過に伴うデータ変化の傾向を示すために使用できる、一般的に使用されるデータ視覚化方法です。パンダを使用して折れ線グラフを描画するのは非常に簡単で、DataFrame のプロット メソッドを呼び出すだけです。以下はサンプル コードです:

import pandas as pd

# 创建一个DataFrame
data = {'日期': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'],
        '销售额': [100, 200, 150, 180]}
df = pd.DataFrame(data)

# 将日期列转换成日期类型
df['日期'] = pd.to_datetime(df['日期'])

# 设置日期列为索引
df.set_index('日期', inplace=True)

# 绘制折线图
df.plot()
ログイン後にコピー

2. ヒストグラム
ヒストグラムは、さまざまなカテゴリのデータを比較するための一般的な視覚化方法です。同様に、パンダを使用してヒストグラムを描画するのは非常に簡単で、DataFrame のプロット メソッドを呼び出して、kind パラメーターを 'bar' に設定するだけです。以下はサンプル コードです:

import pandas as pd

# 创建一个DataFrame
data = {'城市': ['北京', '上海', '广州', '深圳'],
        '人口': [2152, 2424, 1348, 1303]}
df = pd.DataFrame(data)

# 设置城市列为索引
df.set_index('城市', inplace=True)

# 绘制柱状图
df.plot(kind='bar')
ログイン後にコピー

3. 散布図
散布図は、2 つの数値変数間の相関を示すためによく使用されます。 Pandas には散布図を描画する機能もあります。以下はサンプル コードです:

import pandas as pd

# 创建一个DataFrame
data = {'体重': [65, 75, 58, 80, 68],
        '身高': [175, 180, 160, 190, 170]}
df = pd.DataFrame(data)

# 绘制散点图
df.plot.scatter(x='身高', y='体重')
ログイン後にコピー

2. 探索的分析
1. 基本的な統計分析
pandas は、平均、中央値、最小、最大待機などの基本的な統計分析のための一連のメソッドを提供します。 。以下はサンプル コードです:

import pandas as pd

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [18, 20, 22, 24],
        '身高': [170, 175, 180, 185]}
df = pd.DataFrame(data)

# 输出年龄的平均值、中位数、最小值、最大值等统计量
print('平均年龄:', df['年龄'].mean())
print('年龄中位数:', df['年龄'].median())
print('最小年龄:', df['年龄'].min())
print('最大年龄:', df['年龄'].max())
ログイン後にコピー

2. 相関分析
一般的に使用される方法には、相関係数と共分散が含まれます。以下はサンプル コードです:

import pandas as pd

# 创建一个DataFrame
data = {'体重': [65, 75, 58, 80, 68],
        '身高': [175, 180, 160, 190, 170]}
df = pd.DataFrame(data)

# 计算体重和身高的相关系数和协方差
print('相关系数:', df['体重'].corr(df['身高']))
print('协方差:', df['体重'].cov(df['身高']))
ログイン後にコピー

3. 欠損値処理
pandas は、isnull、fillna、dropna などの欠損値処理のための一連のメソッドを提供します。以下にサンプル コードを示します。

import pandas as pd
import numpy as np

# 创建一个包含缺失值的DataFrame
data = {'姓名': ['张三', '李四', np.nan, '赵六'],
        '年龄': [18, 20, np.nan, 24]}
df = pd.DataFrame(data)

# 判断哪些值是缺失值
print(df.isnull())

# 填充缺失值
df.fillna(0, inplace=True)

# 删除包含缺失值的行
df.dropna(inplace=True)
ログイン後にコピー

この記事では、データの視覚化と探索的分析に pandas を使用する方法を紹介し、具体的なコード例を示します。これらのスキルを習得することで、より柔軟にデータを処理し、分析し、有意義な結論を導き出すことができます。

以上がpandas を使用したデータ視覚化と探索的データ分析のヒントと方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート