データの視覚化と探索的分析にパンダを使用する方法
はじめに:
データ分析のプロセスでは、視覚化と探索的分析は不可欠なリンクです。 Pandas は Python の非常に強力なデータ分析ライブラリであり、データ処理機能に加えて、データの視覚化と探索的分析のための一連のツールも提供します。この記事では、データの視覚化と探索的分析にパンダを使用する方法と、具体的なコード例を紹介します。
1. データの視覚化
1. 折れ線グラフ
折れ線グラフは、時間の経過に伴うデータ変化の傾向を示すために使用できる、一般的に使用されるデータ視覚化方法です。パンダを使用して折れ線グラフを描画するのは非常に簡単で、DataFrame のプロット メソッドを呼び出すだけです。以下はサンプル コードです:
import pandas as pd # 创建一个DataFrame data = {'日期': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'], '销售额': [100, 200, 150, 180]} df = pd.DataFrame(data) # 将日期列转换成日期类型 df['日期'] = pd.to_datetime(df['日期']) # 设置日期列为索引 df.set_index('日期', inplace=True) # 绘制折线图 df.plot()
2. ヒストグラム
ヒストグラムは、さまざまなカテゴリのデータを比較するための一般的な視覚化方法です。同様に、パンダを使用してヒストグラムを描画するのは非常に簡単で、DataFrame のプロット メソッドを呼び出して、kind パラメーターを 'bar' に設定するだけです。以下はサンプル コードです:
import pandas as pd # 创建一个DataFrame data = {'城市': ['北京', '上海', '广州', '深圳'], '人口': [2152, 2424, 1348, 1303]} df = pd.DataFrame(data) # 设置城市列为索引 df.set_index('城市', inplace=True) # 绘制柱状图 df.plot(kind='bar')
3. 散布図
散布図は、2 つの数値変数間の相関を示すためによく使用されます。 Pandas には散布図を描画する機能もあります。以下はサンプル コードです:
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 绘制散点图 df.plot.scatter(x='身高', y='体重')
2. 探索的分析
1. 基本的な統計分析
pandas は、平均、中央値、最小、最大待機などの基本的な統計分析のための一連のメソッドを提供します。 。以下はサンプル コードです:
import pandas as pd # 创建一个DataFrame data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [18, 20, 22, 24], '身高': [170, 175, 180, 185]} df = pd.DataFrame(data) # 输出年龄的平均值、中位数、最小值、最大值等统计量 print('平均年龄:', df['年龄'].mean()) print('年龄中位数:', df['年龄'].median()) print('最小年龄:', df['年龄'].min()) print('最大年龄:', df['年龄'].max())
2. 相関分析
一般的に使用される方法には、相関係数と共分散が含まれます。以下はサンプル コードです:
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 计算体重和身高的相关系数和协方差 print('相关系数:', df['体重'].corr(df['身高'])) print('协方差:', df['体重'].cov(df['身高']))
3. 欠損値処理
pandas は、isnull、fillna、dropna などの欠損値処理のための一連のメソッドを提供します。以下にサンプル コードを示します。
import pandas as pd import numpy as np # 创建一个包含缺失值的DataFrame data = {'姓名': ['张三', '李四', np.nan, '赵六'], '年龄': [18, 20, np.nan, 24]} df = pd.DataFrame(data) # 判断哪些值是缺失值 print(df.isnull()) # 填充缺失值 df.fillna(0, inplace=True) # 删除包含缺失值的行 df.dropna(inplace=True)
この記事では、データの視覚化と探索的分析に pandas を使用する方法を紹介し、具体的なコード例を示します。これらのスキルを習得することで、より柔軟にデータを処理し、分析し、有意義な結論を導き出すことができます。
以上がpandas を使用したデータ視覚化と探索的データ分析のヒントと方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。