Cara menggunakan panda untuk visualisasi data dan analisis penerokaan
Pengenalan:
Dalam proses analisis data, visualisasi dan analisis penerokaan adalah pautan yang sangat diperlukan. Pandas ialah perpustakaan analisis data yang sangat berkuasa dalam Python Selain fungsi pemprosesan data, ia juga menyediakan satu siri alat untuk visualisasi data dan analisis penerokaan. Artikel ini akan memperkenalkan cara menggunakan panda untuk visualisasi data dan analisis penerokaan, serta memberikan contoh kod khusus.
1. Visualisasi Data
1. Carta Garisan ialah kaedah visualisasi data yang biasa digunakan untuk menunjukkan trend perubahan data dari semasa ke semasa. Melukis carta garisan menggunakan panda adalah sangat mudah, cuma panggil kaedah plot DataFrame. Berikut ialah contoh kod:
import pandas as pd # 创建一个DataFrame data = {'日期': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'], '销售额': [100, 200, 150, 180]} df = pd.DataFrame(data) # 将日期列转换成日期类型 df['日期'] = pd.to_datetime(df['日期']) # 设置日期列为索引 df.set_index('日期', inplace=True) # 绘制折线图 df.plot()
Histogram ialah kaedah visualisasi biasa untuk membandingkan kategori data yang berbeza. Begitu juga, sangat mudah untuk melukis histogram menggunakan panda Anda hanya perlu memanggil kaedah plot DataFrame dan menetapkan parameter jenis kepada 'bar'. Berikut ialah contoh kod:
import pandas as pd # 创建一个DataFrame data = {'城市': ['北京', '上海', '广州', '深圳'], '人口': [2152, 2424, 1348, 1303]} df = pd.DataFrame(data) # 设置城市列为索引 df.set_index('城市', inplace=True) # 绘制柱状图 df.plot(kind='bar')
Plot serakan selalu digunakan untuk menunjukkan korelasi antara dua pembolehubah berangka. Panda juga menyediakan fungsi melukis plot berselerak. Berikut ialah kod sampel:
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 绘制散点图 df.plot.scatter(x='身高', y='体重')
1. Analisis statistik asas
pandas menyediakan satu siri kaedah untuk analisis statistik asas, seperti min, median, min, maks, dll. Berikut ialah kod sampel:
import pandas as pd # 创建一个DataFrame data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [18, 20, 22, 24], '身高': [170, 175, 180, 185]} df = pd.DataFrame(data) # 输出年龄的平均值、中位数、最小值、最大值等统计量 print('平均年龄:', df['年龄'].mean()) print('年龄中位数:', df['年龄'].median()) print('最小年龄:', df['年龄'].min()) print('最大年龄:', df['年龄'].max())
Kaedah biasa termasuk pekali korelasi dan kovarians. Berikut ialah kod contoh:
import pandas as pd # 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) # 计算体重和身高的相关系数和协方差 print('相关系数:', df['体重'].corr(df['身高'])) print('协方差:', df['体重'].cov(df['身高']))
pandas menyediakan satu siri kaedah untuk pemprosesan nilai hilang, seperti isnull, fillna, dropna, dll. Berikut ialah contoh kod:
import pandas as pd import numpy as np # 创建一个包含缺失值的DataFrame data = {'姓名': ['张三', '李四', np.nan, '赵六'], '年龄': [18, 20, np.nan, 24]} df = pd.DataFrame(data) # 判断哪些值是缺失值 print(df.isnull()) # 填充缺失值 df.fillna(0, inplace=True) # 删除包含缺失值的行 df.dropna(inplace=True)
Atas ialah kandungan terperinci Petua dan kaedah untuk visualisasi data dan analisis data penerokaan menggunakan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!