Cara menggunakan modul panda untuk analisis data dalam Python 2.x
Ikhtisar:
Dalam proses analisis data dan pemprosesan data, panda ialah perpustakaan Python yang sangat berkuasa dan biasa digunakan. Ia menyediakan struktur data dan alat analisis data untuk pemprosesan dan analisis data yang pantas dan cekap. Artikel ini akan memperkenalkan cara menggunakan panda untuk analisis data dalam Python 2.x dan memberikan pembaca beberapa contoh kod.
Pasang panda:
Sebelum bermula, anda perlu memasang perpustakaan panda terlebih dahulu. Anda boleh memasukkan arahan berikut melalui terminal atau command prompt untuk memasang:
pip install pandas
Struktur data:
pandas menyediakan dua struktur data utama: 1) Siri 2) DataFrame.
Siri ialah struktur tatasusunan satu dimensi yang diindeks, serupa dengan lajur dalam Excel. Contoh kod:
import pandas as pd # 创建一个Series对象 data = pd.Series([1, 3, 5, np.nan, 6, 8]) print(data)
Hasil keluaran:
0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64
DataFrame ialah struktur jadual dua dimensi, serupa dengan jadual dalam Excel. Contoh kod:
import pandas as pd import numpy as np # 创建一个DataFrame对象 data = pd.DataFrame({ "A": [1, 2, 3, 4], "B": pd.Timestamp('20130102'), "C": pd.Series(1, index=list(range(4)), dtype='float32'), "D": np.array([3] * 4, dtype='int32'), "E": pd.Categorical(["test", "train", "test", "train"]), "F": 'foo' }) print(data)
Hasil keluaran:
A B C D E F 0 1 2013-01-02 1.0 3 test foo 1 2 2013-01-02 1.0 3 train foo 2 3 2013-01-02 1.0 3 test foo 3 4 2013-01-02 1.0 3 train foo
Membaca dan menulis data:
panda boleh membaca dan menulis berbilang format data, termasuk fail CSV, fail Excel, pangkalan data SQL, dsb.
Contoh bacaan fail CSV:
import pandas as pd # 从CSV文件中读取数据 data = pd.read_csv('data.csv') print(data.head())
Contoh bacaan fail Excel:
import pandas as pd # 从Excel文件中读取数据 data = pd.read_excel('data.xlsx') print(data.head())
Analisis dan pemprosesan data:
pandas menyediakan banyak fungsi dan kaedah berkuasa untuk analisis dan pemprosesan data.
Contoh analisis statistik data:
import pandas as pd # 读取数据 data = pd.read_csv('data.csv') # 统计描述性统计信息 print(data.describe()) # 计算各列之间的相关系数 print(data.corr())
Contoh penapisan dan pengisihan data:
import pandas as pd # 读取数据 data = pd.read_csv('data.csv') # 筛选出满足条件的数据 filtered_data = data[data['age'] > 30] # 按照某列进行排序 sorted_data = data.sort_values('age') print(filtered_data.head()) print(sorted_data.head())
Contoh pengumpulan dan pengagregatan data:
import pandas as pd # 读取数据 data = pd.read_csv('data.csv') # 按照某一列进行分组 grouped_data = data.groupby('gender') # 计算每组的平均值 mean_data = grouped_data.mean() print(mean_data)
Menulis data ke CSV atau contoh fail Excel:
rreee daspanRingkasan: perpustakaan analisis data yang biasa digunakan. Artikel ini memperkenalkan kaedah pemasangan panda dan struktur data biasa, kaedah membaca dan menulis data, serta kaedah biasa analisis dan pemprosesan data. Pembaca boleh menggunakan panda secara fleksibel untuk analisis dan pemprosesan data mengikut keperluan mereka sendiri.
Atas ialah kandungan terperinci Cara menggunakan modul panda untuk analisis data dalam Python 2.x. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!