Gunakan panda untuk membaca fail Excel dan melaksanakan import dan analisis data dengan mudah
pandas ialah alat yang berkuasa untuk analisis data dalam Python Ia boleh memproses data dalam pelbagai format secara fleksibel dan cekap. Dalam analisis data, Excel ialah format data yang biasa digunakan, dan panda menyediakan antara muka yang mudah yang membolehkan kami mengimport fail Excel dengan cepat ke dalam data dan menganalisis serta memproses data.
Artikel ini akan memperkenalkan cara menggunakan perpustakaan panda untuk membaca fail Excel, dan cara menggunakan panda untuk analisis data, sambil memberikan contoh kod.
1. Membaca fail Excel
Untuk membaca fail Excel, anda boleh menggunakan fungsi read_excel yang disediakan oleh panda, yang boleh terus membaca fail Excel dan menukarnya kepada jenis data DataFrame. Berikut ialah contoh kod untuk membaca fail Excel:
import pandas as pd # 读取Excel文件 filename = 'data.xlsx' df = pd.read_excel(filename) # 查看数据前5行 print(df.head())
Dalam kod di atas, kami mula-mula mengimport perpustakaan panda dan menentukan alias sebagai pd. Kemudian gunakan fungsi pd.read_excel untuk membaca data fail.xlsx dan menyimpan data baca dalam DataFrame bernama df. Akhir sekali, gunakan kaedah kepala untuk melihat 5 baris pertama data.
2. Analisis data
# 删除含有缺失值的行 df = df.dropna() # 删除重复行 df = df.drop_duplicates() # 转换数据类型为float df['column1'] = df['column1'].astype(float) # 查看数据信息 print(df.info())
Dalam kod di atas, kami mula-mula menggunakan kaedah dropna untuk memadam semua baris yang mengandungi nilai yang tiada, dan kemudian gunakan kaedah drop_duplicates untuk memadamkan baris pendua. Seterusnya, gunakan kaedah astype untuk menukar jenis data lajur1 kepada jenis terapung. Akhir sekali, gunakan kaedah maklumat untuk melihat maklumat data.
Analisis statistik ialah salah satu langkah utama dalam analisis data Pandas menyediakan pelbagai kaedah untuk mencapai analisis statistik data.
Berikut ialah kod sampel analisis data:
# 计算各列的平均值、标准差、最大/最小值 print(df.mean()) print(df.std()) print(df.max()) print(df.min()) # 按照一列的值进行分组,并计算每组中数据的平均值 print(df.groupby('column1').mean()) # 绘制柱状图 df['column1'].plot(kind='bar')
Dalam kod di atas, kami menggunakan min, std, maks dan min untuk mengira min, sisihan piawai dan nilai maksimum/minimum setiap lajur. Kemudian gunakan kaedah kumpulan mengikut untuk mengumpulkan nilai dalam lajur1 dan mengira purata data dalam setiap kumpulan. Akhir sekali, gunakan kaedah plot untuk melukis histogram.
3. Ringkasan
Artikel ini memperkenalkan cara menggunakan panda untuk membaca fail Excel dan memproses serta menganalisis data. Pandas menyediakan banyak operasi mudah untuk membuat analisis data lebih mudah dan lebih cekap. Untuk analisis data dan kerja perlombongan, pembelajaran panda akan sangat berguna.
Atas ialah kandungan terperinci Gunakan panda untuk membaca fail Excel dan melaksanakan import dan analisis data dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!