Python中的pandas庫詳解-Python教學-PHP中文網

Python中的pandas庫詳解

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-06-09 22:10:35

原創

23330 人瀏覽過

Python是一門高效且易於學習的程式語言，在資料處理方面也有著出色表現。其中，pandas函式庫受到了廣泛的歡迎與使用，成為了Python中最常用且最有用的資料處理工具之一。本文將深入介紹pandas函式庫的相關概念和使用方法，使讀者能夠更了解並應用pandas函式庫。

一、pandas函式庫的介紹

pandas函式庫是Python中的一個強大的資料處理函式庫，它提供了高效率的資料分析方法和資料結構。相較於其他的資料處理庫，pandas更適用於處理具有關係型資料或標示資料的情況，在時間序列分析上也有著不錯的表現。

pandas庫中最常用的資料類型是Series和DataFrame。 Series是一維數組，擁有資料與索引。 DataFrame則是類似表格的二維資料結構，其中儲存了多個Series。

二、如何安裝pandas庫

要使用pandas庫首先需要透過以下語句來安裝：

pip install pandas

登入後複製

當然也可以使用conda進行安裝，具體可以參考官網文檔。

三、pandas函式庫中的常用函數與方法

在pandas函式庫中有很多常用的函數和方法，以下是一些常見的使用方法：

#序列化和反序列化

首先我們使用一個例子來介紹序列化和反序列化方法：

import pandas as pd

df = pd.DataFrame({
    'name': ['张三', '李四', '王五'],
    'age': [21, 25, 30],
    'sex': ['男', '男', '女']
})

# 把DataFrame序列化成一个CSV文件
df.to_csv('data.csv', index=False)

# 把CSV文件反序列化成一个DataFrame
new_df = pd.read_csv('data.csv')
print(new_df)

登入後複製

資料篩選和排序

在處理資料時，常常需要對資料進行篩選和排序。下面的例子透過讀取一個CSV檔案來進行資料篩選和排序：

import pandas as pd

df = pd.read_csv('data.csv')

# 包含'男'的行
male_df = df[df['sex'] == '男']

# 将行按'age'升序排列
sorted_df = df.sort_values(by='age')

print(male_df)
print(sorted_df)

登入後複製

結論：male_df儲存了所有性別為男的行，sorted_df根據年齡從小到大排序了DataFrame。

合併和連接資料

pandas中的merge和concat方法是合併和連接資料的核心方法。下面的範例示範如何進行合併和連接資料：

import pandas as pd

df1 = pd.DataFrame({
    'id': [0, 1, 2],
    'name': ['张三', '李四', '王五']
})
df2 = pd.DataFrame({
    'id': [0, 1, 2],
    'age': [21, 25, 30]
})

# 基于'id'合并两个DataFrame
merged_df = pd.merge(df1, df2, on='id')

# 垂直叠加两个DataFrame
concat_df = pd.concat([df1, df2], axis=1)

print(merged_df)
print(concat_df)

登入後複製

結論：merged_df是兩個DataFrame在'id'列上合併後的結果，concat_df是兩個DataFrame的垂直疊加結果。

四、pandas函式庫的應用場景

pandas函式庫廣泛應用於資料處理、資料分析和資料視覺化等方面，以下是一些pandas函式庫應用的場景：