먼저 Pandas 라이브러리가 설치되어 있는지 확인하세요. 그렇지 않은 경우 다음 명령을 사용하여 설치하십시오.
pip install pandas
import pandas as pd
Pandas를 사용하면 CSV, Excel, JSON 및 HTML을 포함한 다양한 데이터 형식을 쉽게 읽을 수 있습니다. 등. 다음은 CSV 파일을 읽는 예입니다.
data = pd.read_csv('data.csv')
다른 데이터 형식도 Excel 파일을 읽는 방법과 유사합니다.
data = pd.read_excel('data.xlsx')
head()를 사용할 수 있습니다.
함수를 사용하여 데이터의 처음 몇 행(기본값은 5행): head()
函数查看数据的前几行(默认为5行):
print(data.head())
还可以使用tail()
函数查看数据的后几行,以及info()
和describe()
函数查看数据的统计信息:
print(data.tail()) print(data.info()) print(data.describe())
选择数据的方式有很多,以下是一些常用方法:
选择某列:data['column_name']
选择多列:data[['column1', 'column2']]
选择某行:data.loc[row_index]
选择某个值:data.loc[row_index, 'column_name']
通过条件选择:data[data['column_name'] > value]
在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:
去除空值:data.dropna()
替换空值:data.fillna(value)
重命名列名:data.rename(columns={'old_name': 'new_name'})
数据类型转换:data['column_name'].astype(new_type)
去除重复值:data.drop_duplicates()
Pandas提供了丰富的数据分析功能,以下是一些常用方法:
计算平均值:data['column_name'].mean()
计算中位数:data['column_name'].median()
计算众数:data['column_name'].mode()
计算标准差:data['column_name'].std()
计算相关性:data.corr()
数据分组:data.groupby('column_name')
pip install matplotlib
tail()
함수를 사용하여 데이터의 마지막 몇 행도 볼 수 있습니다. 데이터의 통계 정보를 보려면 info()
및 describe()
함수를 사용하세요. import matplotlib.pyplot as plt data['column_name'].plot(kind='bar') plt.show()
data['column_name']
여러 열 선택: data[['column1', 'column2']]
data.loc[row_index]
값 선택: < code>data.loc[row_index, 'column_name']
data[data['column_name'] > value]
5 . 데이터 정리데이터 분석에 앞서 일반적으로 데이터는 정리되어야 합니다. 다음은 일반적으로 사용되는 데이터 정리 방법입니다. data.dropna()
🎜🎜data.fillna(value)
🎜🎜data.rename(columns={'old_name': 'new_name'})
🎜 🎜data['column_name'].astype(new_type)
🎜🎜data.drop_duplicates()
🎜 🎜🎜🎜 6. 데이터 분석 🎜🎜Pandas는 다양한 데이터 분석 기능을 제공합니다. 다음은 몇 가지 일반적인 방법입니다. 🎜 data[ 'column_name'].mean()
🎜🎜data['column_name'].median()
🎜🎜data['column_name'].mode()
🎜🎜data['column_name'].std()
🎜🎜data.corr()
🎜🎜data.groupby('column_name')
🎜🎜🎜🎜7. Pandas를 사용하면 데이터를 시각적 차트로 쉽게 변환할 수 있습니다. 먼저 Matplotlib 라이브러리를 설치해야 합니다.🎜data['column_name'].plot(kind='line') data['column_name'].plot(kind='pie') data['column_name'].plot(kind='hist') plt.show()
data.to_csv('output.csv', index=False)
data.to_excel('output.xlsx', index=False)
import pandas as pd data = pd.read_csv('sales_data.csv')
data['sales_amount'] = data['quantity'] * data['price']
max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax() print(f'最高销售额的产品是:{max_sales}')
data.to_csv('sales_analysis.csv', index=False)
위 내용은 Python에서 데이터 분석을 위해 Pandas를 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!