pandas를 사용하여 Excel 파일을 읽고 데이터 가져오기 및 분석을 쉽게 구현하세요.
pandas는 Python의 데이터 분석을 위한 강력한 도구로 다양한 형식의 데이터를 유연하고 효율적으로 처리할 수 있습니다. 데이터 분석에 있어서 흔히 사용되는 데이터 형식은 엑셀인데, 팬더스는 엑셀 파일을 데이터로 빠르게 가져와서 분석, 처리할 수 있는 편리한 인터페이스를 제공합니다.
이 글에서는 pandas 라이브러리를 사용하여 Excel 파일을 읽는 방법과 pandas를 사용하여 데이터 분석하는 방법을 소개하고 코드 예제를 제공합니다.
1. Excel 파일 읽기
Excel 파일을 읽으려면 Pandas에서 제공하는 read_excel 함수를 사용하면 Excel 파일을 직접 읽고 DataFrame 데이터 형식으로 변환할 수 있습니다. 다음은 Excel 파일을 읽는 코드 예제입니다.
import pandas as pd # 读取Excel文件 filename = 'data.xlsx' df = pd.read_excel(filename) # 查看数据前5行 print(df.head())
위 코드에서는 먼저 pandas 라이브러리를 가져오고 별칭을 pd로 지정했습니다. 그런 다음 pd.read_excel 함수를 사용하여 data.xlsx 파일을 읽고 읽은 데이터를 df라는 DataFrame에 저장합니다. 마지막으로 head 메소드를 사용하여 데이터의 처음 5개 행을 확인합니다.
2. 데이터 분석
# 删除含有缺失值的行 df = df.dropna() # 删除重复行 df = df.drop_duplicates() # 转换数据类型为float df['column1'] = df['column1'].astype(float) # 查看数据信息 print(df.info())
위 코드에서는 먼저 dropna 메소드를 사용하여 누락된 값이 포함된 모든 행을 삭제한 다음 drop_duplicates 메소드를 사용하여 중복 행을 삭제했습니다. 다음으로 astype 메소드를 사용하여 column1의 데이터 유형을 float 유형으로 변환합니다. 마지막으로 info 메소드를 사용하여 데이터 정보를 확인합니다.
통계 분석은 데이터 분석의 핵심 단계 중 하나입니다. Pandas는 데이터의 통계 분석을 달성하기 위한 다양한 방법을 제공합니다.
다음은 데이터 분석 샘플 코드입니다.
# 计算各列的平均值、标准差、最大/最小值 print(df.mean()) print(df.std()) print(df.max()) print(df.min()) # 按照一列的值进行分组,并计算每组中数据的平均值 print(df.groupby('column1').mean()) # 绘制柱状图 df['column1'].plot(kind='bar')
위 코드에서는 평균, 표준편차, 최대값, 최소값을 사용하여 각 열의 평균, 표준편차, 최대값/최소값을 각각 계산합니다. 그런 다음 groupby 메서드를 사용하여 column1의 값을 그룹화하고 각 그룹의 데이터 평균을 계산합니다. 마지막으로, 플롯 방법을 사용하여 히스토그램을 그립니다.
3. 요약
이 기사에서는 팬더를 사용하여 Excel 파일을 읽고 데이터를 처리하고 분석하는 방법을 소개합니다. Pandas는 데이터 분석을 더 쉽고 효율적으로 만들기 위해 다양한 편리한 작업을 제공합니다. 데이터 분석 및 마이닝 작업에 팬더를 학습하는 것은 매우 유용할 것입니다.
위 내용은 Pandas를 사용하여 Excel 파일을 읽고 데이터 가져오기 및 분석을 쉽게 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!