Pandas를 사용한 데이터 정리 및 전처리 방법에 대해 토론
소개:
데이터 분석 및 기계 학습에서 데이터 정리 및 전처리는 매우 중요한 단계입니다. Python의 강력한 데이터 처리 라이브러리인 pandas는 풍부한 기능과 유연한 작업을 제공하므로 데이터를 효율적으로 정리하고 전처리하는 데 도움이 됩니다. 이 문서에서는 일반적으로 사용되는 몇 가지 pandas 메서드를 살펴보고 해당 코드 예제를 제공합니다.
1. 데이터 읽기
먼저 데이터 파일을 읽어야 합니다. pandas는 csv, Excel, SQL 데이터베이스 등 다양한 형식의 데이터 파일을 읽을 수 있는 많은 기능을 제공합니다. csv 파일을 예로 들면 read_csv()
기능을 사용할 수 있습니다.
import pandas as pd # 读取csv文件 df = pd.read_csv('data.csv')
2. 데이터 관찰
데이터 정리 및 전처리를 수행하기 전에 데이터의 전반적인 상황을 관찰해야 합니다. Pandas는 데이터에 대한 기본 정보를 빠르게 볼 수 있는 몇 가지 방법을 제공합니다.
데이터의 처음 몇 행을 봅니다.
df.head()
데이터의 기본 통계를 봅니다.
df.describe()
데이터의 열 이름을 확인하세요.
df.columns
3. 누락된 값 처리
누락된 값을 처리하는 것은 데이터 정리의 중요한 단계이며, Pandas는 누락된 값을 처리하는 몇 가지 방법을 제공합니다.
결측값을 확인합니다.
df.isnull()
누락된 값이 포함된 행이나 열을 제거하세요.
# 删除包含缺失值的行 df.dropna(axis=0) # 删除包含缺失值的列 df.dropna(axis=1)
값 채우기가 누락되었습니다.
# 使用指定值填充缺失值 df.fillna(value) # 使用均值填充缺失值 df.fillna(df.mean())
4. 중복 값 처리
중복 값은 데이터 분석 및 모델링에 방해가 되므로 중복 값을 처리해야 합니다.
중복 값을 확인하세요.
df.duplicated()
중복된 값을 제거하세요.
df.drop_duplicates()
5. 데이터 변환
데이터 변환은 전처리의 중요한 부분이며, Pandas는 데이터 변환을 위한 다양한 방법을 제공합니다.
데이터 정렬.
# 按某一列升序排序 df.sort_values(by='column_name') # 按多列升序排序 df.sort_values(by=['column1', 'column2'])
데이터 정규화.
# 使用最小-最大缩放(Min-Max Scaling) df_scaled = (df - df.min()) / (df.max() - df.min())
데이터 이산화.
# 使用等宽离散化(Equal Width Binning) df['bin'] = pd.cut(df['column'], bins=5)
6. Feature Selection
작업의 필요에 따라 분석 및 모델링에 적합한 Feature를 선택해야 합니다. pandas는 기능 선택을 위한 몇 가지 방법을 제공합니다.
열별로 기능을 선택하세요.
# 根据列名选择特征 df[['column1', 'column2']] # 根据列的位置选择特征 df.iloc[:, 2:4]
조건에 따라 기능을 선택하세요.
# 根据条件选择特征 df[df['column'] > 0]
7. 데이터 병합
여러 데이터 세트를 병합해야 할 경우 pandas에서 제공하는 방법을 사용하여 병합할 수 있습니다.
행별로 병합하세요.
df1.append(df2)
열별로 병합하세요.
pd.concat([df1, df2], axis=1)
8. 데이터 저장
마지막으로 데이터 처리가 끝나면 처리된 데이터를 파일로 저장할 수 있습니다.
# 保存到csv文件 df.to_csv('processed_data.csv', index=False) # 保存到Excel文件 df.to_excel('processed_data.xlsx', index=False)
결론:
이 글에서는 데이터 읽기, 데이터 관찰, 누락된 값 처리, 중복 값 처리, 데이터 변환, 특징 선택, 데이터 병합 및 데이터 저장을 포함하여 Pandas를 사용한 데이터 정리 및 전처리의 몇 가지 일반적인 방법을 소개합니다. Pandas의 강력한 기능과 유연한 운영을 통해 데이터 정리 및 전처리를 효율적으로 수행하여 후속 데이터 분석 및 모델링을 위한 견고한 기반을 마련할 수 있습니다. 실제 응용에서 학생들은 특정 요구에 따라 적절한 방법을 선택하고 이를 실제 코드와 함께 사용할 수 있습니다.
위 내용은 Pandas를 사용한 데이터 정리 및 전처리 기술 살펴보기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!