> 백엔드 개발 > 파이썬 튜토리얼 > Pandas를 사용한 데이터 정리 및 전처리 기술 살펴보기

Pandas를 사용한 데이터 정리 및 전처리 기술 살펴보기

WBOY
풀어 주다: 2024-01-13 12:49:05
원래의
716명이 탐색했습니다.

Pandas를 사용한 데이터 정리 및 전처리 기술 살펴보기

Pandas를 사용한 데이터 정리 및 전처리 방법에 대해 토론

소개:
데이터 분석 및 기계 학습에서 데이터 정리 및 전처리는 매우 중요한 단계입니다. Python의 강력한 데이터 처리 라이브러리인 pandas는 풍부한 기능과 유연한 작업을 제공하므로 데이터를 효율적으로 정리하고 전처리하는 데 도움이 됩니다. 이 문서에서는 일반적으로 사용되는 몇 가지 pandas 메서드를 살펴보고 해당 코드 예제를 제공합니다.

1. 데이터 읽기
먼저 데이터 파일을 읽어야 합니다. pandas는 csv, Excel, SQL 데이터베이스 등 다양한 형식의 데이터 파일을 읽을 수 있는 많은 기능을 제공합니다. csv 파일을 예로 들면 read_csv() 기능을 사용할 수 있습니다.

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')
로그인 후 복사

2. 데이터 관찰
데이터 정리 및 전처리를 수행하기 전에 데이터의 전반적인 상황을 관찰해야 합니다. Pandas는 데이터에 대한 기본 정보를 빠르게 볼 수 있는 몇 가지 방법을 제공합니다.

  1. 데이터의 처음 몇 행을 봅니다.

    df.head()
    로그인 후 복사
  2. 데이터의 기본 통계를 봅니다.

    df.describe()
    로그인 후 복사
  3. 데이터의 열 이름을 확인하세요.

    df.columns
    로그인 후 복사

3. 누락된 값 처리
누락된 값을 처리하는 것은 데이터 정리의 중요한 단계이며, Pandas는 누락된 값을 처리하는 몇 가지 방법을 제공합니다.

  1. 결측값을 확인합니다.

    df.isnull()
    로그인 후 복사
  2. 누락된 값이 포함된 행이나 열을 제거하세요.

    # 删除包含缺失值的行
    df.dropna(axis=0)
    
    # 删除包含缺失值的列
    df.dropna(axis=1)
    로그인 후 복사
  3. 값 채우기가 누락되었습니다.

    # 使用指定值填充缺失值
    df.fillna(value)
    
    # 使用均值填充缺失值
    df.fillna(df.mean())
    로그인 후 복사

4. 중복 값 처리
중복 값은 데이터 분석 및 모델링에 방해가 되므로 중복 값을 처리해야 합니다.

  1. 중복 값을 확인하세요.

    df.duplicated()
    로그인 후 복사
  2. 중복된 값을 제거하세요.

    df.drop_duplicates()
    로그인 후 복사

5. 데이터 변환
데이터 변환은 전처리의 중요한 부분이며, Pandas는 데이터 변환을 위한 다양한 방법을 제공합니다.

  1. 데이터 정렬.

    # 按某一列升序排序
    df.sort_values(by='column_name')
    
    # 按多列升序排序
    df.sort_values(by=['column1', 'column2'])
    로그인 후 복사
  2. 데이터 정규화.

    # 使用最小-最大缩放(Min-Max Scaling)
    df_scaled = (df - df.min()) / (df.max() - df.min())
    로그인 후 복사
  3. 데이터 이산화.

    # 使用等宽离散化(Equal Width Binning)
    df['bin'] = pd.cut(df['column'], bins=5)
    로그인 후 복사

6. Feature Selection
작업의 필요에 따라 분석 및 모델링에 적합한 Feature를 선택해야 합니다. pandas는 기능 선택을 위한 몇 가지 방법을 제공합니다.

  1. 열별로 기능을 선택하세요.

    # 根据列名选择特征
    df[['column1', 'column2']]
    
    # 根据列的位置选择特征
    df.iloc[:, 2:4]
    로그인 후 복사
  2. 조건에 따라 기능을 선택하세요.

    # 根据条件选择特征
    df[df['column'] > 0]
    로그인 후 복사

7. 데이터 병합
여러 데이터 세트를 병합해야 할 경우 pandas에서 제공하는 방법을 사용하여 병합할 수 있습니다.

  1. 행별로 병합하세요.

    df1.append(df2)
    로그인 후 복사
  2. 열별로 병합하세요.

    pd.concat([df1, df2], axis=1)
    로그인 후 복사

8. 데이터 저장
마지막으로 데이터 처리가 끝나면 처리된 데이터를 파일로 저장할 수 있습니다.

# 保存到csv文件
df.to_csv('processed_data.csv', index=False)

# 保存到Excel文件
df.to_excel('processed_data.xlsx', index=False)
로그인 후 복사

결론:
이 글에서는 데이터 읽기, 데이터 관찰, 누락된 값 처리, 중복 값 처리, 데이터 변환, 특징 선택, 데이터 병합 및 데이터 저장을 포함하여 Pandas를 사용한 데이터 정리 및 전처리의 몇 가지 일반적인 방법을 소개합니다. Pandas의 강력한 기능과 유연한 운영을 통해 데이터 정리 및 전처리를 효율적으로 수행하여 후속 데이터 분석 및 모델링을 위한 견고한 기반을 마련할 수 있습니다. 실제 응용에서 학생들은 특정 요구에 따라 적절한 방법을 선택하고 이를 실제 코드와 함께 사용할 수 있습니다.

위 내용은 Pandas를 사용한 데이터 정리 및 전처리 기술 살펴보기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿