효율적인 데이터 처리 도구: Pandas 데이터 정리 방법-파이썬 튜토리얼-php.cn

효율적인 데이터 처리 도구: Pandas 데이터 정리 방법

WBOY

풀어 주다： 2024-01-24 08:54:19

원래의

710명이 탐색했습니다.

효율적인 데이터 처리 도구: Pandas 데이터 정리 방법

데이터 정리 도구: 팬더의 효율적인 처리 방법

소개:
빅 데이터 시대의 도래와 함께 데이터 처리는 특히 데이터 과학 및 데이터 분석 분야에서 점점 더 중요해졌습니다. 이러한 시나리오에서는 데이터가 지저분한 경우가 많으므로 효과적으로 분석하고 모델링하려면 먼저 정리하고 구성해야 합니다. Python의 강력한 데이터 처리 및 분석 라이브러리인 pandas는 데이터 정리 및 처리를 보다 효율적으로 수행할 수 있는 풍부한 기능과 방법을 제공합니다. 이 기사에서는 pandas의 효율적인 처리 방법을 소개하고 구체적인 코드 예제를 제공합니다.

1. 데이터 가져오기 및 기본 처리
데이터 정리를 위해 팬더를 사용하기 전에 먼저 데이터를 가져와 기본 처리를 수행해야 합니다. pandas는 CSV, Excel, SQL 데이터베이스 등을 포함한 다양한 데이터 형식 가져오기를 지원합니다. 다음은 CSV 파일에서 데이터를 가져와서 기본적인 처리를 수행하는 예입니다.

import pandas as pd

# 从CSV文件中导入数据
data = pd.read_csv('data.csv')

# 打印数据的前5行
print(data.head())

# 查看数据的基本信息
print(data.info())

# 删除缺失值
data.dropna(inplace=True)

# 重置索引
data.reset_index(drop=True, inplace=True)

로그인 후 복사

2. 데이터 클리닝
데이터 클리닝은 누락된 값, 이상값, 중복된 값 등의 문제가 자주 발생하기 때문에 데이터 처리에서 중요한 부분입니다. 데이터에 따라 처리해야 합니다. Pandas는 데이터를 빠르게 정리할 수 있는 일련의 기능과 방법을 제공합니다.

누락된 값 처리
누락된 값은 데이터에서 null 값 또는 누락된 부분을 나타냅니다. Pandas에서는 isnull() 함수와 fillna() 함수를 사용하여 누락된 값을 처리할 수 있습니다. 다음은 누락된 값을 처리하는 예입니다. isnull()函数和fillna()函数来处理缺失值。下面是一个处理缺失值的例子：

import pandas as pd

# 创建包含缺失值的数据
data = pd.DataFrame({'A': [1, 2, None, 4, 5],
                     'B': [None, 2, 3, 4, 5]})

# 查找缺失值
print(data.isnull())

# 填充缺失值
data.fillna(0, inplace=True)

로그인 후 복사

处理异常值
异常值是指与其它观测值相比明显不同的值。在pandas中，可以使用条件语句和loc函数来处理异常值。下面是一个处理异常值的例子：

import pandas as pd

# 创建包含异常值的数据
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [6, 7, 8, 9, 20]})

# 找出大于10的异常值，并替换为10
data.loc[data['B'] > 10, 'B'] = 10

로그인 후 복사

处理重复值
重复值是指在数据中存在多个相同的观测值。在pandas中，可以使用duplicated()函数和drop_duplicates()函数来处理重复值。下面是一个处理重复值的例子：

import pandas as pd

# 创建包含重复值的数据
data = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5],
                     'B': [6, 7, 7, 8, 9, 10]})

# 查找重复值
print(data.duplicated())

# 删除重复值
data.drop_duplicates(inplace=True)

로그인 후 복사

三、数据转换和处理
除了数据清洗外，pandas还提供了丰富的函数和方法，用于数据转换和处理。

数据类型转换
数据类型转换是指将数据从一种类型转换为另一种类型。在pandas中，可以使用astype()函数和to_datetime()函数来进行数据类型转换。下面是一个数据类型转换的例子：

import pandas as pd

# 创建含有不同类型的数据
data = pd.DataFrame({'A': ['1', '2', '3', '4', '5'],
                     'B': ['2020-01-01', '2020-02-02', '2020-03-03', '2020-04-04', '2020-05-05']})

# 将A列转换为整数类型
data['A'] = data['A'].astype(int)

# 将B列转换为日期类型
data['B'] = pd.to_datetime(data['B'])

로그인 후 복사

数据排序和分组
数据排序和分组是指对数据进行排序和按照某个字段进行分组。在pandas中，可以使用sort_values()函数和groupby()

import pandas as pd

# 创建含有多列的数据
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': ['a', 'b', 'c', 'd', 'e'],
                     'C': [6, 7, 8, 9, 10]})

# 按照A列进行升序排序
data.sort_values(by='A', inplace=True)

# 按照B列进行分组，并计算C列的平均值
result = data.groupby('B')['C'].mean()

로그인 후 복사

이상값은 다른 관측값과 크게 다른 값입니다. Pandas에서는 조건문과 loc 함수를 사용하여 이상값을 처리할 수 있습니다. 다음은 이상값 처리의 예입니다.

duplicated()

drop_duplicates()

astype()

to_datetime()

sort_values()

groupby()

위 내용은 효율적인 데이터 처리 도구: Pandas 데이터 정리 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!