> 백엔드 개발 > 파이썬 튜토리얼 > Python의 데이터 랭글링 기술

Python의 데이터 랭글링 기술

PHPz
풀어 주다: 2023-06-10 18:28:38
원래의
1275명이 탐색했습니다.

Python은 데이터 과학 분야에서 널리 사용되는 고급 프로그래밍 언어로 데이터 수집, 정리, 분석 및 시각화에 널리 사용됩니다. 데이터 랭글링은 데이터 처리의 핵심 기술입니다. 이 기사에서는 독자가 데이터를 더 잘 처리하고 분석하는 데 도움이 되는 Python의 몇 가지 일반적인 데이터 랭글링 기술을 소개합니다.

  1. 데이터 유형 변환

데이터 정규화 과정에서 다양한 데이터 유형을 변환해야 하는 경우가 많습니다. 일반적인 데이터 유형에는 문자열, 정수, 부동 소수점 숫자 및 부울 값이 포함됩니다. Python은 int(), float(), str(), bool() 등과 같은 강력한 유형 변환 함수를 제공합니다. 이를 통해 하나의 데이터 유형을 다음과 같은 다른 데이터 유형으로 변환할 수 있습니다.

# 将字符串转换成整数
age_str = '18'
age_int = int(age_str)

# 将整数转换成字符串
age_int = 18
age_str = str(age_int)

# 将浮点数转换成整数
height_float = 1.75
height_int = int(height_float)

# 将整数转换成布尔值
num = 0
is_zero = bool(num)     # False
로그인 후 복사
  1. Data deduplication

대량의 데이터를 처리할 때 중복된 데이터가 발생할 수 있으므로 데이터 중복 제거 기술을 사용해야 합니다. Python에서 set() 함수를 사용하면 목록에서 중복 요소를 빠르게 제거할 수 있습니다. 예:

# 去除列表中的重复元素
lst = [1, 2, 3, 2, 4, 1]
lst_unique = list(set(lst))
print(lst_unique)       # [1, 2, 3, 4]
로그인 후 복사
  1. 데이터 채우기

데이터 정규화 과정에서 때로는 더 나은 후속 작업을 위해 누락된 값을 채워야 하는 경우가 있습니다. 처리. Python의 fillna() 함수를 사용하면 데이터를 편리하게 채울 수 있습니다. 예:

# 对缺失值进行填充
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'age': [18, None, 21],
                   'gender': ['F', 'M', None]})

df_fill = df.fillna(value={'age': df['age'].mean(),
                           'gender': 'U'})
print(df_fill)
로그인 후 복사

출력 결과는 다음과 같습니다.

       name   age gender
0     Alice  18.0      F
1       Bob  19.5      M
2  Charlie  21.0      U
로그인 후 복사
  1. Data reshaping

데이터 정규화 과정에서 데이터 재구성이 필요할 수 있습니다. 후속 처리를 더 좋게 만듭니다. Python에서 피봇() 함수를 사용하면 데이터의 모양을 쉽게 바꿀 수 있습니다. 예:

# 数据重塑
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'gender': ['F', 'M', 'M'],
                   'subject': ['Math', 'Math', 'English'],
                   'score': [90, 87, 88]})

df_res = df.pivot(index='name', columns='subject', values='score')
print(df_res)
로그인 후 복사

출력 결과는 다음과 같습니다.

subject  English  Math
name                  
Alice        NaN  90.0
Bob          NaN  87.0
Charlie     88.0   NaN
로그인 후 복사
  1. Data merge

실제 작업에서 데이터는 일반적으로 다른 테이블에 저장되며 병합. Python에서 merge() 함수를 사용하면 데이터 병합을 용이하게 할 수 있습니다. 예:

# 数据合并
import pandas as pd

df1 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                    'age': [18, 19, 21],
                    'gender': ['F', 'M', 'M']})
df2 = pd.DataFrame({'name': ['Alice', 'Bob'],
                    'score': [90, 87]})

df_merge = pd.merge(df1, df2, on='name')
print(df_merge)
로그인 후 복사

출력 결과는 다음과 같습니다.

       name  age gender  score
0     Alice   18      F     90
1       Bob   19      M     87
로그인 후 복사

요약하면 Python의 데이터 변형 기술에는 데이터 유형 변환, 데이터 중복 제거, 데이터 채우기, 데이터 재구성이 포함됩니다. 데이터 병합 등 이러한 기술은 독자가 데이터를 더 잘 처리 및 분석하고 데이터 처리의 효율성과 정확성을 향상시키는 데 도움이 될 수 있습니다.

위 내용은 Python의 데이터 랭글링 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿