백엔드 개발 파이썬 튜토리얼 Pandas에서 데이터 유형 변환을 구현하기 위한 몇 가지 팁

Pandas에서 데이터 유형 변환을 구현하기 위한 몇 가지 팁

May 07, 2018 am 11:44 AM
pandas 유형 전환하다

이 글은 주로 Pandas에서 데이터 유형 변환을 구현하는 몇 가지 기술을 소개합니다. 이제 이를 여러분과 공유합니다. 도움이 필요한 친구들이 참고할 수 있습니다

Pandas는 Python Data에서 중요합니다. 분석 도구에서 데이터 분석을 위해 Pandas를 사용할 때 올바른 데이터 유형이 사용되는지 확인하는 것이 매우 중요합니다. 그렇지 않으면 예측할 수 없는 오류가 발생할 수 있습니다. Pandas의 데이터 유형: 데이터 유형은 본질적으로 프로그래밍 언어가 데이터를 저장하고 조작하는 방법을 이해하는 데 사용하는 내부 구조입니다. 예를 들어, 프로그램은 5 + 10과 같이 두 개의 숫자를 더해 15를 얻을 수 있다는 것을 이해해야 합니다. 또는 "cat" 및 "hat"과 같은 두 개의 문자열인 경우 이를 연결(추가)하여 "cathat"을 얻을 수 있습니다. Shangxuetang·Baizhan의 프로그래머인 Chen 선생님은 Pandas 데이터 유형에 대해 잠재적으로 혼란스러운 점 중 하나는 Pandas, Python 및 numpy의 데이터 유형 간에 일부 중복이 있다는 점을 지적했습니다.

대부분의 경우 Pandas 유형을 해당 NumPy 유형에 명시적으로 캐스팅해야 하는지 여부에 대해 걱정할 필요가 없습니다. 일반적으로 Pandas의 기본 int64 및 float64를 사용할 수 있습니다. 이 표를 포함시킨 유일한 이유는 때때로 코드 줄 사이에서 또는 자체 분석 중에 Numpy 유형을 볼 수 있기 때문입니다.

데이터 유형은 오류나 예상치 못한 결과가 발생할 때까지 신경 쓰지 않는 것 중 하나입니다. 하지만 추가 분석을 위해 Pandas에 새 데이터를 로드할 때 가장 먼저 확인해야 할 사항이기도 합니다.

저자는 한동안 Pandas를 사용해왔지만 여전히 몇 가지 사소한 문제에서 실수를 저지르고 있습니다. 소스를 다시 추적해 보니 일부 기능 열이 데이터 작업 시 Pandas에서 처리할 수 있는 유형이 아닌 것을 발견했습니다. 따라서 이 기사에서는 Python의 기본 데이터 유형을 Pandas가 처리할 수 있는 데이터 유형으로 변환하는 방법에 대한 몇 가지 팁에 대해 설명합니다.


Pandas, Numpy 및 Python에서 각각 지원하는 데이터 유형

위 표에서 Pandas가 가장 풍부한 데이터 유형을 지원하는 경우에 따라 Numpy의 데이터 유형이 될 수 있음을 알 수 있습니다. Pandas와 마찬가지로 데이터 유형을 서로 변환할 수 있습니다. 결국 Pandas 라이브러리는 Numpy를 기반으로 개발되었습니다.

분석을 위한 실제 데이터 소개

데이터 유형은 잘못된 결과가 나올 때까지 크게 신경쓰지 않을 수 있는 사항이므로 이해를 돕기 위해 실제 데이터 분석 사례를 소개합니다.

import numpy as np
import pandas as pd

data = pd.read_csv('data.csv', encoding='gbk') #因为数据中含有中文数据
data
로그인 후 복사

이제 데이터 열 2016 및 2017의 해당 항목을 추가하는 등 데이터에 대한 일부 작업을 수행하려는 경우입니다.

data['2016'] + data['2017'] #우리가 당연하게 여기는 것


결과에서 값이 예상대로 추가되지 않았기 때문입니다. Pandas 유형 추가는 Python의 문자열 추가와 동일합니다.

data.info() #데이터를 처리하기 전, 로드된 데이터의 관련 정보를 먼저 확인해야 합니다


로드된 데이터의 관련 정보를 확인한 후 다음과 같은 문제를 발견할 수 있습니다.

고객 번호의 데이터 유형은 객체 유형이 아닌 int64입니다

  • 2016 및 2017 열의 데이터 유형은 숫자 유형(int64, float64)이 아닌 객체입니다.

  • 성장률 및 2016년 열의 데이터 유형은 그룹은 객체 유형 대신 숫자 유형이어야 합니다

  • 년, 월, 일 데이터 유형은 객체 유형 대신 datetime64 유형이어야 합니다

  • Pandas에는 데이터 유형 변환을 위한 세 가지 기본 방법이 있습니다.

유형 변환을 강제하는 astype() 함수

  • 데이터 유형 변환을 위한 사용자 정의 함수

  • to_numeric(), to_datetime() 등 Pandas에서 제공하는 함수 사용

  • 유형 변환에는 astype() 함수 사용

데이터 열로 데이터 유형 변환을 수행하는 가장 쉬운 방법은 astype() 함수를 사용하는 것입니다

data['客户编号'].astype('object')

data['客户编号'] = data['客户编号'].astype('object') #对原始数据进行转换并覆盖原始数据列
로그인 후 복사

다음은 astype() 함수가 매우 좋아 보이는 몇 가지 예입니다. 열 데이터에서 작동하지만 실패합니다.

data['2017'].astype('float')
로그인 후 복사

data['所属组'].astype('int')
로그인 후 복사


从上面两个例子可以看出,当待转换列中含有不能转换的特殊值时(例子中¥,ErrorValue等)astype()函数将失效。有些时候astype()函数执行成功了也并不一定代表着执行结果符合预期(神坑!)

data['状态'].astype('bool')
로그인 후 복사


乍一看,结果看起来不错,但仔细观察后,会发现一个大问题。那就是所有的值都被替换为True了,但是该列中包含好几个N标志,所以astype()函数在该列也是失效的。

总结一下astype()函数有效的情形:

  • 数据列中的每一个单位都能简单的解释为数字(2, 2.12等)

  • 数据列中的每一个单位都是数值类型且向字符串object类型转换

如果数据中含有缺失值、特殊字符astype()函数可能失效。

使用自定义函数进行数据类型转换

该方法特别适用于待转换数据列的数据较为复杂的情形,可以通过构建一个函数应用于数据列的每一个数据,并将其转换为适合的数据类型。

对于上述数据中的货币,需要将它转换为float类型,因此可以写一个转换函数:

def convert_currency(value):
 """
 转换字符串数字为float类型
 - 移除 ¥ ,
 - 转化为float类型
 """
 new_value = value.replace(',', '').replace('¥', '')
 return np.float(new_value)
로그인 후 복사

现在可以使用Pandas的apply函数通过covert_currency函数应用于2016列中的所有数据中。

data['2016'].apply(convert_currency)
로그인 후 복사


该列所有的数据都转换成对应的数值类型了,因此可以对该列数据进行常见的数学操作了。如果利用lambda表达式改写一下代码,可能会比较简洁但是对新手不太友好。

data['2016'].apply(lambda x: x.replace('¥', '').replace(',', '')).astype('float')
로그인 후 복사

当函数需要重复应用于多个列时,个人推荐使用第一种方法,先定义函数还有一个好处就是可以搭配read_csv()函数使用(后面介绍)。

#2016、2017列完整的转换代码
data['2016'] = data['2016'].apply(convert_currency)
data['2017'] = data['2017'].apply(convert_currency)
로그인 후 복사

同样的方法运用于增长率,首先构建自定义函数

def convert_percent(value):
 """
 转换字符串百分数为float类型小数
 - 移除 %
 - 除以100转换为小数
 """
 new_value = value.replace('%', '')
 return float(new_value) / 100
로그인 후 복사

使用Pandas的apply函数通过covert_percent函数应用于增长率列中的所有数据中。

data['增长率'].apply(convert_percent)
로그인 후 복사

使用lambda表达式:

data['增长率'].apply(lambda x: x.replace('%', '')).astype('float') / 100
로그인 후 복사

结果都相同:


为了转换状态列,可以使用Numpy中的where函数,把值为Y的映射成True,其他值全部映射成False。

data['状态'] = np.where(data['状态'] == 'Y', True, False)
로그인 후 복사

同样的你也可以使用自定义函数或者使用lambda表达式,这些方法都可以完美的解决这个问题,这里只是多提供一种思路。

利用Pandas的一些辅助函数进行类型转换

Pandas的astype()函数和复杂的自定函数之间有一个中间段,那就是Pandas的一些辅助函数。这些辅助函数对于某些特定数据类型的转换非常有用(如to_numeric()、to_datetime())。所属组数据列中包含一个非数值,用astype()转换出现了错误,然而用to_numeric()函数处理就优雅很多。

pd.to_numeric(data['所属组'], errors='coerce').fillna(0)
로그인 후 복사


可以看到,非数值被替换成0.0了,当然这个填充值是可以选择的,具体文档见
pandas.to_numeric - pandas 0.22.0 documentation

Pandas中的to_datetime()函数可以把单独的year、month、day三列合并成一个单独的时间戳。

pd.to_datetime(data[['day', 'month', 'year']])
로그인 후 복사

完成数据列的替换

data['new_date'] = pd.to_datetime(data[['day', 'month', 'year']]) #新产生的一列数据
data['所属组'] = pd.to_numeric(data['所属组'], errors='coerce').fillna(0)
로그인 후 복사

到这里所有的数据列都转换完毕,最终的数据显示:


在读取数据时就对数据类型进行转换,一步到位

data2 = pd.read_csv("data.csv",
   converters={
    '客户编号': str,
    '2016': convert_currency,
    '2017': convert_currency,
    '增长率': convert_percent,
    '所属组': lambda x: pd.to_numeric(x, errors='coerce'),
    '状态': lambda x: np.where(x == "Y", True, False)
    },
   encoding='gbk')
로그인 후 복사

在这里也体现了使用自定义函数比lambda表达式要方便很多。(大部分情况下lambda还是很简洁的,笔者自己也很喜欢使用)

요약

데이터 세트를 작동하는 첫 번째 단계는 올바른 데이터 유형이 설정되었는지 확인하는 것입니다. 그런 다음 Pandas는 이러한 기능을 통해 데이터 분석, 시각화 및 기타 작업을 수행할 수 있습니다. 기능 그러면 데이터를 분석하는 것이 매우 편리할 것입니다.

관련 권장 사항:

pandas는 특정 인덱스에서 행 선택을 구현합니다

위 내용은 Pandas에서 데이터 유형 변환을 구현하기 위한 몇 가지 팁의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

전각 영문자를 반각 형태로 변환하는 실용적인 팁 전각 영문자를 반각 형태로 변환하는 실용적인 팁 Mar 26, 2024 am 09:54 AM

전각 영문자를 반각 형태로 변환하는 실용팁 현대생활에서 우리는 영문자를 자주 접하게 되고, 컴퓨터나 휴대폰, 기타 기기를 사용할 때 영문자를 입력해야 하는 경우가 많습니다. 그러나 때로는 영어의 전각 문자를 접하게 되므로 반각 형식을 사용해야 합니다. 그렇다면 전각 영문자를 반각 형태로 변환하는 방법은 무엇일까요? 다음은 몇 가지 실용적인 팁입니다. 먼저, 전각 영문자 및 ​​숫자는 입력방법에서 전각 위치를 차지하는 문자를 말하며, 반각 영문자 및 ​​숫자는 전각 위치를 차지한다.

Windows 11/10에서 ODT를 Word로 변환하는 방법은 무엇입니까? Windows 11/10에서 ODT를 Word로 변환하는 방법은 무엇입니까? Feb 20, 2024 pm 12:21 PM

이 기사에서는 OpenDocumentTextDocument(ODT) 파일을 Microsoft Word(Docx, DOC 등)로 변환하는 방법을 보여줍니다. 체재. Windows 11/10에서 ODT를 Word로 변환하는 방법 다음은 Windows PC에서 ODT 문서를 DOC 또는 DOCX 형식으로 변환하는 방법입니다. 워드패드 또는 Word를 사용하여 ODT를 Word로 변환합니다. 우리가 보여줄 첫 번째 방법은 워드패드 또는 ODT를 Word로 변환하는 MicrosoftWord. 이를 달성하는 단계는 다음과 같습니다. 먼저 시작 메뉴를 사용하여 워드패드 앱을 엽니다. 이제 다음으로 이동하세요.

Golang 시간 처리: Golang에서 타임스탬프를 문자열로 변환하는 방법 Golang 시간 처리: Golang에서 타임스탬프를 문자열로 변환하는 방법 Feb 24, 2024 pm 10:42 PM

Golang 시간 변환: 타임스탬프를 문자열로 변환하는 방법 Golang에서 시간 연산은 매우 일반적인 연산 중 하나입니다. 때로는 쉽게 표시하거나 저장하기 위해 타임스탬프를 문자열로 변환해야 하는 경우도 있습니다. 이 기사에서는 Golang을 사용하여 타임스탬프를 문자열로 변환하는 방법을 소개하고 구체적인 코드 예제를 제공합니다. 1. 타임스탬프와 문자열의 변환 Golang에서 타임스탬프는 일반적으로 1970년 1월 1일부터 현재 시간까지의 초 수를 나타내는 정수 형태로 표현됩니다. 문자열은

PHP 월을 영어 월로 변환하는 구현 방법에 대한 자세한 설명 PHP 월을 영어 월로 변환하는 구현 방법에 대한 자세한 설명 Mar 21, 2024 pm 06:45 PM

이 기사에서는 PHP의 월을 영어 월로 변환하는 방법을 자세히 소개하고 구체적인 코드 예제를 제공합니다. PHP 개발 시 디지털 월을 영어 월로 변환해야 하는 경우가 있는데, 이는 일부 날짜 처리 또는 데이터 표시 시나리오에서 매우 실용적입니다. 구현 원칙, 구체적인 코드 예시, 주의사항은 아래에서 자세히 설명하겠습니다. 1. 구현 원리 PHP에서는 DateTime 클래스와 형식 메소드를 사용하여 디지털 월을 영어 월로 변환할 수 있습니다. 날짜

qq 음악을 mp3 형식으로 변환하는 방법 휴대폰에서 qq 음악을 mp3 형식으로 변환 qq 음악을 mp3 형식으로 변환하는 방법 휴대폰에서 qq 음악을 mp3 형식으로 변환 Mar 21, 2024 pm 01:21 PM

QQ Music을 사용하면 누구나 영화를 감상하고 지루함을 해소할 수 있습니다. 이 소프트웨어를 사용하면 누구나 쉽게 들을 수 있는 고품질 노래를 다운로드할 수 있습니다. 다음에 들을 때는 인터넷 연결이 필요하지 않습니다. 여기에서 다운로드한 노래는 MP3 형식이 아니며 다른 플랫폼에서 사용할 수 없습니다. 따라서 해당 노래를 다시 들을 수 없습니다. , 많은 친구들이 노래를 MP3 형식으로 변환하고 싶어합니다. 여기서 편집자는 모든 사람이 사용할 수 있도록 방법을 제공한다고 설명합니다. 1. 컴퓨터에서 QQ Music을 열고 오른쪽 상단의 [메인 메뉴] 버튼을 클릭한 후 [오디오 트랜스코딩]을 클릭하고 [노래 추가] 옵션을 선택한 후 변환해야 하는 노래를 추가합니다. 노래를 클릭하여 [mp3]로 변환을 선택하세요.

간단한 팬더 설치 튜토리얼: 다양한 운영 체제에 팬더를 설치하는 방법에 대한 자세한 지침 간단한 팬더 설치 튜토리얼: 다양한 운영 체제에 팬더를 설치하는 방법에 대한 자세한 지침 Feb 21, 2024 pm 06:00 PM

간단한 pandas 설치 튜토리얼: 다양한 운영 체제에 pandas를 설치하는 방법에 대한 자세한 지침, 특정 코드 예제가 필요합니다. 데이터 처리 및 분석에 대한 수요가 계속 증가함에 따라 pandas는 많은 데이터 과학자 및 분석가가 선호하는 도구 중 하나가 되었습니다. pandas는 대량의 정형 데이터를 쉽게 처리하고 분석할 수 있는 강력한 데이터 처리 및 분석 라이브러리입니다. 이 문서에서는 다양한 운영 체제에 Pandas를 설치하는 방법을 자세히 설명하고 특정 코드 예제를 제공합니다. Windows 운영 체제에 설치

전각 영문자를 반각 문자로 변환하는 방법 전각 영문자를 반각 문자로 변환하는 방법 Mar 25, 2024 pm 02:45 PM

전각 영문자를 반각자로 변환하는 방법 일상생활이나 직장에서 컴퓨터 비밀번호를 입력하거나 문서를 편집하거나 작업을 할 때 전각 영문자를 반각자로 변환해야 하는 상황에 직면할 때가 있습니다. 레이아웃 디자인. 영문자와 숫자는 한자와 폭이 같은 문자를 의미하고, 영문자는 한자와 폭이 좁은 문자를 의미합니다. 실제 작업에서는 텍스트와 숫자를 보다 편리하게 처리할 수 있도록 영문 전각을 반각 문자로 변환하는 몇 가지 간단한 방법을 익혀야 합니다. 1. 영문자 전각 및 영문자 반각

PHP 튜토리얼: int 유형을 문자열로 변환하는 방법 PHP 튜토리얼: int 유형을 문자열로 변환하는 방법 Mar 27, 2024 pm 06:03 PM

PHP 튜토리얼: Int 유형을 문자열로 변환하는 방법 PHP에서는 정수 데이터를 문자열로 변환하는 것이 일반적인 작업입니다. 이 튜토리얼에서는 특정 코드 예제를 제공하면서 PHP의 내장 함수를 사용하여 int 유형을 문자열로 변환하는 방법을 소개합니다. 캐스트 사용: PHP에서는 캐스트를 사용하여 정수 데이터를 문자열로 변환할 수 있습니다. 이 방법은 매우 간단합니다. 정수 데이터 앞에 (문자열)을 추가하면 문자열로 변환됩니다. 아래는 간단한 샘플 코드입니다.

See all articles