Pandas实现数据类型转换的一些技巧-Python教程-PHP中文网

首页

后端开发

Python教程

Pandas实现数据类型转换的一些技巧

不言

May 07, 2018 am 11:44 AM

pandas 类型转换

这篇文章主要介绍了关于Pandas实现数据类型转换的一些技巧，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下

前言

Pandas是Python当中重要的数据分析工具，利用Pandas进行数据分析时，确保使用正确的数据类型是非常重要的，否则可能会导致一些不可预知的错误发生。

Pandas 的数据类型：数据类型本质上是编程语言用来理解如何存储和操作数据的内部结构。例如，一个程序需要理解你可以将两个数字加起来，比如 5 + 10 得到 15。或者，如果是两个字符串，比如「cat」和「hat」，你可以将它们连接（加）起来得到「cathat」。尚学堂•百战程序员陈老师指出有关 Pandas 数据类型的一个可能令人困惑的地方是，Pandas、Python 和 numpy 的数据类型之间有一些重叠。

大多数情况下，你不必担心是否应该明确地将熊猫类型强制转换为对应的 NumPy 类型。一般来说使用 Pandas 的默认 int64 和 float64 就可以。我列出此表的唯一原因是，有时你可能会在代码行间或自己的分析过程中看到 Numpy 的类型。
数据类型是在你遇到错误或意外结果之前并不会关心的事情之一。不过当你将新数据加载到 Pandas 进行进一步分析时，这也是你应该检查的第一件事情。

笔者使用Pandas已经有一段时间了，但是还是会在一些小问题上犯错误，追根溯源发现在对数据进行操作时某些特征列并不是Pandas所能处理的类型。因此本文将讨论一些小技巧如何将Python的基本数据类型转化为Pandas所能处理的数据类型。

Pandas、Numpy、Python各自支持的数据类型

从上述表格中可以看出Pandas支持的数据类型最为丰富，在某种情形下Numpy的数据类型可以和Pandas的数据类型相互转化，毕竟Pandas库是在Numpy的基础之上开发的的。

引入实际数据进行分析

数据类型是你平常可能不太关心，直到得到了错误的结果才映像深刻的东西，因此在这里引入一个实际数据分析的例子来加深理解。

import numpy as np
import pandas as pd

data = pd.read_csv(&#39;data.csv&#39;, encoding=&#39;gbk&#39;) #因为数据中含有中文数据
data

登录后复制

数据加载完毕，如果现在想要在该数据上进行一些操作，比如把数据列2016、2017对应项相加。

data['2016'] + data['2017'] #想当然的做法

从结果来看并没有像想象中那样数值对应相加，这是因为在Pandas中object类型相加等价于Python中的字符串相加。

data.info() #在对数据进行处理之前应该先查看加载数据的相关信息

在看到加载数据的相关信息后可以发现如下几个问题：

客户编号的数据类型是int64而不是object类型
2016、2017列的数据类型是object而不是数值类型(int64、float64)
增长率、所属组的数据类型应该为数值类型而不是object类型
year、month、day的数据类型应该为datetime64类型而不是object类型

Pandas中进行数据类型转换有三种基本方法：

使用astype()函数进行强制类型转换
自定义函数进行数据类型转换
使用Pandas提供的函数如to_numeric()、to_datetime()

使用astype()函数进行类型转换

对数据列进行数据类型转换最简单的方法就是使用astype()函数

data[&#39;客户编号&#39;].astype(&#39;object&#39;)

data[&#39;客户编号&#39;] = data[&#39;客户编号&#39;].astype(&#39;object&#39;) #对原始数据进行转换并覆盖原始数据列

登录后复制

上面的结果看起来很不错，接下来给出几个astype()函数作用于列数据但失效的例子

data[&#39;2017&#39;].astype(&#39;float&#39;)

登录后复制

data[&#39;所属组&#39;].astype(&#39;int&#39;)

登录后复制

从上面两个例子可以看出，当待转换列中含有不能转换的特殊值时(例子中￥,ErrorValue等)astype()函数将失效。有些时候astype()函数执行成功了也并不一定代表着执行结果符合预期(神坑!）

data[&#39;状态&#39;].astype(&#39;bool&#39;)

登录后复制

乍一看，结果看起来不错，但仔细观察后，会发现一个大问题。那就是所有的值都被替换为True了，但是该列中包含好几个N标志，所以astype()函数在该列也是失效的。

总结一下astype()函数有效的情形：

数据列中的每一个单位都能简单的解释为数字(2, 2.12等）
数据列中的每一个单位都是数值类型且向字符串object类型转换

如果数据中含有缺失值、特殊字符astype()函数可能失效。

使用自定义函数进行数据类型转换

该方法特别适用于待转换数据列的数据较为复杂的情形，可以通过构建一个函数应用于数据列的每一个数据，并将其转换为适合的数据类型。

对于上述数据中的货币，需要将它转换为float类型，因此可以写一个转换函数：

def convert_currency(value):
 """
 转换字符串数字为float类型
 - 移除 ￥ ,
 - 转化为float类型
 """
 new_value = value.replace(&#39;,&#39;, &#39;&#39;).replace(&#39;￥&#39;, &#39;&#39;)
 return np.float(new_value)

登录后复制

现在可以使用Pandas的apply函数通过covert_currency函数应用于2016列中的所有数据中。

data[&#39;2016&#39;].apply(convert_currency)

登录后复制

该列所有的数据都转换成对应的数值类型了，因此可以对该列数据进行常见的数学操作了。如果利用lambda表达式改写一下代码，可能会比较简洁但是对新手不太友好。

data[&#39;2016&#39;].apply(lambda x: x.replace(&#39;￥&#39;, &#39;&#39;).replace(&#39;,&#39;, &#39;&#39;)).astype(&#39;float&#39;)

登录后复制

当函数需要重复应用于多个列时，个人推荐使用第一种方法，先定义函数还有一个好处就是可以搭配read_csv()函数使用(后面介绍)。

#2016、2017列完整的转换代码
data['2016'] = data[&#39;2016&#39;].apply(convert_currency)
data['2017'] = data['2017'].apply(convert_currency)

登录后复制

同样的方法运用于增长率，首先构建自定义函数

def convert_percent(value):
 """
 转换字符串百分数为float类型小数
 - 移除 %
 - 除以100转换为小数
 """
 new_value = value.replace(&#39;%&#39;, &#39;&#39;)
 return float(new_value) / 100

登录后复制

使用Pandas的apply函数通过covert_percent函数应用于增长率列中的所有数据中。

data[&#39;增长率&#39;].apply(convert_percent)

登录后复制

使用lambda表达式:

data[&#39;增长率&#39;].apply(lambda x: x.replace(&#39;%&#39;, &#39;&#39;)).astype(&#39;float&#39;) / 100

登录后复制

结果都相同：

为了转换状态列，可以使用Numpy中的where函数，把值为Y的映射成True,其他值全部映射成False。

data[&#39;状态&#39;] = np.where(data[&#39;状态&#39;] == &#39;Y&#39;, True, False)

登录后复制

同样的你也可以使用自定义函数或者使用lambda表达式，这些方法都可以完美的解决这个问题，这里只是多提供一种思路。

利用Pandas的一些辅助函数进行类型转换

Pandas的astype()函数和复杂的自定函数之间有一个中间段，那就是Pandas的一些辅助函数。这些辅助函数对于某些特定数据类型的转换非常有用(如to_numeric()、to_datetime())。所属组数据列中包含一个非数值，用astype()转换出现了错误，然而用to_numeric()函数处理就优雅很多。

pd.to_numeric(data[&#39;所属组&#39;], errors=&#39;coerce&#39;).fillna(0)

登录后复制

可以看到，非数值被替换成0.0了，当然这个填充值是可以选择的，具体文档见
pandas.to_numeric - pandas 0.22.0 documentation

Pandas中的to_datetime()函数可以把单独的year、month、day三列合并成一个单独的时间戳。

pd.to_datetime(data[[&#39;day&#39;, &#39;month&#39;, &#39;year&#39;]])

登录后复制

完成数据列的替换

data['new_date'] = pd.to_datetime(data[[&#39;day&#39;, &#39;month&#39;, &#39;year&#39;]]) #新产生的一列数据
data['所属组'] = pd.to_numeric(data[&#39;所属组&#39;], errors=&#39;coerce&#39;).fillna(0)

登录后复制

到这里所有的数据列都转换完毕，最终的数据显示：

在读取数据时就对数据类型进行转换，一步到位

data2 = pd.read_csv("data.csv",
   converters={
    &#39;客户编号&#39;: str,
    &#39;2016&#39;: convert_currency,
    &#39;2017&#39;: convert_currency,
    &#39;增长率&#39;: convert_percent,
    &#39;所属组&#39;: lambda x: pd.to_numeric(x, errors=&#39;coerce&#39;),
    &#39;状态&#39;: lambda x: np.where(x == "Y", True, False)
    },
   encoding=&#39;gbk&#39;)

登录后复制

在这里也体现了使用自定义函数比lambda表达式要方便很多。(大部分情况下lambda还是很简洁的，笔者自己也很喜欢使用）

总结

对数据集进行操作的第一步是确保设置正确的数据类型，然后才能进行数据的分析、可视化等操作，Pandas提供了很多非常方便的函数，有了这些函数那么对数据进行分析将会是很方便的。

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7563

CakePHP 教程

1385

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

全角英文字母转换为半角形式的实用技巧 Mar 26, 2024 am 09:54 AM

全角英文字母转换为半角形式的实用技巧在现代生活中，我们经常会接触到英文字母，在使用电脑、手机等设备时也经常需要输入英文字母。然而，有时候我们会遇到全角英文字母的情况，而我们需要使用的是半角形式。那么，如何将全角英文字母转换为半角形式呢？下面就为大家介绍一些实用的技巧。首先，全角英文字母和数字是指在输入法中占据一个全角位置的字符，而半角英文字母和数字则是占据一

如何在Windows 11/10中将ODT转换为Word？ Feb 20, 2024 pm 12:21 PM

在这篇文章中，我们将向您展示如何将OpenDocumentTextDocument(ODT)文件转换为MicrosoftWord(Docx、DOC等)。格式。如何在Windows11/10中将ODT转换为Word以下是您可以在WindowsPC上将ODT文档转换为DOC或DOCX格式的方法：使用写字板或Word将ODT转换为Word我们要向您展示的第一种方法是使用写字板或MicrosoftWord将ODT转换为Word。以下是实现这一点的步骤：首先，使用“开始”菜单打开写字板应用程序。现在，转到

Golang时间处理：如何在Golang中将时间戳转换为字符串 Feb 24, 2024 pm 10:42 PM

Golang时间转换：如何将时间戳转换为字符串在Golang中，时间操作是非常常见的操作之一。有时候我们需要将时间戳转换为字符串，以便于展示或者存储。本文将介绍如何使用Golang将时间戳转换为字符串，并提供具体的代码示例。1.时间戳和字符串的转换在Golang中，时间戳通常是以整型数字的形式表示的，表示的是从1970年1月1日至当前时间的秒数。而字符串则

PHP 月份转换为英文月份的实现方法详解 Mar 21, 2024 pm 06:45 PM

这篇文章将详细介绍如何将PHP中的月份转换为英文月份的方法，同时给出具体的代码示例。在PHP开发中，有时候我们需要将数字表示的月份转换为英文的月份，这在一些日期处理或数据展示的场景下非常实用。下面将从实现原理、具体代码示例和注意事项等方面进行详解。一、实现原理在PHP中，可以通过使用DateTime类和format方法来实现将数字月份转换为英文月份。Date

qq音乐怎么转换mp3格式手机上qq音乐转mp3格式 Mar 21, 2024 pm 01:21 PM

　　qq音乐让大家尽情享受观影解闷，每天都可以使用这个软件，轻松满足自己的使用，优质海量的歌曲，任由大家畅听，也可以下载保存起来，下次听的时候，不需要网络，而在这里下载的歌曲不是MP3格式的，无法在其他平台使用，会员歌曲过期后也没有办法再听了，所以很多小伙伴们，都想要将歌曲转换成MP3格式的，在这里小编为你们提供方法，帮助大家都可以使用起来！　　1、打开电脑qq音乐，点击右上角【主菜单】按钮，点击【音频转码】，选择【添加歌曲】选项，添加需要转换的歌曲;　　2、添加歌曲完毕，点击选择转换为【mp3

全角英文字母变为半角字母的方法 Mar 25, 2024 pm 02:45 PM

全角英文字母变为半角字母的方法在日常生活和工作中，有时候我们会遇到需要将全角英文字母转换为半角字母的情况，比如在输入电脑密码、编辑文档或者设计排版时。全角英文字母和数字是指宽度与中文字符相同的字符，而半角英文字母则是指宽度较窄的字符。在实际操作中，我们需要掌握一些简单的方法，来将全角英文字母转换为半角字母，以便更方便地处理文本和数字。一、全角英文字母与半角英

简易pandas安装教程：详细指导如何在不同操作系统上安装pandas Feb 21, 2024 pm 06:00 PM

简易pandas安装教程：详细指导如何在不同操作系统上安装pandas，需要具体代码示例随着数据处理和分析的需求不断增加，pandas成为了许多数据科学家和分析师们的首选工具之一。pandas是一个强大的数据处理和分析库，可以轻松处理和分析大量结构化数据。本文将详细介绍如何在不同操作系统上安装pandas，以及提供具体的代码示例。在Windows操作系统上安

PHP教程：如何将int类型转换为字符串 Mar 27, 2024 pm 06:03 PM

PHP教程：如何将int类型转换为字符串在PHP中，将整型数据转换为字符串是一种常见的操作。本教程将介绍如何使用PHP内置的函数将int类型转换为字符串，同时提供具体的代码示例。使用强制类型转换：在PHP中，可以使用强制类型转换的方式将整型数据转换为字符串。这种方法非常简单，只需要在整型数据前加上(string)即可将其转换为字符串。下面是一个简单的示例代码

See all articles

Pandas实现数据类型转换的一些技巧

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题