使用Python进行数据清洗的完整指南-Python教程-PHP中文网

缺失值

异常值

数据不一致

无效数据

重复数据

数据泄漏问题

首页

后端开发

Python教程

使用Python进行数据清洗的完整指南

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 08:16 PM

python 数据集数据清洗

你一定听说过这句著名的数据科学名言：

在数据科学项目中， 80% 的时间是在做数据处理。

如果你没有听过，那么请记住：数据清洗是数据科学工作流程的基础。机器学习模型会根据你提供的数据执行，混乱的数据会导致性能下降甚至错误的结果，而干净的数据是良好模型性能的先决条件。当然干净的数据并不意味着一直都有好的性能，模型的正确选择(剩余 20%)也很重要，但是没有干净的数据，即使是再强大的模型也无法达到预期的水平。

在本文中将列出数据清洗中需要解决的问题并展示可能的解决方案，通过本文可以了解如何逐步进行数据清洗。

缺失值

当数据集中包含缺失数据时，在填充之前可以先进行一些数据的分析。因为空单元格本身的位置可以告诉我们一些有用的信息。例如：

NA值仅在数据集的尾部或中间出现。这意味着在数据收集过程中可能存在技术问题。可能需要分析该特定样本序列的数据收集过程，并尝试找出问题的根源。
如果列NA数量超过 70–80%，可以删除该列。
如果 NA 值在表单中作为可选问题的列中，则该列可以被额外的编码为用户回答(1)或未回答(0)。

missingno这个python库就可以用于检查上述情况，并且使用起来非常的简单，例如下图中的白线是 NA：

import missingno as msno
msno.matrix(df)

登录后复制

使用Python进行数据清洗的完整指南

对于缺失值的填补计算有很多方法，例如：

平均，中位数，众数
kNN
零或常数等

不同的方法相互之间有优势和不足，并且没有适用于所有情况的“最佳”技术。具体可以参考我们以前发布的文章

异常值

异常值是相对于数据集的其他点而言非常大或非常小的值。它们的存在极大地影响了数学模型的性能。让我们看一下这个简单的示例：

使用Python进行数据清洗的完整指南

在左图中没有异常值，我们的线性模型非常适合数据点。在右图中有一个异常值，当模型试图覆盖数据集的所有点时，这个异常值的存在会改变模型的拟合方式，并且使我们的模型不适合至少一半的点。

对于异常值来说我们有必要介绍一下如何确定异常，这就要从数学角度明确什么是极大或极小。

大于Q3+1.5 x IQR或小于Q1-1.5 x IQR都可以作为异常值。 IQR(四分位距) 是 Q3 和 Q1 之间的差 (IQR = Q3-Q1)。

可以使用下面函数来检查数据集中异常值的数量：

def number_of_outliers(df):

df = df.select_dtypes(exclude = 'object')

Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1

return ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).sum()

登录后复制

处理异常值的一种方法是可以让它们等于 Q3 或 Q1。下面的lower_upper_range 函数使用 pandas 和 numpy 库查找其外部为异常值的范围，然后使用clip 函数将值裁剪到指定的范围。

def lower_upper_range(datacolumn):
sorted(datacolumn)
Q1,Q3 = np.percentile(datacolumn , [25,75])
IQR = Q3 - Q1
lower_range = Q1 - (1.5 * IQR)
upper_range = Q3 + (1.5 * IQR)
return lower_range,upper_range

for col in columns: 
lowerbound,upperbound = lower_upper_range(df[col])
df[col]=np.clip(df[col],a_min=lowerbound,a_max=upperbound)

登录后复制

数据不一致

异常值问题是关于数字特征的，现在让我们看看字符类型(分类)特征。数据不一致意味着列的唯一类具有不同的表示形式。例如在性别栏中，既有m/f，又有male/female。在这种情况下，就会有4个类，但实际上有两类。

这种问题目前没有自动处理的办法，所以需要手动进行分析。 pandas 的unique函数就是为了这个分析准备的，下面看一个汽车品牌的例子：

df['CarName'] = df['CarName'].str.split().str[0]
print(df['CarName'].unique())

登录后复制

使用Python进行数据清洗的完整指南

maxda-mazda, Nissan-nissan, porcshce-porsche, toyouta-toyota等都可以进行合并。

df.loc[df['CarName'] == 'maxda', 'CarName'] = 'mazda'
df.loc[df['CarName'] == 'Nissan', 'CarName'] = 'nissan'
df.loc[df['CarName'] == 'porcshce', 'CarName'] = 'porsche'
df.loc[df['CarName'] == 'toyouta', 'CarName'] = 'toyota'
df.loc[df['CarName'] == 'vokswagen', 'CarName'] = 'volkswagen'
df.loc[df['CarName'] == 'vw', 'CarName'] = 'volkswagen'

登录后复制

无效数据

无效的数据表示在逻辑上根本不正确的值。例如，

某人的年龄是 560;
某个操作花费了 -8 小时;
一个人的身高是1200 cm等;

对于数值列，pandas的 describe 函数可用于识别此类错误：

df.describe()

登录后复制

使用Python进行数据清洗的完整指南

无效数据的产生原因可能有两种：

1、数据收集错误：例如在输入时没有进行范围的判断，在输入身高时错误的输入了1799cm 而不是 179cm，但是程序没有对数据的范围进行判断。

2、数据操作错误

数据集的某些列可能通过了一些函数的处理。例如，一个函数根据生日计算年龄，但是这个函数出现了BUG导致输出不正确。

以上两种随机错误都可以被视为空值并与其他 NA 一起估算。

重复数据

当数据集中有相同的行时就会产生重复数据问题。这可能是由于数据组合错误(来自多个来源的同一行)，或者重复的操作(用户可能会提交他或她的答案两次)等引起的。处理该问题的理想方法是删除复制行。

可以使用 pandas duplicated 函数查看重复的数据：

df.loc[df.duplicated()]

登录后复制

在识别出重复的数据后可以使用pandas 的 drop_duplicate 函数将其删除：

df.drop_duplicates()

登录后复制

数据泄漏问题

在构建模型之前，数据集被分成训练集和测试集。测试集是看不见的数据用于评估模型性能。如果在数据清洗或数据预处理步骤中模型以某种方式“看到”了测试集，这个就被称做数据泄漏(data leakage)。所以应该在清洗和预处理步骤之前拆分数据：

使用Python进行数据清洗的完整指南

以选择缺失值插补为例。数值列中有 NA，采用均值法估算。在 split 前完成时，使用整个数据集的均值，但如果在 split 后完成，则使用分别训练和测试的均值。

第一种情况的问题是，测试集中的推算值将与训练集相关，因为平均值是整个数据集的。所以当模型用训练集构建时，它也会“看到”测试集。但是我们拆分的目标是保持测试集完全独立，并像使用新数据一样使用它来进行性能评估。所以在操作之前必须拆分数据集。

虽然训练集和测试集分别处理效率不高(因为相同的操作需要进行2次)，但它可能是正确的。因为数据泄露问题非常重要，为了解决代码重复编写的问题，可以使用sklearn 库的pipeline。简单地说，pipeline就是将数据作为输入发送到的所有操作步骤的组合，这样我们只要设定好操作，无论是训练集还是测试集，都可以使用相同的步骤进行处理，减少的代码开发的同时还可以减少出错的概率。

以上是使用Python进行数据清洗的完整指南的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7549

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

PHP和Python：代码示例和比较 Apr 15, 2025 am 12:07 AM

PHP和Python各有优劣，选择取决于项目需求和个人偏好。1.PHP适合快速开发和维护大型Web应用。2.Python在数据科学和机器学习领域占据主导地位。

CentOS上PyTorch的GPU支持情况如何 Apr 14, 2025 pm 06:48 PM

在CentOS系统上启用PyTorchGPU加速，需要安装CUDA、cuDNN以及PyTorch的GPU版本。以下步骤将引导您完成这一过程：CUDA和cuDNN安装确定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA显卡支持的CUDA版本。例如，您的MX450显卡可能支持CUDA11.1或更高版本。下载并安装CUDAToolkit:访问NVIDIACUDAToolkit官网，根据您显卡支持的最高CUDA版本下载并安装相应的版本。安装cuDNN库:前

Python vs. JavaScript：社区，图书馆和资源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好，适合初学者，但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大，JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富，但Python适合从官方文档开始，JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

docker原理详解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux内核特性，提供高效、隔离的应用运行环境。其工作原理如下：1. 镜像作为只读模板，包含运行应用所需的一切；2. 联合文件系统（UnionFS）层叠多个文件系统，只存储差异部分，节省空间并加快速度；3. 守护进程管理镜像和容器，客户端用于交互；4. Namespaces和cgroups实现容器隔离和资源限制；5. 多种网络模式支持容器互联。理解这些核心概念，才能更好地利用Docker。

minio安装centos兼容性 Apr 14, 2025 pm 05:45 PM

MinIO对象存储：CentOS系统下的高性能部署MinIO是一款基于Go语言开发的高性能、分布式对象存储系统，与AmazonS3兼容。它支持多种客户端语言，包括Java、Python、JavaScript和Go。本文将简要介绍MinIO在CentOS系统上的安装和兼容性。CentOS版本兼容性MinIO已在多个CentOS版本上得到验证，包括但不限于：CentOS7.9:提供完整的安装指南，涵盖集群配置、环境准备、配置文件设置、磁盘分区以及MinI

CentOS上PyTorch的分布式训练如何操作 Apr 14, 2025 pm 06:36 PM

在CentOS系统上进行PyTorch分布式训练，需要按照以下步骤操作：PyTorch安装:前提是CentOS系统已安装Python和pip。根据您的CUDA版本，从PyTorch官网获取合适的安装命令。对于仅需CPU的训练，可以使用以下命令：pipinstalltorchtorchvisiontorchaudio如需GPU支持，请确保已安装对应版本的CUDA和cuDNN，并使用相应的PyTorch版本进行安装。分布式环境配置:分布式训练通常需要多台机器或单机多GPU。所

centos如何安装nginx Apr 14, 2025 pm 08:06 PM

CentOS 安装 Nginx 需要遵循以下步骤：安装依赖包，如开发工具、pcre-devel 和 openssl-devel。下载 Nginx 源码包，解压后编译安装，并指定安装路径为 /usr/local/nginx。创建 Nginx 用户和用户组，并设置权限。修改配置文件 nginx.conf，配置监听端口和域名/IP 地址。启动 Nginx 服务。需要注意常见的错误，如依赖问题、端口冲突和配置文件错误。性能优化需要根据具体情况调整，如开启缓存和调整 worker 进程数量。

CentOS上PyTorch版本怎么选 Apr 14, 2025 pm 06:51 PM

在CentOS系统上安装PyTorch，需要仔细选择合适的版本，并考虑以下几个关键因素：一、系统环境兼容性:操作系统:建议使用CentOS7或更高版本。CUDA与cuDNN:PyTorch版本与CUDA版本密切相关。例如，PyTorch1.9.0需要CUDA11.1，而PyTorch2.0.1则需要CUDA11.3。cuDNN版本也必须与CUDA版本匹配。选择PyTorch版本前，务必确认已安装兼容的CUDA和cuDNN版本。Python版本:PyTorch官方支

See all articles

使用Python进行数据清洗的完整指南

缺失值

异常值

数据不一致

无效数据

重复数据

数据泄漏问题

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题