Python中数据预处理（代码）-Python教程-PHP中文网

首页

后端开发

Python教程

Python中数据预处理（代码）

不言

Mar 18, 2019 am 10:06 AM

python

本篇文章给大家带来的内容是关于Python中数据预处理（代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。

1、导入标准库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

登录后复制

2、导入数据集

dataset = pd.read_csv(&#39;data (1).csv&#39;)  # read_csv：读取csv文件
#创建一个包含所有自变量的矩阵，及因变量的向量
#iloc表示选取数据集的某行某列；逗号之前的表示行，之后的表示列；冒号表示选取全部，没有冒号，则表示选取第几列；values表示选取数据集里的数据。
X = dataset.iloc[:, :-1].values # 选取数据，不选取最后一列。
y = dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据

登录后复制

3、缺失数据

from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库，Imputer缺失数据的处理
#Imputer中的参数：missing_values 缺失数据，定义怎样辨认确实数据，默认值：nan ;strategy 策略，补缺值方式 ： mean-平均值 ， median-中值 ， most_frequent-出现次数最多的数 ； axis =0取列 =1取行 
imputer = Imputer(missing_values = &#39;NaN&#39;, strategy = &#39;mean&#39;, axis = 0)
imputer = imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

登录后复制

4、分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量，Python里面的函数可以将其识别为分类数据，所以只需要LabelEncoder转换为分类数字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

登录后复制

5、将数据集分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train（训练集的字变量）,X_test（测试集的字变量）,y_train（训练集的因变量）,y_test（训练集的因变量）
#训练集所占的比重0.2~0.25，某些情况也可分配1/3的数据给训练集；train_size训练集所占的比重
#random_state决定随机数生成的方式，随机的将数据分配给训练集和测试集；random_state相同时会得到相同的训练集和测试集

登录后复制

6、特征缩放

#特征缩放（两种方式：一：Standardisation(标准化）；二：Normalisation（正常化））
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_test=sc_X.transform(X_test)#sc_X已经被拟合好了，所以对X_test进行缩放时，直接转换X_test

登录后复制

7、数据预处理模板

（1）导入标准库
（2）导入数据集
（3）缺失和分类很少遇到
（4）将数据集分割为训练集和测试集
（5）特征缩放，大部分情况下不需要，但是某些情况需要特征缩放

以上是Python中数据预处理（代码）的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7505

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

HadiDB：Python 中的轻量级、可水平扩展的数据库 Apr 08, 2025 pm 06:12 PM

HadiDB：轻量级、高水平可扩展的Python数据库HadiDB(hadidb)是一个用Python编写的轻量级数据库，具备高度水平的可扩展性。安装HadiDB使用pip安装：pipinstallhadidb用户管理创建用户：createuser()方法创建一个新用户。authentication()方法验证用户身份。fromhadidb.operationimportuseruser_obj=user("admin","admin")user_obj.

Python：探索其主要应用程序 Apr 10, 2025 am 09:41 AM

Python在web开发、数据科学、机器学习、自动化和脚本编写等领域有广泛应用。1)在web开发中，Django和Flask框架简化了开发过程。2)数据科学和机器学习领域，NumPy、Pandas、Scikit-learn和TensorFlow库提供了强大支持。3)自动化和脚本编写方面，Python适用于自动化测试和系统管理等任务。

2小时的Python计划：一种现实的方法 Apr 11, 2025 am 12:04 AM

2小时内可以学会Python的基本编程概念和技能。1.学习变量和数据类型，2.掌握控制流（条件语句和循环），3.理解函数的定义和使用，4.通过简单示例和代码片段快速上手Python编程。

Navicat查看MongoDB数据库密码的方法 Apr 08, 2025 pm 09:39 PM

直接通过 Navicat 查看 MongoDB 密码是不可能的，因为它以哈希值形式存储。取回丢失密码的方法：1. 重置密码；2. 检查配置文件（可能包含哈希值）；3. 检查代码（可能硬编码密码）。

如何将 AWS Glue 爬网程序与 Amazon Athena 结合使用 Apr 09, 2025 pm 03:09 PM

作为数据专业人员，您需要处理来自各种来源的大量数据。这可能会给数据管理和分析带来挑战。幸运的是，两项 AWS 服务可以提供帮助：AWS Glue 和 Amazon Athena。

如何针对高负载应用程序优化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL数据库性能优化指南在资源密集型应用中，MySQL数据库扮演着至关重要的角色，负责管理海量事务。然而，随着应用规模的扩大，数据库性能瓶颈往往成为制约因素。本文将探讨一系列行之有效的MySQL性能优化策略，确保您的应用在高负载下依然保持高效响应。我们将结合实际案例，深入讲解索引、查询优化、数据库设计以及缓存等关键技术。1.数据库架构设计优化合理的数据库架构是MySQL性能优化的基石。以下是一些核心原则：选择合适的数据类型选择最小的、符合需求的数据类型，既能节省存储空间，又能提升数据处理速度

redis怎么启动服务器 Apr 10, 2025 pm 08:12 PM

启动 Redis 服务器的步骤包括：根据操作系统安装 Redis。通过 redis-server（Linux/macOS）或 redis-server.exe（Windows）启动 Redis 服务。使用 redis-cli ping（Linux/macOS）或 redis-cli.exe ping（Windows）命令检查服务状态。使用 Redis 客户端，如 redis-cli、Python 或 Node.js，访问服务器。

redis怎么读取队列 Apr 10, 2025 pm 10:12 PM

要从 Redis 读取队列，需要获取队列名称、使用 LPOP 命令读取元素，并处理空队列。具体步骤如下：获取队列名称：以 "queue:" 前缀命名，如 "queue:my-queue"。使用 LPOP 命令：从队列头部弹出元素并返回其值，如 LPOP queue:my-queue。处理空队列：如果队列为空，LPOP 返回 nil，可先检查队列是否存在再读取元素。

See all articles

Python中数据预处理（代码）

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题