Python中大数据处理详解-Python教程-PHP中文网

首页

后端开发

Python教程

Python中大数据处理详解

零下一度

Jun 27, 2017 am 10:37 AM

python 数据处理案例

知识要点：
lubridate包拆解时间 | POSIXlt
利用决策树分类，利用随机森林预测
利用对数进行fit，和exp函数还原

训练集来自Kaggle华盛顿自行车共享计划中的自行车租赁数据，分析共享自行车与天气、时间等关系。数据集共11个变量，10000多行数据。

首先看一下官方给出的数据，一共两个表格，都是2011-2012年的数据，区别是Test文件是每个月的日期都是全的，但是没有注册用户和随意用户。而Train文件是每个月只有1-20天，但有两类用户的数量。
求解：补全Train文件里21-30号的用户数量。评价标准是预测与真实数量的比较。

1.png

首先加载文件和包

library(lubridate)library(randomForest)library(readr)setwd("E:")
data<-read_csv("train.csv")head(data)

登录后复制

这里我就遇到坑了，用r语言缺省的read.csv死活读不出来正确的文件格式，换成xlsx更惨，所有时间都变成43045这样的怪数字。本来之前试过as.Date可以正确转换，但这次因为有时分秒，就只能用时间戳，但结果也不行。
最后是下载了"readr"包，用read_csv语句，顺利解读。
因为test比train日期完整，但缺少用户数，所以要把train和test合并。

test$registered=0test$casual=0test$count=0
data<-rbind(train,test)

登录后复制

摘取时间：可以用时间戳，这里的时间比较简单，就是小时数，所以也可以直接截字符串。

data$hour1<-substr(data$datetime,12,13)
table(data$hour1)

登录后复制

统计一下每个小时的使用总数，是这样（为什么介么整齐）：

6-hour1.png

接下来是运用箱线图，看一下使用者和时间，周几这些的关系。为什么用箱线图而不用hist直方图，因为箱线图有离散点表达，下面也因此运用对数求fit
从图中可以看出，在时间方面，注册用户和非注册用户的使用时间有很大不同。

5-hour-regestered.png

5-hour-casual.png

4-boxplot-day.png

接下来用相关系数cor检验用户，温度，体感温度，湿度，风速的关系。

相关系数：变量之间的线性关联度量，检验不同数据的相关程度。
取值范围[-1，1]，越接近0越不相关。

从运算结果可以看出，使用人群与风速呈负相关，比温度影响还大。

cor.png

接下来就是将时间等因素用决策树分类，然后用随机森林来预测。随机森林和决策树的算法。听起来很高大上，其实现在也很常用了，所以一定要学会。

决策树模型是一种简单易用的非参数分类器。它不需要对数据有任何的先验假设，计算速度较快，结果容易解释，而且稳健性强，不怕噪声数据和缺失数据。
决策树模型的基本计算步骤如下：先从n个自变量中挑选一个，寻找最佳分割点，将数据划分为两组。针对分组后数据，将上述步骤重复下去，直到满足某种条件。
在决策树建模中需要解决的重要问题有三个：
如何选择自变量
如何选择分割点
确定停止划分的条件

做出注册用户和小时的决策树，

train$hour1<-as.integer(train$hour1)d<-rpart(registered~hour1,data=train)rpart.plot(d)

登录后复制

3-raprt-hour1.png

然后就是根据决策树的结果手动分类，所以还满占代码的...

train$hour1<-as.integer(train$hour1)data$dp_reg=0data$dp_reg[data$hour1<7.5]=1data$dp_reg[data$hour1>=22]=2data$dp_reg[data$hour1>=9.5 & data$hour1<18]=3data$dp_reg[data$hour1>=7.5 & data$hour1<18]=4data$dp_reg[data$hour1>=8.5 & data$hour1<18]=5data$dp_reg[data$hour1>=20 & data$hour1<20]=6data$dp_reg[data$hour1>=18 & data$hour1<20]=7

登录后复制

同理，做出（小时 | 温度） X （注册 | 随意用户）等决策树，继续手动分类....

3-raprt-temp.png

年份月份，周末假日等手动分类

data$year_part=0data$month<-month(data$datatime)data$year_part[data$year==&#39;2011&#39;]=1data$year_part[data$year==&#39;2011&#39; & data$month>3]=2data$year_part[data$year==&#39;2011&#39; & data$month>6]=3data$year_part[data$year==&#39;2011&#39; & data$month>9]=4

登录后复制

data$day_type=""data$day_type[data$holiday==0 & data$workingday==0]="weekend"data$day_type[data$holiday==1]="holiday"data$day_type[data$holiday==0 & data$workingday==1]="working day"data$weekend=0data$weekend[data$day=="Sunday"|data$day=="Saturday"]=1

登录后复制

接下来用随机森林语句预测

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。
随机森林中的子树的每一个分裂过程并未用到所有的待选特征，而是从所有的待选特征中随机选取一定的特征，再在其中选取最优的特征。这样决策树都能够彼此不同，提升系统的多样性，从而提升分类性能。

ntree指定随机森林所包含的决策树数目，默认为500，通常在性能允许的情况下越大越好；
mtry指定节点中用于二叉树的变量个数，默认情况下数据集变量个数的二次方根（分类模型）或三分之一（预测模型）。一般是需要进行人为的逐次挑选，确定最佳的m值—摘自datacruiser笔记。这里我主要学习，所以虽然有10000多数据集，但也只定了500。就这500我的小电脑也跑了半天。

train<-dataset.seed(1234)
train$logreg<-log(train$registered+1)test$logcas<-log(train$casual+1)

fit1<-randomForest(logreg~hour1+workingday+day+holiday+day_type+temp_reg+humidity+atemp+windspeed+season+weather+dp_reg+weekend+year+year_part,train,importance=TRUE,ntree=250)

pred1<-predict(fit1,train)
train$logreg<-pred1

登录后复制

这里不知道怎么回事，我的day和day_part加进去就报错，只有删掉这两个变量计算，还要研究修补。
然后用exp函数还原

train$registered<-exp(train$logreg)-1
train$casual<-exp(train$logcas)-1
train$count<-test$casual+train$registered

登录后复制

最后把20日后的日期截出来，写入新的csv文件上传。

train2<-train[as.integer(day(data$datetime))>=20,]submit_final<-data.frame(datetime=test$datetime,count=test$count)write.csv(submit_final,"submit_final.csv",row.names=F)

登录后复制

大功告成！
github代码加群

原来的示例是炼数成金网站的kaggle课程第二节，基本按照视频的思路。因为课程没有源代码，所以要自己修补运行完整。历时两三天总算把这个功课做完了。下面要修正的有：

好好理解三个知识点（lubridate包/POSIXlt，log线性，决策树和随机森林）；
用WOE和IV代替cor函数分析相关关系；
用其他图形展现的手段分析
随机树变量重新测试

学习过程中遇到什么问题或者想获取学习资源的话，欢迎加入学习交流群
626062078，我们一起学Python！

完成了一个“浩大完整”的数据分析，还是很有成就感的！

以上是Python中大数据处理详解的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7554

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

PHP和Python：代码示例和比较 Apr 15, 2025 am 12:07 AM

PHP和Python各有优劣，选择取决于项目需求和个人偏好。1.PHP适合快速开发和维护大型Web应用。2.Python在数据科学和机器学习领域占据主导地位。

Python vs. JavaScript：社区，图书馆和资源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好，适合初学者，但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大，JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富，但Python适合从官方文档开始，JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

CentOS上PyTorch的GPU支持情况如何 Apr 14, 2025 pm 06:48 PM

在CentOS系统上启用PyTorchGPU加速，需要安装CUDA、cuDNN以及PyTorch的GPU版本。以下步骤将引导您完成这一过程：CUDA和cuDNN安装确定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA显卡支持的CUDA版本。例如，您的MX450显卡可能支持CUDA11.1或更高版本。下载并安装CUDAToolkit:访问NVIDIACUDAToolkit官网，根据您显卡支持的最高CUDA版本下载并安装相应的版本。安装cuDNN库:前

docker原理详解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux内核特性，提供高效、隔离的应用运行环境。其工作原理如下：1. 镜像作为只读模板，包含运行应用所需的一切；2. 联合文件系统（UnionFS）层叠多个文件系统，只存储差异部分，节省空间并加快速度；3. 守护进程管理镜像和容器，客户端用于交互；4. Namespaces和cgroups实现容器隔离和资源限制；5. 多种网络模式支持容器互联。理解这些核心概念，才能更好地利用Docker。

CentOS上PyTorch的分布式训练如何操作 Apr 14, 2025 pm 06:36 PM

在CentOS系统上进行PyTorch分布式训练，需要按照以下步骤操作：PyTorch安装:前提是CentOS系统已安装Python和pip。根据您的CUDA版本，从PyTorch官网获取合适的安装命令。对于仅需CPU的训练，可以使用以下命令：pipinstalltorchtorchvisiontorchaudio如需GPU支持，请确保已安装对应版本的CUDA和cuDNN，并使用相应的PyTorch版本进行安装。分布式环境配置:分布式训练通常需要多台机器或单机多GPU。所

minio安装centos兼容性 Apr 14, 2025 pm 05:45 PM

MinIO对象存储：CentOS系统下的高性能部署MinIO是一款基于Go语言开发的高性能、分布式对象存储系统，与AmazonS3兼容。它支持多种客户端语言，包括Java、Python、JavaScript和Go。本文将简要介绍MinIO在CentOS系统上的安装和兼容性。CentOS版本兼容性MinIO已在多个CentOS版本上得到验证，包括但不限于：CentOS7.9:提供完整的安装指南，涵盖集群配置、环境准备、配置文件设置、磁盘分区以及MinI

CentOS上PyTorch版本怎么选 Apr 14, 2025 pm 06:51 PM

在CentOS系统上安装PyTorch，需要仔细选择合适的版本，并考虑以下几个关键因素：一、系统环境兼容性:操作系统:建议使用CentOS7或更高版本。CUDA与cuDNN:PyTorch版本与CUDA版本密切相关。例如，PyTorch1.9.0需要CUDA11.1，而PyTorch2.0.1则需要CUDA11.3。cuDNN版本也必须与CUDA版本匹配。选择PyTorch版本前，务必确认已安装兼容的CUDA和cuDNN版本。Python版本:PyTorch官方支

Python：自动化，脚本和任务管理 Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化：通过标准库如os、shutil实现文件备份。2)脚本编写：使用psutil库监控系统资源。3)任务管理：利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

See all articles

Python中大数据处理详解

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题