用 PySpark ML 构建机器学习模型-人工智能-PHP中文网

Conda 创建 python 虚拟环境

1.安装Anaconda。

2.conda常用的命令

3.Python创建虚拟环境

4.激活或者切换虚拟环境

5.对虚拟环境中安装额外的包

6.关闭虚拟环境

7.删除虚拟环境

8.删除环境钟的某个包

9.设置国内镜像

10.恢复默认镜像

安装 PySpark

探索数据

描述性统计

自变量之间的相关性

数据准备和特征工程

缺失数据处理

不必要的列丢弃

特征转换为向量

训练和测试拆分

机器学习模型构建

随机森林分类器

评估随机森林分类器模型

决策树分类器

评估决策树模型

逻辑回归模型

梯度提升树分类器模型

结论

首页

科技周边

人工智能

用 PySpark ML 构建机器学习模型

PHPz

Apr 09, 2023 pm 01:51 PM

机器学习数据分析 pyspark m

Spark 是一种专门用于交互式查询、机器学习和实时工作负载的开源框架，而 PySpark 是 Python 使用 Spark 的库。

PySpark 是一种用于大规模执行探索性数据分析、构建机器学习管道以及为数据平台创建 ETL 的出色语言。如果你已经熟悉 Python 和 Pandas 等库，那么 PySpark 是一种很好的学习语言，可以创建更具可扩展性的分析和管道。

这篇文章的目的是展示如何使用 PySpark 构建机器学习模型。

Conda 创建 python 虚拟环境

conda将几乎所有的工具、第三方包都当作package进行管理，甚至包括python 和conda自身。Anaconda是一个打包的集合，里面预装好了conda、某个版本的python、各种packages等。

1.安装Anaconda。

打开命令行输入conda -V检验是否安装及当前conda的版本。

通过Anaconda安装默认版本的Python，3.6的对应的是 Anaconda3-5.2，5.3以后的都是python 3.7。

(https://repo.anaconda.com/archive/)

2.conda常用的命令

1) 查看安装了哪些包

conda list

登录后复制

2) 查看当前存在哪些虚拟环境

conda env list <br>conda info -e

登录后复制

3) 检查更新当前conda

conda update conda

登录后复制

3.Python创建虚拟环境

conda create -n your_env_name python=x.x

登录后复制

anaconda命令创建python版本为x.x，名字为your_env_name的虚拟环境。your_env_name文件可以在Anaconda安装目录envs文件下找到。

4.激活或者切换虚拟环境

打开命令行，输入python --version检查当前 python 版本。

Linux:source activate your_env_nam<br>Windows: activate your_env_name

登录后复制

5.对虚拟环境中安装额外的包

conda install -n your_env_name [package]

登录后复制

6.关闭虚拟环境

(即从当前环境退出返回使用PATH环境中的默认python版本)

deactivate env_name<br># 或者`activate root`切回root环境<br>Linux下：source deactivate

登录后复制

7.删除虚拟环境

conda remove -n your_env_name --all

登录后复制

8.删除环境钟的某个包

conda remove --name $your_env_name$package_name

登录后复制

9.设置国内镜像

http://Anaconda.org 的服务器在国外，安装多个packages时，conda下载的速度经常很慢。清华TUNA镜像源有Anaconda仓库的镜像，将其加入conda的配置即可：

# 添加Anaconda的TUNA镜像<br>conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/<br><br># 设置搜索时显示通道地址<br>conda config --set show_channel_urls yes

登录后复制

10.恢复默认镜像

conda config --remove-key channels

登录后复制

安装 PySpark

PySpark 的安装过程和其他 python 的包一样简单（例如 Pandas、Numpy、scikit-learn）。

一件重要的事情是，首先确保你的机器上已经安装了java。然后你可以在你的 jupyter notebook 上运行 PySpark。

探索数据

我们使用糖尿病数据集，它与美国国家糖尿病、消化和肾脏疾病研究所的糖尿病疾病有关。分类目标是预测患者是否患有糖尿病（是/否）。

from pyspark.sql import SparkSession<br>spark = SparkSession.builder.appName('ml-diabetes').getOrCreate()<br>df = spark.read.csv('diabetes.csv', header = True, inferSchema = True)<br>df.printSchema()

登录后复制

数据集由几个医学预测变量和一个目标变量 Outcome 组成。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。

Pregnancies：怀孕次数
Glucose：2小时内口服葡萄糖耐量试验的血糖浓度
BloodPressure：舒张压(mm Hg)
SkinThickness：三头肌皮肤褶皱厚度(mm)
Insulin：2小时血清胰岛素(mu U/ml)
BMI：身体质量指数(体重单位kg/(身高单位m)²)
diabespedigreefunction：糖尿病谱系功能
Age：年龄(年)
Outcome：类变量(0或1)
输入变量：葡萄糖、血压、BMI、年龄、怀孕、胰岛素、皮肤厚度、糖尿病谱系函数。
输出变量：结果。

看看前五个观察结果。Pandas 数据框比 Spark DataFrame.show() 更漂亮。

import pandas as pd<br>pd.DataFrame(df.take(5), <br> columns=df.columns).transpose()

登录后复制

在 PySpark 中，您可以使用 Pandas 的 DataFrame 显示数据 toPandas()。

df.toPandas()

登录后复制

检查类是完全平衡的！

df.groupby('Outcome').count().toPandas()

登录后复制

描述性统计

numeric_features = [t[0] for t in df.dtypes if t[1] == 'int']<br>df.select(numeric_features)<br>.describe()<br>.toPandas()<br>.transpose()

登录后复制

自变量之间的相关性

from pandas.plotting import scatter_matrix<br>numeric_data = df.select(numeric_features).toPandas()<br><br>axs = scatter_matrix(numeric_data, figsize=(8, 8));<br><br># Rotate axis labels and remove axis ticks<br>n = len(numeric_data.columns)<br>for i in range(n):<br>v = axs[i, 0]<br>v.yaxis.label.set_rotation(0)<br>v.yaxis.label.set_ha('right')<br>v.set_yticks(())<br>h = axs[n-1, i]<br>h.xaxis.label.set_rotation(90)<br>h.set_xticks(())

登录后复制

数据准备和特征工程

在这一部分中，我们将删除不必要的列并填充缺失值。最后，为机器学习模型选择特征。这些功能将分为训练和测试两部分。

缺失数据处理

from pyspark.sql.functions import isnull, when, count, col<br>df.select([count(when(isnull(c), c)).alias(c)<br> for c in df.columns]).show()

登录后复制

这个数据集很棒，没有任何缺失值。

用 PySpark ML 构建机器学习模型

不必要的列丢弃

dataset = dataset.drop('SkinThickness')<br>dataset = dataset.drop('Insulin')<br>dataset = dataset.drop('DiabetesPedigreeFunction')<br>dataset = dataset.drop('Pregnancies')<br><br>dataset.show()

登录后复制

特征转换为向量

VectorAssembler —— 将多列合并为向量列的特征转换器。

# 用VectorAssembler合并所有特性<br>required_features = ['Glucose',<br>'BloodPressure',<br>'BMI',<br>'Age']<br><br>from pyspark.ml.feature import VectorAssembler<br><br>assembler = VectorAssembler(<br>inputCols=required_features, <br>outputCol='features')<br><br>transformed_data = assembler.transform(dataset)<br>transformed_data.show()

登录后复制

现在特征转换为向量已完成。

训练和测试拆分

将数据随机分成训练集和测试集，并设置可重复性的种子。

(training_data, test_data) = transformed_data.randomSplit([0.8,0.2], seed =2020)<br>print("训练数据集总数: " + str(training_data.count()))<br>print("测试数据集总数: " + str(test_data.count()))

登录后复制

训练数据集总数：620<br>测试数据集数量：148

登录后复制

机器学习模型构建

随机森林分类器

随机森林是一种监督学习算法，用于分类和回归。但是，它主要用于分类问题。众所周知，森林是由树木组成的，树木越多，森林越茂盛。类似地，随机森林算法在数据样本上创建决策树，然后从每个样本中获取预测，最后通过投票选择最佳解决方案。这是一种比单个决策树更好的集成方法，因为它通过对结果进行平均来减少过拟合。

from pyspark.ml.classification import RandomForestClassifier<br><br>rf = RandomForestClassifier(labelCol='Outcome', <br>featuresCol='features',<br>maxDepth=5)<br>model = rf.fit(training_data)<br>rf_predictions = model.transform(test_data)

登录后复制

评估随机森林分类器模型

from pyspark.ml.evaluation import MulticlassClassificationEvaluator<br><br>multi_evaluator = MulticlassClassificationEvaluator(<br>labelCol = 'Outcome', metricName = 'accuracy')<br>print('Random Forest classifier Accuracy:', multi_evaluator.evaluate(rf_predictions))

登录后复制

Random Forest classifier Accuracy：0.79452

登录后复制

决策树分类器

决策树被广泛使用，因为它们易于解释、处理分类特征、扩展到多类分类设置、不需要特征缩放，并且能够捕获非线性和特征交互。

from pyspark.ml.classification import DecisionTreeClassifier<br><br>dt = DecisionTreeClassifier(featuresCol = 'features',<br>labelCol = 'Outcome',<br>maxDepth = 3)<br>dtModel = dt.fit(training_data)<br>dt_predictions = dtModel.transform(test_data)<br>dt_predictions.select('Glucose', 'BloodPressure', <br>'BMI', 'Age', 'Outcome').show(10)

登录后复制

评估决策树模型

from pyspark.ml.evaluation import MulticlassClassificationEvaluator<br><br>multi_evaluator = MulticlassClassificationEvaluator(<br>labelCol = 'Outcome', <br>metricName = 'accuracy')<br>print('Decision Tree Accuracy:', <br>multi_evaluator.evaluate(dt_predictions))

登录后复制

Decision Tree Accuracy: 0.78767

登录后复制

逻辑回归模型

逻辑回归是在因变量是二分（二元）时进行的适当回归分析。与所有回归分析一样，逻辑回归是一种预测分析。逻辑回归用于描述数据并解释一个因二元变量与一个或多个名义、序数、区间或比率水平自变量之间的关系。当因变量（目标）是分类时，使用逻辑回归。

from pyspark.ml.classification import LogisticRegression<br><br>lr = LogisticRegression(featuresCol = 'features', <br>labelCol = 'Outcome', <br>maxIter=10)<br>lrModel = lr.fit(training_data)<br>lr_predictions = lrModel.transform(test_data)

登录后复制

评估我们的逻辑回归模型。

from pyspark.ml.evaluation import MulticlassClassificationEvaluator<br><br>multi_evaluator = MulticlassClassificationEvaluator(<br>labelCol = 'Outcome',<br>metricName = 'accuracy')<br>print('Logistic Regression Accuracy:', <br>multi_evaluator.evaluate(lr_predictions))

登录后复制

Logistic Regression Accuracy：0.78767

登录后复制

梯度提升树分类器模型

梯度提升是一种用于回归和分类问题的机器学习技术，它以弱预测模型（通常是决策树）的集合形式生成预测模型。

from pyspark.ml.classification import GBTClassifier<br>gb = GBTClassifier(<br>labelCol = 'Outcome', <br>featuresCol = 'features')<br>gbModel = gb.fit(training_data)<br>gb_predictions = gbModel.transform(test_data)

登录后复制

评估我们的梯度提升树分类器。

from pyspark.ml.evaluation import MulticlassClassificationEvaluator<br>multi_evaluator = MulticlassClassificationEvaluator(<br>labelCol = 'Outcome',<br>metricName = 'accuracy')<br>print('Gradient-boosted Trees Accuracy:',<br>multi_evaluator.evaluate(gb_predictions))

登录后复制

Gradient-boosted Trees Accuracy：0.80137

登录后复制

结论

PySpark 是一种非常适合数据科学家学习的语言，因为它支持可扩展的分析和 ML 管道。如果您已经熟悉 Python 和 Pandas，那么您的大部分知识都可以应用于 Spark。总而言之，我们已经学习了如何使用 PySpark 构建机器学习应用程序。我们尝试了三种算法，梯度提升在我们的数据集上表现最好。

以上是用 PySpark ML 构建机器学习模型的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7526

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

一文带您了解SHAP：机器学习的模型解释 Jun 01, 2024 am 10:58 AM

在机器学习和数据科学领域，模型的可解释性一直是研究者和实践者关注的焦点。随着深度学习和集成方法等复杂模型的广泛应用，理解模型的决策过程变得尤为重要。可解释人工智能（ExplainableAI|XAI）通过提高模型的透明度，帮助建立对机器学习模型的信任和信心。提高模型的透明度可以通过多种复杂模型的广泛应用等方法来实现，以及用于解释模型的决策过程。这些方法包括特征重要性分析、模型预测区间估计、局部可解释性算法等。特征重要性分析可以通过评估模型对输入特征的影响程度来解释模型的决策过程。模型预测区间估计

通过学习曲线识别过拟合和欠拟合 Apr 29, 2024 pm 06:50 PM

本文将介绍如何通过学习曲线来有效识别机器学习模型中的过拟合和欠拟合。欠拟合和过拟合1、过拟合如果一个模型对数据进行了过度训练，以至于它从中学习了噪声，那么这个模型就被称为过拟合。过拟合模型非常完美地学习了每一个例子，所以它会错误地分类一个看不见的/新的例子。对于一个过拟合的模型，我们会得到一个完美/接近完美的训练集分数和一个糟糕的验证集/测试分数。略有修改："过拟合的原因：用一个复杂的模型来解决一个简单的问题，从数据中提取噪声。因为小数据集作为训练集可能无法代表所有数据的正确表示。"2、欠拟合如

通透！机器学习各大模型原理的深度剖析！ Apr 12, 2024 pm 05:55 PM

通俗来说，机器学习模型是一种数学函数，它能够将输入数据映射到预测输出。更具体地说，机器学习模型就是一种通过学习训练数据，来调整模型参数，以最小化预测输出与真实标签之间的误差的数学函数。在机器学习中存在多种模型，例如逻辑回归模型、决策树模型、支持向量机模型等，每一种模型都有其适用的数据类型和问题类型。同时，不同模型之间存在着许多共性，或者说有一条隐藏的模型演化的路径。将联结主义的感知机为例，通过增加感知机的隐藏层数量，我们可以将其转化为深度神经网络。而对感知机加入核函数的话就可以转化为SVM。这一

人工智能在太空探索和人居工程中的演变 Apr 29, 2024 pm 03:25 PM

20世纪50年代，人工智能（AI）诞生。当时研究人员发现机器可以执行类似人类的任务，例如思考。后来，在20世纪60年代，美国国防部资助了人工智能，并建立了实验室进行进一步开发。研究人员发现人工智能在许多领域都有用武之地，例如太空探索和极端环境中的生存。太空探索是对宇宙的研究，宇宙涵盖了地球以外的整个宇宙空间。太空被归类为极端环境，因为它的条件与地球不同。要在太空中生存，必须考虑许多因素，并采取预防措施。科学家和研究人员认为，探索太空并了解一切事物的现状有助于理解宇宙的运作方式，并为潜在的环境危机

使用C++实现机器学习算法：常见挑战及解决方案 Jun 03, 2024 pm 01:25 PM

C++中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、SIMD指令和第三方库，并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用Eigen库实现线性回归算法，有效地管理内存和使用高性能矩阵操作。

可解释性人工智能：解释复杂的AI/ML模型 Jun 03, 2024 pm 10:08 PM

译者|李睿审校|重楼人工智能（AI）和机器学习（ML）模型如今变得越来越复杂，这些模型产生的输出是黑盒——无法向利益相关方解释。可解释性人工智能（XAI）致力于通过让利益相关方理解这些模型的工作方式来解决这一问题，确保他们理解这些模型实际上是如何做出决策的，并确保人工智能系统中的透明度、信任度和问责制来解决这个问题。本文探讨了各种可解释性人工智能（XAI）技术，以阐明它们的基本原理。可解释性人工智能至关重要的几个原因信任度和透明度：为了让人工智能系统被广泛接受和信任，用户需要了解决策是如何做出的

你所不知道的机器学习五大学派 Jun 05, 2024 pm 08:51 PM

机器学习是人工智能的重要分支，它赋予计算机从数据中学习的能力，并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用，从图像识别和自然语言处理到推荐系统和欺诈检测，它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论，其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学（Symbolism），又称为符号主义，强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程，通过已有的

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动 May 30, 2024 pm 01:24 PM

MetaFAIR联合哈佛优化大规模机器学习时产生的数据偏差，提供了新的研究框架。据所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个GPU。以LLaMA270B模型为例，其训练总共需要1,720,320个GPU小时。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。最近，许多机构在训练SOTA生成式AI模型时报告了训练过程中的不稳定情况，它们通常以损失尖峰的形式出现，比如谷歌的PaLM模型训练过程中出现了多达20次的损失尖峰。数值偏差是造成这种训练不准确性的根因，

See all articles

​用 PySpark ML 构建机器学习模型

Conda 创建 python 虚拟环境

1.安装Anaconda。

2.conda常用的命令

3.Python创建虚拟环境

4.激活或者切换虚拟环境

5.对虚拟环境中安装额外的包

6.关闭虚拟环境

7.删除虚拟环境

8.删除环境钟的某个包

9.设置国内镜像

10.恢复默认镜像

安装 PySpark

探索数据

描述性统计

自变量之间的相关性

数据准备和特征工程

缺失数据处理

不必要的列丢弃

特征转换为向量

训练和测试拆分

机器学习模型构建

随机森林分类器

评估随机森林分类器模型

决策树分类器

评估决策树模型

逻辑回归模型

梯度提升树分类器模型

结论

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题

用 PySpark ML 构建机器学习模型