PySpark入门指南:在本地环境轻松配置和使用
PySpark是Apache Spark的Python API,Apache Spark是一个开源的分布式计算系统,能够实现快速、可扩展的数据处理。PySpark允许Python开发者利用Spark强大的功能进行大数据分析、机器学习和数据工程任务,而无需深入了解Java或Scala的复杂性。
使用PySpark,用户可以在集群中处理大型数据集,执行分布式数据转换,并运行机器学习算法。它与Hadoop等流行的数据处理框架无缝集成,并支持多种数据格式,使其成为数据科学和分析领域的多功能工具。
本指南概述了PySpark的配置,帮助您轻松地在本地计算机环境中进行设置和使用。
首先,您需要从以下地址下载Apache Spark:
本文使用 https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e 作为教程示例。
<code class="language-python">import os os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1" os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]</code>
<code class="language-python">import os os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3" os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]</code>
配置完成后,您可以在命令行中尝试检查PySpark:
<code class="language-python">import numpy as np import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("调试示例") \ .master("local[*]") \ .config("spark.eventLog.enabled", "true") \ .config("spark.sql.shuffle.partitions", "1") \ .getOrCreate() spark.sparkContext.setLogLevel("DEBUG") # 启用基于Arrow的列式数据传输 spark.conf.set("spark.sql.execution.arrow.enabled", "true") # 生成pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3)) # 使用Arrow从pandas DataFrame创建Spark DataFrame df = spark.createDataFrame(pdf) # 重命名列 df = df.toDF("a", "b", "c") df.show(5) # 使用df.show(5)查看PySpark测试输出</code>
机器学习数据示例:
<code class="language-python">import requests from pyspark.sql import SparkSession # 数据集URL url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" # 下载数据集并保存到本地 response = requests.get(url) with open("iris.data", "wb") as file: file.write(response.content) # 创建SparkSession spark = SparkSession.builder \ .appName("鸢尾花数据分析") \ .master("local[*]") \ .getOrCreate() # 本地下载的鸢尾花数据集路径 iris_data_path = "iris.data" # 定义数据的模式 columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"] # 将数据加载到DataFrame中 df = spark.read.csv(iris_data_path, header=False, inferSchema=True) # 设置列名 df = df.toDF(*columns) # 显示DataFrame的前几行 df.show() # 完成后停止SparkSession spark.stop()</code>
运行成功!
以上是运行 PySpark 本地 Python Windows 笔记本的详细内容。更多信息请关注PHP中文网其他相关文章!