PySpark-Erste Schritte: Einfache Konfiguration und Verwendung in Ihrer lokalen Umgebung
PySpark ist die Python-API von Apache Spark, einem verteilten Open-Source-Computersystem, das eine schnelle und skalierbare Datenverarbeitung ermöglicht. Mit PySpark können Python-Entwickler die Leistungsfähigkeit von Spark für Big-Data-Analysen, maschinelles Lernen und Data-Engineering-Aufgaben nutzen, ohne sich mit der Komplexität von Java oder Scala befassen zu müssen.
Mit PySpark können Benutzer große Datensätze verarbeiten, verteilte Datentransformationen durchführen und Algorithmen für maschinelles Lernen in einem Cluster ausführen. Es lässt sich nahtlos in gängige Datenverarbeitungs-Frameworks wie Hadoop integrieren und unterstützt mehrere Datenformate, was es zu einem vielseitigen Werkzeug im Bereich Datenwissenschaft und -analyse macht.
Diese Anleitung bietet einen Überblick über die PySpark-Konfiguration, um Ihnen bei der einfachen Einrichtung und Verwendung in Ihrer lokalen Computerumgebung zu helfen.
Zuerst müssen Sie Apache Spark herunterladen von:
Dieser Artikel verwendet https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e als Tutorial-Beispiel.
<code class="language-python">import os os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1" os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]</code>
<code class="language-python">import os os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3" os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]</code>
Nachdem die Konfiguration abgeschlossen ist, können Sie versuchen, PySpark in der Befehlszeile zu überprüfen:
<code class="language-python">import numpy as np import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("调试示例") \ .master("local[*]") \ .config("spark.eventLog.enabled", "true") \ .config("spark.sql.shuffle.partitions", "1") \ .getOrCreate() spark.sparkContext.setLogLevel("DEBUG") # 启用基于Arrow的列式数据传输 spark.conf.set("spark.sql.execution.arrow.enabled", "true") # 生成pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3)) # 使用Arrow从pandas DataFrame创建Spark DataFrame df = spark.createDataFrame(pdf) # 重命名列 df = df.toDF("a", "b", "c") df.show(5) # 使用df.show(5)查看PySpark测试输出</code>
Beispiel für maschinelle Lerndaten:
<code class="language-python">import requests from pyspark.sql import SparkSession # 数据集URL url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" # 下载数据集并保存到本地 response = requests.get(url) with open("iris.data", "wb") as file: file.write(response.content) # 创建SparkSession spark = SparkSession.builder \ .appName("鸢尾花数据分析") \ .master("local[*]") \ .getOrCreate() # 本地下载的鸢尾花数据集路径 iris_data_path = "iris.data" # 定义数据的模式 columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"] # 将数据加载到DataFrame中 df = spark.read.csv(iris_data_path, header=False, inferSchema=True) # 设置列名 df = df.toDF(*columns) # 显示DataFrame的前几行 df.show() # 完成后停止SparkSession spark.stop()</code>
Erfolgreich ausgeführt!
Das obige ist der detaillierte Inhalt vonFühren Sie PySpark Local Python Windows Notebook aus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!