Heim > Backend-Entwicklung > Python-Tutorial > Führen Sie PySpark Local Python Windows Notebook aus

Führen Sie PySpark Local Python Windows Notebook aus

Patricia Arquette
Freigeben: 2025-01-21 18:15:08
Original
294 Leute haben es durchsucht

PySpark-Erste Schritte: Einfache Konfiguration und Verwendung in Ihrer lokalen Umgebung

PySpark ist die Python-API von Apache Spark, einem verteilten Open-Source-Computersystem, das eine schnelle und skalierbare Datenverarbeitung ermöglicht. Mit PySpark können Python-Entwickler die Leistungsfähigkeit von Spark für Big-Data-Analysen, maschinelles Lernen und Data-Engineering-Aufgaben nutzen, ohne sich mit der Komplexität von Java oder Scala befassen zu müssen.

Mit PySpark können Benutzer große Datensätze verarbeiten, verteilte Datentransformationen durchführen und Algorithmen für maschinelles Lernen in einem Cluster ausführen. Es lässt sich nahtlos in gängige Datenverarbeitungs-Frameworks wie Hadoop integrieren und unterstützt mehrere Datenformate, was es zu einem vielseitigen Werkzeug im Bereich Datenwissenschaft und -analyse macht.

Diese Anleitung bietet einen Überblick über die PySpark-Konfiguration, um Ihnen bei der einfachen Einrichtung und Verwendung in Ihrer lokalen Computerumgebung zu helfen.

Installation

  1. Python installieren: https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
  2. Java installieren: Bitte laden Sie zuerst die neueste Version von Java herunter: https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (Dieser Artikel verwendet Java 23)
  3. PySpark installieren:

Zuerst müssen Sie Apache Spark herunterladen von:

Dieser Artikel verwendet https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e als Tutorial-Beispiel.

Python-Konfiguration

  1. Java-Konfiguration:
<code class="language-python">import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]</code>
Nach dem Login kopieren
  1. PySpark-Konfiguration:
<code class="language-python">import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]</code>
Nach dem Login kopieren

Nachdem die Konfiguration abgeschlossen ist, können Sie versuchen, PySpark in der Befehlszeile zu überprüfen:

Beispiel für ein PySpark-Notebook

<code class="language-python">import numpy as np
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("调试示例") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# 启用基于Arrow的列式数据传输
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# 生成pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# 使用Arrow从pandas DataFrame创建Spark DataFrame
df = spark.createDataFrame(pdf)
# 重命名列
df = df.toDF("a", "b", "c")
df.show(5) # 使用df.show(5)查看PySpark测试输出</code>
Nach dem Login kopieren

Run PySpark Local Python Windows Notebook

Beispiel für maschinelle Lerndaten:

<code class="language-python">import requests
from pyspark.sql import SparkSession

# 数据集URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# 下载数据集并保存到本地
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)

# 创建SparkSession
spark = SparkSession.builder \
    .appName("鸢尾花数据分析") \
    .master("local[*]") \
    .getOrCreate()

# 本地下载的鸢尾花数据集路径
iris_data_path = "iris.data"

# 定义数据的模式
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# 将数据加载到DataFrame中
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# 设置列名
df = df.toDF(*columns)

# 显示DataFrame的前几行
df.show()

# 完成后停止SparkSession
spark.stop()</code>
Nach dem Login kopieren

Run PySpark Local Python Windows Notebook

Erfolgreich ausgeführt!

Referenz

Das obige ist der detaillierte Inhalt vonFühren Sie PySpark Local Python Windows Notebook aus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage