Jalankan PySpark Local Python Windows Notebook-Tutorial Python-php.cn

Jadual Kandungan

Pemasangan

Konfigurasi Python

Contoh Buku Nota PySpark

Rujukan

Rumah

pembangunan bahagian belakang

Tutorial Python

Jalankan PySpark Local Python Windows Notebook

Jan 21, 2025 pm 06:15 PM

Panduan Bermula PySpark: Mudah dikonfigurasikan dan digunakan dalam persekitaran setempat anda

PySpark ialah API Python Apache Spark, sistem pengkomputeran teragih sumber terbuka yang membolehkan pemprosesan data yang pantas dan berskala. PySpark membenarkan pembangun Python memanfaatkan kuasa Spark untuk analisis data besar, pembelajaran mesin dan tugasan kejuruteraan data tanpa perlu menyelidiki kerumitan Java atau Scala.

Menggunakan PySpark, pengguna boleh memproses set data yang besar, melakukan transformasi data yang diedarkan dan menjalankan algoritma pembelajaran mesin dalam kelompok. Ia disepadukan dengan lancar dengan rangka kerja pemprosesan data popular seperti Hadoop dan menyokong berbilang format data, menjadikannya alat serba boleh dalam bidang sains data dan analitik.

Panduan ini menyediakan gambaran keseluruhan konfigurasi PySpark untuk membantu anda menyediakan dan menggunakannya dengan mudah dalam persekitaran komputer tempatan anda.

Pemasangan

Pasang Python: https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
Pasang Java: Sila muat turun versi Java terbaharu dahulu: https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (Artikel ini menggunakan Java 23)
Pasang PySpark:

Pertama, anda perlu memuat turun Apache Spark daripada:

Artikel ini menggunakan https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e sebagai contoh tutorial.

Konfigurasi Python

Konfigurasi Java:

import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]

Salin selepas log masuk

Konfigurasi PySpark:

import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]

Salin selepas log masuk

Selepas konfigurasi selesai, anda boleh cuba menyemak PySpark dalam baris arahan:

Contoh Buku Nota PySpark

import numpy as np
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("调试示例") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# 启用基于Arrow的列式数据传输
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# 生成pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# 使用Arrow从pandas DataFrame创建Spark DataFrame
df = spark.createDataFrame(pdf)
# 重命名列
df = df.toDF("a", "b", "c")
df.show(5) # 使用df.show(5)查看PySpark测试输出

Salin selepas log masuk

Run PySpark Local Python Windows Notebook

Contoh data pembelajaran mesin:

import requests
from pyspark.sql import SparkSession

# 数据集URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# 下载数据集并保存到本地
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)

# 创建SparkSession
spark = SparkSession.builder \
    .appName("鸢尾花数据分析") \
    .master("local[*]") \
    .getOrCreate()

# 本地下载的鸢尾花数据集路径
iris_data_path = "iris.data"

# 定义数据的模式
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# 将数据加载到DataFrame中
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# 设置列名
df = df.toDF(*columns)

# 显示DataFrame的前几行
df.show()

# 完成后停止SparkSession
spark.stop()

Salin selepas log masuk

Run PySpark Local Python Windows Notebook

Lari dengan jayanya!

Rujukan

Atas ialah kandungan terperinci Jalankan PySpark Local Python Windows Notebook. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn