Exécutez PySpark Local Python Windows Notebook-Tutoriel Python-php.cn

Table des matières

Installation

Configuration Python

Exemple de bloc-notes PySpark

Référence

Maison

développement back-end

Tutoriel Python

Exécutez PySpark Local Python Windows Notebook

Patricia Arquette

Jan 21, 2025 pm 06:15 PM

Guide de démarrage de PySpark : facile à configurer et à utiliser dans votre environnement local

PySpark est l'API Python d'Apache Spark, un système informatique distribué open source qui permet un traitement de données rapide et évolutif. PySpark permet aux développeurs Python d'exploiter la puissance de Spark pour les tâches d'analyse du Big Data, d'apprentissage automatique et d'ingénierie des données sans avoir à se plonger dans les complexités de Java ou Scala.

Grâce à PySpark, les utilisateurs peuvent traiter de grands ensembles de données, effectuer des transformations de données distribuées et exécuter des algorithmes d'apprentissage automatique dans un cluster. Il s'intègre parfaitement aux frameworks de traitement de données populaires tels que Hadoop et prend en charge plusieurs formats de données, ce qui en fait un outil polyvalent dans le domaine de la science et de l'analyse des données.

Ce guide fournit un aperçu de la configuration de PySpark pour vous aider à le configurer et à l'utiliser facilement dans votre environnement informatique local.

Installation

Installer Python : https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
Installer Java : veuillez d'abord télécharger la dernière version de Java : https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (Cet article utilise Java 23)
Installer PySpark :

Tout d'abord, vous devez télécharger Apache Spark depuis :

Cet article utilise https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e comme exemple de tutoriel.

Configuration Python

Configuration Java :

import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]

Copier après la connexion

Configuration de PySpark :

import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]

Copier après la connexion

Une fois la configuration terminée, vous pouvez essayer de vérifier PySpark dans la ligne de commande :

Exemple de bloc-notes PySpark

import numpy as np
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("调试示例") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# 启用基于Arrow的列式数据传输
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# 生成pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# 使用Arrow从pandas DataFrame创建Spark DataFrame
df = spark.createDataFrame(pdf)
# 重命名列
df = df.toDF("a", "b", "c")
df.show(5) # 使用df.show(5)查看PySpark测试输出

Copier après la connexion

Run PySpark Local Python Windows Notebook

Exemple de données d'apprentissage automatique :

import requests
from pyspark.sql import SparkSession

# 数据集URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# 下载数据集并保存到本地
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)

# 创建SparkSession
spark = SparkSession.builder \
    .appName("鸢尾花数据分析") \
    .master("local[*]") \
    .getOrCreate()

# 本地下载的鸢尾花数据集路径
iris_data_path = "iris.data"

# 定义数据的模式
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# 将数据加载到DataFrame中
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# 设置列名
df = df.toDF(*columns)

# 显示DataFrame的前几行
df.show()

# 完成后停止SparkSession
spark.stop()

Copier après la connexion

Run PySpark Local Python Windows Notebook

Exécutez avec succès !

Référence

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn