Maison > développement back-end > Tutoriel Python > Exécutez PySpark Local Python Windows Notebook

Exécutez PySpark Local Python Windows Notebook

Patricia Arquette
Libérer: 2025-01-21 18:15:08
original
293 Les gens l'ont consulté

Guide de démarrage de PySpark : facile à configurer et à utiliser dans votre environnement local

PySpark est l'API Python d'Apache Spark, un système informatique distribué open source qui permet un traitement de données rapide et évolutif. PySpark permet aux développeurs Python d'exploiter la puissance de Spark pour les tâches d'analyse du Big Data, d'apprentissage automatique et d'ingénierie des données sans avoir à se plonger dans les complexités de Java ou Scala.

Grâce à PySpark, les utilisateurs peuvent traiter de grands ensembles de données, effectuer des transformations de données distribuées et exécuter des algorithmes d'apprentissage automatique dans un cluster. Il s'intègre parfaitement aux frameworks de traitement de données populaires tels que Hadoop et prend en charge plusieurs formats de données, ce qui en fait un outil polyvalent dans le domaine de la science et de l'analyse des données.

Ce guide fournit un aperçu de la configuration de PySpark pour vous aider à le configurer et à l'utiliser facilement dans votre environnement informatique local.

Installation

  1. Installer Python : https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
  2. Installer Java : veuillez d'abord télécharger la dernière version de Java : https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (Cet article utilise Java 23)
  3. Installer PySpark :

Tout d'abord, vous devez télécharger Apache Spark depuis :

Cet article utilise https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e comme exemple de tutoriel.

Configuration Python

  1. Configuration Java :
<code class="language-python">import os
os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]</code>
Copier après la connexion
  1. Configuration de PySpark :
<code class="language-python">import os
os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3"
os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]</code>
Copier après la connexion

Une fois la configuration terminée, vous pouvez essayer de vérifier PySpark dans la ligne de commande :

Exemple de bloc-notes PySpark

<code class="language-python">import numpy as np
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("调试示例") \
    .master("local[*]") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "1") \
    .getOrCreate()

spark.sparkContext.setLogLevel("DEBUG")
# 启用基于Arrow的列式数据传输
spark.conf.set("spark.sql.execution.arrow.enabled", "true")

# 生成pandas DataFrame
pdf = pd.DataFrame(np.random.rand(100, 3))

# 使用Arrow从pandas DataFrame创建Spark DataFrame
df = spark.createDataFrame(pdf)
# 重命名列
df = df.toDF("a", "b", "c")
df.show(5) # 使用df.show(5)查看PySpark测试输出</code>
Copier après la connexion

Run PySpark Local Python Windows Notebook

Exemple de données d'apprentissage automatique :

<code class="language-python">import requests
from pyspark.sql import SparkSession

# 数据集URL
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# 下载数据集并保存到本地
response = requests.get(url)
with open("iris.data", "wb") as file:
    file.write(response.content)

# 创建SparkSession
spark = SparkSession.builder \
    .appName("鸢尾花数据分析") \
    .master("local[*]") \
    .getOrCreate()

# 本地下载的鸢尾花数据集路径
iris_data_path = "iris.data"

# 定义数据的模式
columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"]

# 将数据加载到DataFrame中
df = spark.read.csv(iris_data_path, header=False, inferSchema=True)

# 设置列名
df = df.toDF(*columns)

# 显示DataFrame的前几行
df.show()

# 完成后停止SparkSession
spark.stop()</code>
Copier après la connexion

Run PySpark Local Python Windows Notebook

Exécutez avec succès !

Référence

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal