Exécutez PySpark Local Python Windows Notebook
Guide de démarrage de PySpark : facile à configurer et à utiliser dans votre environnement local
PySpark est l'API Python d'Apache Spark, un système informatique distribué open source qui permet un traitement de données rapide et évolutif. PySpark permet aux développeurs Python d'exploiter la puissance de Spark pour les tâches d'analyse du Big Data, d'apprentissage automatique et d'ingénierie des données sans avoir à se plonger dans les complexités de Java ou Scala.
Grâce à PySpark, les utilisateurs peuvent traiter de grands ensembles de données, effectuer des transformations de données distribuées et exécuter des algorithmes d'apprentissage automatique dans un cluster. Il s'intègre parfaitement aux frameworks de traitement de données populaires tels que Hadoop et prend en charge plusieurs formats de données, ce qui en fait un outil polyvalent dans le domaine de la science et de l'analyse des données.
Ce guide fournit un aperçu de la configuration de PySpark pour vous aider à le configurer et à l'utiliser facilement dans votre environnement informatique local.
Installation
- Installer Python : https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
- Installer Java : veuillez d'abord télécharger la dernière version de Java : https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (Cet article utilise Java 23)
- Installer PySpark :
Tout d'abord, vous devez télécharger Apache Spark depuis :
Cet article utilise https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e comme exemple de tutoriel.
Configuration Python
- Configuration Java :
import os os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1" os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]
- Configuration de PySpark :
import os os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3" os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]
Une fois la configuration terminée, vous pouvez essayer de vérifier PySpark dans la ligne de commande :
Exemple de bloc-notes PySpark
import numpy as np import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("调试示例") \ .master("local[*]") \ .config("spark.eventLog.enabled", "true") \ .config("spark.sql.shuffle.partitions", "1") \ .getOrCreate() spark.sparkContext.setLogLevel("DEBUG") # 启用基于Arrow的列式数据传输 spark.conf.set("spark.sql.execution.arrow.enabled", "true") # 生成pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3)) # 使用Arrow从pandas DataFrame创建Spark DataFrame df = spark.createDataFrame(pdf) # 重命名列 df = df.toDF("a", "b", "c") df.show(5) # 使用df.show(5)查看PySpark测试输出
Exemple de données d'apprentissage automatique :
import requests from pyspark.sql import SparkSession # 数据集URL url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" # 下载数据集并保存到本地 response = requests.get(url) with open("iris.data", "wb") as file: file.write(response.content) # 创建SparkSession spark = SparkSession.builder \ .appName("鸢尾花数据分析") \ .master("local[*]") \ .getOrCreate() # 本地下载的鸢尾花数据集路径 iris_data_path = "iris.data" # 定义数据的模式 columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"] # 将数据加载到DataFrame中 df = spark.read.csv(iris_data_path, header=False, inferSchema=True) # 设置列名 df = df.toDF(*columns) # 显示DataFrame的前几行 df.show() # 完成后停止SparkSession spark.stop()
Exécutez avec succès !
Référence
- https://www.php.cn/link/06c765902df5e6af92864147e1995fa3
- https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
- https://www.php.cn/link/6dc4a31db60d3da6b1d477315619952e
- https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210
- https://www.php.cn/link/73eb26ad4e0c9d3f4a7bdede7856b79a
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Comment utiliser Python pour trouver la distribution ZIPF d'un fichier texte

Comment télécharger des fichiers dans Python

Comment utiliser la belle soupe pour analyser HTML?

Comment travailler avec des documents PDF à l'aide de Python

Comment se cacher en utilisant Redis dans les applications Django

Présentation de la boîte à outils en langage naturel (NLTK)

Comment effectuer l'apprentissage en profondeur avec TensorFlow ou Pytorch?
