Guide de démarrage de PySpark : facile à configurer et à utiliser dans votre environnement local
PySpark est l'API Python d'Apache Spark, un système informatique distribué open source qui permet un traitement de données rapide et évolutif. PySpark permet aux développeurs Python d'exploiter la puissance de Spark pour les tâches d'analyse du Big Data, d'apprentissage automatique et d'ingénierie des données sans avoir à se plonger dans les complexités de Java ou Scala.
Grâce à PySpark, les utilisateurs peuvent traiter de grands ensembles de données, effectuer des transformations de données distribuées et exécuter des algorithmes d'apprentissage automatique dans un cluster. Il s'intègre parfaitement aux frameworks de traitement de données populaires tels que Hadoop et prend en charge plusieurs formats de données, ce qui en fait un outil polyvalent dans le domaine de la science et de l'analyse des données.
Ce guide fournit un aperçu de la configuration de PySpark pour vous aider à le configurer et à l'utiliser facilement dans votre environnement informatique local.
Tout d'abord, vous devez télécharger Apache Spark depuis :
Cet article utilise https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e comme exemple de tutoriel.
<code class="language-python">import os os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1" os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]</code>
<code class="language-python">import os os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3" os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]</code>
Une fois la configuration terminée, vous pouvez essayer de vérifier PySpark dans la ligne de commande :
<code class="language-python">import numpy as np import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("调试示例") \ .master("local[*]") \ .config("spark.eventLog.enabled", "true") \ .config("spark.sql.shuffle.partitions", "1") \ .getOrCreate() spark.sparkContext.setLogLevel("DEBUG") # 启用基于Arrow的列式数据传输 spark.conf.set("spark.sql.execution.arrow.enabled", "true") # 生成pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3)) # 使用Arrow从pandas DataFrame创建Spark DataFrame df = spark.createDataFrame(pdf) # 重命名列 df = df.toDF("a", "b", "c") df.show(5) # 使用df.show(5)查看PySpark测试输出</code>
Exemple de données d'apprentissage automatique :
<code class="language-python">import requests from pyspark.sql import SparkSession # 数据集URL url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" # 下载数据集并保存到本地 response = requests.get(url) with open("iris.data", "wb") as file: file.write(response.content) # 创建SparkSession spark = SparkSession.builder \ .appName("鸢尾花数据分析") \ .master("local[*]") \ .getOrCreate() # 本地下载的鸢尾花数据集路径 iris_data_path = "iris.data" # 定义数据的模式 columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"] # 将数据加载到DataFrame中 df = spark.read.csv(iris_data_path, header=False, inferSchema=True) # 设置列名 df = df.toDF(*columns) # 显示DataFrame的前几行 df.show() # 完成后停止SparkSession spark.stop()</code>
Exécutez avec succès !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!