Panduan Bermula PySpark: Mudah dikonfigurasikan dan digunakan dalam persekitaran setempat anda
PySpark ialah API Python Apache Spark, sistem pengkomputeran teragih sumber terbuka yang membolehkan pemprosesan data yang pantas dan berskala. PySpark membenarkan pembangun Python memanfaatkan kuasa Spark untuk analisis data besar, pembelajaran mesin dan tugasan kejuruteraan data tanpa perlu menyelidiki kerumitan Java atau Scala.
Menggunakan PySpark, pengguna boleh memproses set data yang besar, melakukan transformasi data yang diedarkan dan menjalankan algoritma pembelajaran mesin dalam kelompok. Ia disepadukan dengan lancar dengan rangka kerja pemprosesan data popular seperti Hadoop dan menyokong berbilang format data, menjadikannya alat serba boleh dalam bidang sains data dan analitik.
Panduan ini menyediakan gambaran keseluruhan konfigurasi PySpark untuk membantu anda menyediakan dan menggunakannya dengan mudah dalam persekitaran komputer tempatan anda.
Pertama, anda perlu memuat turun Apache Spark daripada:
Artikel ini menggunakan https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e sebagai contoh tutorial.
<code class="language-python">import os os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1" os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]</code>
<code class="language-python">import os os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3" os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]</code>
Selepas konfigurasi selesai, anda boleh cuba menyemak PySpark dalam baris arahan:
<code class="language-python">import numpy as np import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("调试示例") \ .master("local[*]") \ .config("spark.eventLog.enabled", "true") \ .config("spark.sql.shuffle.partitions", "1") \ .getOrCreate() spark.sparkContext.setLogLevel("DEBUG") # 启用基于Arrow的列式数据传输 spark.conf.set("spark.sql.execution.arrow.enabled", "true") # 生成pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3)) # 使用Arrow从pandas DataFrame创建Spark DataFrame df = spark.createDataFrame(pdf) # 重命名列 df = df.toDF("a", "b", "c") df.show(5) # 使用df.show(5)查看PySpark测试输出</code>
Contoh data pembelajaran mesin:
<code class="language-python">import requests from pyspark.sql import SparkSession # 数据集URL url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" # 下载数据集并保存到本地 response = requests.get(url) with open("iris.data", "wb") as file: file.write(response.content) # 创建SparkSession spark = SparkSession.builder \ .appName("鸢尾花数据分析") \ .master("local[*]") \ .getOrCreate() # 本地下载的鸢尾花数据集路径 iris_data_path = "iris.data" # 定义数据的模式 columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"] # 将数据加载到DataFrame中 df = spark.read.csv(iris_data_path, header=False, inferSchema=True) # 设置列名 df = df.toDF(*columns) # 显示DataFrame的前几行 df.show() # 完成后停止SparkSession spark.stop()</code>
Lari dengan jayanya!
Atas ialah kandungan terperinci Jalankan PySpark Local Python Windows Notebook. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!