Jalankan PySpark Local Python Windows Notebook
Jan 21, 2025 pm 06:15 PMPanduan Bermula PySpark: Mudah dikonfigurasikan dan digunakan dalam persekitaran setempat anda
PySpark ialah API Python Apache Spark, sistem pengkomputeran teragih sumber terbuka yang membolehkan pemprosesan data yang pantas dan berskala. PySpark membenarkan pembangun Python memanfaatkan kuasa Spark untuk analisis data besar, pembelajaran mesin dan tugasan kejuruteraan data tanpa perlu menyelidiki kerumitan Java atau Scala.
Menggunakan PySpark, pengguna boleh memproses set data yang besar, melakukan transformasi data yang diedarkan dan menjalankan algoritma pembelajaran mesin dalam kelompok. Ia disepadukan dengan lancar dengan rangka kerja pemprosesan data popular seperti Hadoop dan menyokong berbilang format data, menjadikannya alat serba boleh dalam bidang sains data dan analitik.
Panduan ini menyediakan gambaran keseluruhan konfigurasi PySpark untuk membantu anda menyediakan dan menggunakannya dengan mudah dalam persekitaran komputer tempatan anda.
Pemasangan
- Pasang Python: https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
- Pasang Java: Sila muat turun versi Java terbaharu dahulu: https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210 (Artikel ini menggunakan Java 23)
- Pasang PySpark:
Pertama, anda perlu memuat turun Apache Spark daripada:
Artikel ini menggunakan https://www.php.cn/link/8f7b2d9100577f77aa8fbb4f51c0366e sebagai contoh tutorial.
Konfigurasi Python
- Konfigurasi Java:
import os os.environ["JAVA_HOME"] = fr"D:\Soft\JAVA\jdk-23.0.1" os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]
- Konfigurasi PySpark:
import os os.environ["SPARK_HOME"] = fr"D:\Soft\pyspark\spark-3.5.4-bin-hadoop3" os.environ["PATH"] = os.environ["SPARK_HOME"] + "/bin;" + os.environ["PATH"]
Selepas konfigurasi selesai, anda boleh cuba menyemak PySpark dalam baris arahan:
Contoh Buku Nota PySpark
import numpy as np import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("调试示例") \ .master("local[*]") \ .config("spark.eventLog.enabled", "true") \ .config("spark.sql.shuffle.partitions", "1") \ .getOrCreate() spark.sparkContext.setLogLevel("DEBUG") # 启用基于Arrow的列式数据传输 spark.conf.set("spark.sql.execution.arrow.enabled", "true") # 生成pandas DataFrame pdf = pd.DataFrame(np.random.rand(100, 3)) # 使用Arrow从pandas DataFrame创建Spark DataFrame df = spark.createDataFrame(pdf) # 重命名列 df = df.toDF("a", "b", "c") df.show(5) # 使用df.show(5)查看PySpark测试输出
Contoh data pembelajaran mesin:
import requests from pyspark.sql import SparkSession # 数据集URL url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" # 下载数据集并保存到本地 response = requests.get(url) with open("iris.data", "wb") as file: file.write(response.content) # 创建SparkSession spark = SparkSession.builder \ .appName("鸢尾花数据分析") \ .master("local[*]") \ .getOrCreate() # 本地下载的鸢尾花数据集路径 iris_data_path = "iris.data" # 定义数据的模式 columns = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"] # 将数据加载到DataFrame中 df = spark.read.csv(iris_data_path, header=False, inferSchema=True) # 设置列名 df = df.toDF(*columns) # 显示DataFrame的前几行 df.show() # 完成后停止SparkSession spark.stop()
Lari dengan jayanya!
Rujukan
- https://www.php.cn/link/06c765902df5e6af92864147e1995fa3
- https://www.php.cn/link/70fa3e3aed5e5da45f0114c00fadfb41
- https://www.php.cn/link/6dc4a31db60d3da6b1d477315619952e
- https://www.php.cn/link/8513351ff7f10b0f156c9d1f669e1210
- https://www.php.cn/link/73eb26ad4e0c9d3f4a7bdede7856b79a
Atas ialah kandungan terperinci Jalankan PySpark Local Python Windows Notebook. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Artikel Panas

Alat panas Tag

Artikel Panas

Tag artikel panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?

Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks

Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Cara Cache Menggunakan Redis dalam Aplikasi Django

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch?

Cara Melaksanakan Struktur Data Anda Sendiri di Python

Pengenalan kepada pengaturcaraan selari dan serentak di Python
