Rumah > pembangunan bahagian belakang > Tutorial Python > Cara Memasang PySpark pada Mesin Setempat Anda

Cara Memasang PySpark pada Mesin Setempat Anda

Mary-Kate Olsen
Lepaskan: 2024-12-27 05:06:09
asal
552 orang telah melayarinya

Jika anda melangkah ke dunia Data Besar, anda mungkin pernah mendengar tentang Apache Spark, sistem pengkomputeran teragih yang berkuasa. PySpark, perpustakaan Python untuk Apache Spark, adalah kegemaran di kalangan peminat data untuk gabungan kelajuan, kebolehskalaan dan kemudahan penggunaannya. Tetapi menetapkannya pada mesin tempatan anda boleh berasa agak menakutkan pada mulanya.

Jangan takut — artikel ini membimbing anda melalui keseluruhan proses, menangani soalan lazim dan menjadikan perjalanan itu semudah mungkin.

Apakah PySpark, dan Mengapa Anda Perlu Peduli?

Sebelum memasuki pemasangan, mari kita fahami apa itu PySpark. PySpark membolehkan anda memanfaatkan kuasa pengiraan besar Apache Spark menggunakan Python. Sama ada anda sedang menganalisis terabait data, membina model pembelajaran mesin atau menjalankan saluran paip ETL (Ekstrak, Transform, Muat), PySpark membolehkan anda bekerja dengan data dengan lebih cekap berbanding sebelum ini.

Sekarang anda memahami PySpark, mari kita lalui proses pemasangan.

Langkah 1: Pastikan Sistem Anda Memenuhi Keperluan

PySpark berjalan pada pelbagai mesin, termasuk Windows, macOS dan Linux. Inilah yang anda perlukan untuk memasangnya dengan jayanya:

  • Java Development Kit (JDK): PySpark memerlukan Java (versi 8 atau 11 disyorkan).
  • Python: Pastikan anda mempunyai Python 3.6 atau lebih baru.
  • Perduaan Spark Apache: Anda akan memuat turun ini semasa proses pemasangan.

Untuk menyemak kesediaan sistem anda:

  1. Buka terminal atau gesaan arahan anda.
  2. Taip java -version dan python —version untuk mengesahkan pemasangan Java dan Python.

Jika anda tidak memasang Java atau Python, ikut langkah berikut:

  • Untuk Java: Muat turun dari tapak web rasmi Oracle.
  • Untuk Python: Lawati halaman muat turun Python.

Langkah 2: Pasang Java

Java ialah tulang belakang Apache Spark. Untuk memasangnya:

1.Muat turun Java: Lawati halaman muat turun Java SE Development Kit. Pilih versi yang sesuai untuk sistem pengendalian anda.

2.Pasang Java: Jalankan pemasang dan ikut gesaan. Pada Windows, anda perlu menetapkan pembolehubah persekitaran JAVA_HOME. Untuk melakukan ini:

  • Salin pembolehubah laluan, pergi ke cakera setempat pada mesin anda, pilih fail program, cari folder java bukanya anda akan lihat jdk-17 (versi anda sendiri mungkin tidak 17). Bukanya, dan anda akan dapat melihat laluan anda dan menyalin seperti di bawah

How to Install PySpark on Your Local Machine

  • Cari Pembolehubah Persekitaran dalam bar carian Windows.

  • Di bawah Pembolehubah Sistem, klik Baharu dan tetapkan nama pembolehubah sebagai JAVA_HOME dan nilai sebagai laluan pemasangan Java anda yang anda salin di atas (cth., C:Program FilesJavajdk-17).

3.Sahkan Pemasangan: Buka terminal atau command prompt dan taip java-version.

Langkah 3: Pasang Apache Spark

1.Muat turun Spark: Lawati tapak web Apache Spark dan pilih versi yang serasi dengan keperluan anda. Gunakan pakej pra-bina untuk Hadoop (gandingan biasa dengan Spark).

2.Ekstrak Fail:

  • Pada Windows, gunakan alat seperti WinRAR atau 7-Zip untuk mengekstrak fail.
  • Pada macOS/Linux, gunakan arahan tar -xvf spark-.tgz

3.Tetapkan Pembolehubah Persekitaran:

  • Untuk Windows: Tambahkan direktori tong Spark pada pembolehubah PATH sistem anda.
  • Untuk macOS/Linux: Tambahkan baris berikut pada fail .bashrc atau .zshrc anda :
export SPARK_HOME=/path/to/spark
export PATH=$SPARK_HOME/bin:$PATH
Salin selepas log masuk
Salin selepas log masuk

4.Sahkan Pemasangan: Buka terminal dan taip spark-shell. Anda sepatutnya melihat cangkerang interaktif Spark bermula.

Langkah 4: Pasang Hadoop (Pilihan tetapi Disyorkan)

Walaupun Spark tidak memerlukan Hadoop, ramai pengguna memasangnya untuk sokongan HDFS (Sistem Fail Teragih Hadoop). Untuk memasang Hadoop:

  1. Muat turun binari Hadoop daripada tapak web Apache Hadoop.
  2. Ekstrak fail dan sediakan pembolehubah persekitaran HADOOP_HOME.

Langkah 5: Pasang PySpark melalui pip

Memasang PySpark adalah mudah dengan alat pip Python. Jalankan sahaja:

pip install pyspark
Salin selepas log masuk

Untuk mengesahkan, buka cangkerang Python dan taip:

pip install pysparkark.__version__)
Salin selepas log masuk

Jika anda melihat nombor versi, tahniah! PySpark dipasang ?

Langkah 6: Uji Pemasangan PySpark Anda

Di sinilah keseronokan bermula. Mari pastikan semuanya berjalan lancar:

Buat Skrip Mudah:
Buka editor teks dan tampal kod berikut:

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("PySparkTest").getOrCreate()
data = [("Alice", 25), ("Bob", 30), ("Cathy", 29)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)
df.show()
Salin selepas log masuk

Simpan sebagai test_pyspark.py

Jalankan Skrip:
Dalam terminal anda, navigasi ke direktori skrip dan taip:

export SPARK_HOME=/path/to/spark
export PATH=$SPARK_HOME/bin:$PATH
Salin selepas log masuk
Salin selepas log masuk

Anda seharusnya melihat jadual yang diformat dengan kemas memaparkan nama dan umur.

Menyelesaikan Masalah Isu Biasa

Walaupun dengan arahan terbaik, gangguan berlaku. Berikut ialah beberapa masalah dan penyelesaian biasa:

  • Isu: java.lang.NoClassDefFoundError
    Penyelesaian: Semak semula pembolehubah JAVA_HOME dan PATH anda.

  • Isu: Pemasangan PySpark berjaya, tetapi skrip ujian gagal.
    Penyelesaian: Pastikan anda menggunakan versi Python yang betul. Kadangkala, persekitaran maya boleh menyebabkan konflik.

  • Isu: Perintah spark-shell tidak berfungsi.
    Penyelesaian: Sahkan bahawa direktori Spark telah ditambahkan dengan betul pada PATH anda.

Mengapa Menggunakan PySpark Secara Tempatan?

Ramai pengguna tertanya-tanya mengapa mereka perlu bersusah payah memasang PySpark pada mesin tempatan mereka apabila ia digunakan terutamanya dalam sistem teragih. Inilah sebabnya:

  • Pembelajaran: Eksperimen dan pelajari konsep Spark tanpa memerlukan gugusan.
  • Prototaip: Uji kerja data kecil secara setempat sebelum mengaturnya ke persekitaran yang lebih besar.
  • Kemudahan: Isu nyahpepijat dan bangunkan aplikasi dengan mudah.

Tingkatkan Produktiviti PySpark Anda

Untuk memanfaatkan PySpark sepenuhnya, pertimbangkan petua ini:

  • Sediakan Persekitaran Maya: Gunakan alatan seperti venv atau conda untuk mengasingkan pemasangan PySpark anda.

  • Bersepadu dengan IDE: Alat seperti PyCharm dan Jupyter Notebook menjadikan pembangunan PySpark lebih interaktif.

  • Manfaatkan Dokumentasi PySpark: Lawati dokumentasi Apache Spark untuk mendapatkan panduan yang mendalam.

Terlibat dengan Komuniti PySpark

Terjebak adalah perkara biasa, terutamanya dengan alat berkuasa seperti PySpark. Terlibat dengan komuniti PySpark yang bertenaga untuk mendapatkan bantuan:

  • Sertai Forum: Tapak web seperti Stack Overflow mempunyai teg Spark khusus.

  • Hadiri Pertemuan: Komuniti Spark dan Python sering menganjurkan acara di mana anda boleh belajar dan rangkaian.

  • Ikuti Blog: Ramai profesional data berkongsi pengalaman dan tutorial mereka dalam talian.

Kesimpulan

Memasang PySpark pada mesin tempatan anda mungkin kelihatan menakutkan pada mulanya, tetapi mengikut langkah ini menjadikannya boleh diurus dan bermanfaat. Sama ada anda baru memulakan perjalanan data anda atau mengasah kemahiran anda, PySpark melengkapkan anda dengan alatan untuk menangani masalah data dunia sebenar.

PySpark, API Python untuk Apache Spark, ialah pengubah permainan untuk analisis dan pemprosesan data. Walaupun potensinya sangat besar, menetapkannya pada mesin tempatan anda boleh berasa mencabar. Artikel ini memecahkan proses langkah demi langkah, meliputi segala-galanya daripada memasang Java dan memuat turun Spark untuk menguji persediaan anda dengan skrip mudah.

Dengan PySpark dipasang secara setempat, anda boleh prototaip aliran kerja data, mempelajari ciri Spark dan menguji projek berskala kecil tanpa memerlukan gugusan penuh.

Atas ialah kandungan terperinci Cara Memasang PySpark pada Mesin Setempat Anda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:dev.to
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan