Jika anda melangkah ke dunia Data Besar, anda mungkin pernah mendengar tentang Apache Spark, sistem pengkomputeran teragih yang berkuasa. PySpark, perpustakaan Python untuk Apache Spark, adalah kegemaran di kalangan peminat data untuk gabungan kelajuan, kebolehskalaan dan kemudahan penggunaannya. Tetapi menetapkannya pada mesin tempatan anda boleh berasa agak menakutkan pada mulanya.
Jangan takut — artikel ini membimbing anda melalui keseluruhan proses, menangani soalan lazim dan menjadikan perjalanan itu semudah mungkin.
Sebelum memasuki pemasangan, mari kita fahami apa itu PySpark. PySpark membolehkan anda memanfaatkan kuasa pengiraan besar Apache Spark menggunakan Python. Sama ada anda sedang menganalisis terabait data, membina model pembelajaran mesin atau menjalankan saluran paip ETL (Ekstrak, Transform, Muat), PySpark membolehkan anda bekerja dengan data dengan lebih cekap berbanding sebelum ini.
Sekarang anda memahami PySpark, mari kita lalui proses pemasangan.
PySpark berjalan pada pelbagai mesin, termasuk Windows, macOS dan Linux. Inilah yang anda perlukan untuk memasangnya dengan jayanya:
Untuk menyemak kesediaan sistem anda:
Jika anda tidak memasang Java atau Python, ikut langkah berikut:
Java ialah tulang belakang Apache Spark. Untuk memasangnya:
1.Muat turun Java: Lawati halaman muat turun Java SE Development Kit. Pilih versi yang sesuai untuk sistem pengendalian anda.
2.Pasang Java: Jalankan pemasang dan ikut gesaan. Pada Windows, anda perlu menetapkan pembolehubah persekitaran JAVA_HOME. Untuk melakukan ini:
Cari Pembolehubah Persekitaran dalam bar carian Windows.
Di bawah Pembolehubah Sistem, klik Baharu dan tetapkan nama pembolehubah sebagai JAVA_HOME dan nilai sebagai laluan pemasangan Java anda yang anda salin di atas (cth., C:Program FilesJavajdk-17).
3.Sahkan Pemasangan: Buka terminal atau command prompt dan taip java-version.
1.Muat turun Spark: Lawati tapak web Apache Spark dan pilih versi yang serasi dengan keperluan anda. Gunakan pakej pra-bina untuk Hadoop (gandingan biasa dengan Spark).
2.Ekstrak Fail:
3.Tetapkan Pembolehubah Persekitaran:
export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH
4.Sahkan Pemasangan: Buka terminal dan taip spark-shell. Anda sepatutnya melihat cangkerang interaktif Spark bermula.
Walaupun Spark tidak memerlukan Hadoop, ramai pengguna memasangnya untuk sokongan HDFS (Sistem Fail Teragih Hadoop). Untuk memasang Hadoop:
Memasang PySpark adalah mudah dengan alat pip Python. Jalankan sahaja:
pip install pyspark
Untuk mengesahkan, buka cangkerang Python dan taip:
pip install pysparkark.__version__)
Jika anda melihat nombor versi, tahniah! PySpark dipasang ?
Di sinilah keseronokan bermula. Mari pastikan semuanya berjalan lancar:
Buat Skrip Mudah:
Buka editor teks dan tampal kod berikut:
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("PySparkTest").getOrCreate() data = [("Alice", 25), ("Bob", 30), ("Cathy", 29)] columns = ["Name", "Age"] df = spark.createDataFrame(data, columns) df.show()
Simpan sebagai test_pyspark.py
Jalankan Skrip:
Dalam terminal anda, navigasi ke direktori skrip dan taip:
export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH
Anda seharusnya melihat jadual yang diformat dengan kemas memaparkan nama dan umur.
Walaupun dengan arahan terbaik, gangguan berlaku. Berikut ialah beberapa masalah dan penyelesaian biasa:
Isu: java.lang.NoClassDefFoundError
Penyelesaian: Semak semula pembolehubah JAVA_HOME dan PATH anda.
Isu: Pemasangan PySpark berjaya, tetapi skrip ujian gagal.
Penyelesaian: Pastikan anda menggunakan versi Python yang betul. Kadangkala, persekitaran maya boleh menyebabkan konflik.
Isu: Perintah spark-shell tidak berfungsi.
Penyelesaian: Sahkan bahawa direktori Spark telah ditambahkan dengan betul pada PATH anda.
Ramai pengguna tertanya-tanya mengapa mereka perlu bersusah payah memasang PySpark pada mesin tempatan mereka apabila ia digunakan terutamanya dalam sistem teragih. Inilah sebabnya:
Untuk memanfaatkan PySpark sepenuhnya, pertimbangkan petua ini:
Sediakan Persekitaran Maya: Gunakan alatan seperti venv atau conda untuk mengasingkan pemasangan PySpark anda.
Bersepadu dengan IDE: Alat seperti PyCharm dan Jupyter Notebook menjadikan pembangunan PySpark lebih interaktif.
Manfaatkan Dokumentasi PySpark: Lawati dokumentasi Apache Spark untuk mendapatkan panduan yang mendalam.
Terjebak adalah perkara biasa, terutamanya dengan alat berkuasa seperti PySpark. Terlibat dengan komuniti PySpark yang bertenaga untuk mendapatkan bantuan:
Sertai Forum: Tapak web seperti Stack Overflow mempunyai teg Spark khusus.
Hadiri Pertemuan: Komuniti Spark dan Python sering menganjurkan acara di mana anda boleh belajar dan rangkaian.
Ikuti Blog: Ramai profesional data berkongsi pengalaman dan tutorial mereka dalam talian.
Memasang PySpark pada mesin tempatan anda mungkin kelihatan menakutkan pada mulanya, tetapi mengikut langkah ini menjadikannya boleh diurus dan bermanfaat. Sama ada anda baru memulakan perjalanan data anda atau mengasah kemahiran anda, PySpark melengkapkan anda dengan alatan untuk menangani masalah data dunia sebenar.
PySpark, API Python untuk Apache Spark, ialah pengubah permainan untuk analisis dan pemprosesan data. Walaupun potensinya sangat besar, menetapkannya pada mesin tempatan anda boleh berasa mencabar. Artikel ini memecahkan proses langkah demi langkah, meliputi segala-galanya daripada memasang Java dan memuat turun Spark untuk menguji persediaan anda dengan skrip mudah.
Dengan PySpark dipasang secara setempat, anda boleh prototaip aliran kerja data, mempelajari ciri Spark dan menguji projek berskala kecil tanpa memerlukan gugusan penuh.
Atas ialah kandungan terperinci Cara Memasang PySpark pada Mesin Setempat Anda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!