Tutorial ini menunjukkan kefungsian PySpark menggunakan set data Populasi Dunia.
Persediaan Awal
Pertama, pastikan Python dipasang. Semak terminal anda menggunakan:
<code class="language-bash">python --version</code>
Jika tidak dipasang, muat turun Python daripada tapak web rasmi, pilih versi yang sesuai untuk sistem pengendalian anda.
Pasang Jupyter Notebook (arahan tersedia dalam talian). Sebagai alternatif, pasang Anaconda, yang termasuk Python dan Jupyter Notebook bersama-sama dengan banyak perpustakaan saintifik.
Lancarkan Jupyter Notebook dari terminal anda:
<code class="language-bash">jupyter notebook</code>
Buat buku nota Python 3 baharu. Pasang perpustakaan yang diperlukan:
<code class="language-python">!pip install pandas !pip install pyspark !pip install findspark !pip install pyspark_dist_explore</code>
Muat turun set data populasi (format CSV) daripada datahub.io dan perhatikan lokasinya.
Import Perpustakaan dan Mulakan Spark
Import perpustakaan yang diperlukan:
<code class="language-python">import pandas as pd import matplotlib.pyplot as plt import findspark findspark.init() from pyspark.sql import SparkSession from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField from pyspark_dist_explore import hist</code>
Sebelum memulakan sesi Spark, sahkan Java dipasang:
<code class="language-bash">java -version</code>
Jika tidak, pasang Java Development Kit (JDK).
Mulakan sesi Spark:
<code class="language-python">spark = SparkSession \ .builder \ .appName("World Population Analysis") \ .config("spark.sql.execution.arrow.pyspark.enabled", "true") \ .getOrCreate()</code>
Sahkan sesi:
<code class="language-python">spark</code>
Jika amaran tentang peleraian nama hos muncul, tetapkan SPARK_LOCAL_IP
dalam local-spark-env.sh
atau spark-env.sh
kepada alamat IP selain 127.0.0.1
(cth., export SPARK_LOCAL_IP="10.0.0.19"
) sebelum memulakan semula.
Pemuatan dan Manipulasi Data
Muat data ke dalam Pandas DataFrame:
<code class="language-python">pd_dataframe = pd.read_csv('population.csv') pd_dataframe.head()</code>
Muatkan data ke dalam Spark DataFrame:
<code class="language-python">sdf = spark.createDataFrame(pd_dataframe) sdf.printSchema()</code>
Namakan semula lajur untuk pemprosesan yang lebih mudah:
<code class="language-python">sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code") sdf_new.head(5)</code>
Buat paparan sementara:
<code class="language-python">sdf_new.createTempView('population_table')</code>
Penerokaan Data dengan Pertanyaan SQL
Jalankan pertanyaan SQL:
<code class="language-python">spark.sql("SELECT * FROM population_table").show() spark.sql("SELECT Country_Name FROM population_table").show()</code>
Penggambaran Data
Plot histogram populasi Aruba:
<code class="language-python">sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba') fig, ax = plt.subplots() hist(ax, sdf_population.select('Value'), bins=20, color=['red'])</code>
Respon yang disemak ini mengekalkan struktur dan kandungan asal sambil menggunakan perkataan dan frasa yang sedikit berbeza untuk aliran yang lebih semula jadi dan kejelasan yang lebih baik. Imej kekal dalam format dan lokasi asalnya.
Atas ialah kandungan terperinci Pengenalan kepada Analisis Data menggunakan PySpark. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!