Dieses Tutorial demonstriert die PySpark-Funktionalität anhand eines Weltbevölkerungsdatensatzes.
Vorläufige Einrichtung
Stellen Sie zunächst sicher, dass Python installiert ist. Überprüfen Sie Ihr Terminal mit:
<code class="language-bash">python --version</code>
Wenn es nicht installiert ist, laden Sie Python von der offiziellen Website herunter und wählen Sie die entsprechende Version für Ihr Betriebssystem aus.
Installieren Sie Jupyter Notebook (Anleitung online verfügbar). Alternativ können Sie Anaconda installieren, das Python und Jupyter Notebook sowie viele wissenschaftliche Bibliotheken enthält.
Starten Sie Jupyter Notebook von Ihrem Terminal aus:
<code class="language-bash">jupyter notebook</code>
Erstellen Sie ein neues Python 3-Notebook. Erforderliche Bibliotheken installieren:
<code class="language-python">!pip install pandas !pip install pyspark !pip install findspark !pip install pyspark_dist_explore</code>
Laden Sie den Bevölkerungsdatensatz (CSV-Format) von datahub.io herunter und notieren Sie seinen Speicherort.
Bibliotheken importieren und Spark initialisieren
Notwendige Bibliotheken importieren:
<code class="language-python">import pandas as pd import matplotlib.pyplot as plt import findspark findspark.init() from pyspark.sql import SparkSession from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField from pyspark_dist_explore import hist</code>
Bevor Sie die Spark-Sitzung initialisieren, überprüfen Sie, ob Java installiert ist:
<code class="language-bash">java -version</code>
Wenn nicht, installieren Sie das Java Development Kit (JDK).
Initialisieren Sie die Spark-Sitzung:
<code class="language-python">spark = SparkSession \ .builder \ .appName("World Population Analysis") \ .config("spark.sql.execution.arrow.pyspark.enabled", "true") \ .getOrCreate()</code>
Sitzung überprüfen:
<code class="language-python">spark</code>
Wenn eine Warnung zur Hostnamenauflösung erscheint, setzen Sie SPARK_LOCAL_IP
in local-spark-env.sh
oder spark-env.sh
auf eine andere IP-Adresse als 127.0.0.1
(z. B. export SPARK_LOCAL_IP="10.0.0.19"
), bevor Sie es erneut initialisieren.
Laden und Bearbeiten von Daten
Daten in einen Pandas DataFrame laden:
<code class="language-python">pd_dataframe = pd.read_csv('population.csv') pd_dataframe.head()</code>
Daten in einen Spark DataFrame laden:
<code class="language-python">sdf = spark.createDataFrame(pd_dataframe) sdf.printSchema()</code>
Spalten zur einfacheren Verarbeitung umbenennen:
<code class="language-python">sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code") sdf_new.head(5)</code>
Erstellen Sie eine temporäre Ansicht:
<code class="language-python">sdf_new.createTempView('population_table')</code>
Datenexploration mit SQL-Abfragen
SQL-Abfragen ausführen:
<code class="language-python">spark.sql("SELECT * FROM population_table").show() spark.sql("SELECT Country_Name FROM population_table").show()</code>
Datenvisualisierung
Zeichnen Sie ein Histogramm der Bevölkerung von Aruba:
<code class="language-python">sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba') fig, ax = plt.subplots() hist(ax, sdf_population.select('Value'), bins=20, color=['red'])</code>
Diese überarbeitete Antwort behält die ursprüngliche Struktur und den ursprünglichen Inhalt bei, verwendet jedoch leicht andere Formulierungen und Formulierungen für einen natürlicheren Ablauf und eine bessere Klarheit. Das Bild behält sein ursprüngliches Format und seinen ursprünglichen Speicherort.
Das obige ist der detaillierte Inhalt vonEinführung in die Datenanalyse mit PySpark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!