Heim > Backend-Entwicklung > Python-Tutorial > Einführung in die Datenanalyse mit PySpark

Einführung in die Datenanalyse mit PySpark

DDD
Freigeben: 2025-01-12 12:14:43
Original
931 Leute haben es durchsucht

Dieses Tutorial demonstriert die PySpark-Funktionalität anhand eines Weltbevölkerungsdatensatzes.

Vorläufige Einrichtung

Stellen Sie zunächst sicher, dass Python installiert ist. Überprüfen Sie Ihr Terminal mit:

<code class="language-bash">python --version</code>
Nach dem Login kopieren

Wenn es nicht installiert ist, laden Sie Python von der offiziellen Website herunter und wählen Sie die entsprechende Version für Ihr Betriebssystem aus.

Installieren Sie Jupyter Notebook (Anleitung online verfügbar). Alternativ können Sie Anaconda installieren, das Python und Jupyter Notebook sowie viele wissenschaftliche Bibliotheken enthält.

Starten Sie Jupyter Notebook von Ihrem Terminal aus:

<code class="language-bash">jupyter notebook</code>
Nach dem Login kopieren

Erstellen Sie ein neues Python 3-Notebook. Erforderliche Bibliotheken installieren:

<code class="language-python">!pip install pandas
!pip install pyspark
!pip install findspark
!pip install pyspark_dist_explore</code>
Nach dem Login kopieren

Laden Sie den Bevölkerungsdatensatz (CSV-Format) von datahub.io herunter und notieren Sie seinen Speicherort.

Bibliotheken importieren und Spark initialisieren

Notwendige Bibliotheken importieren:

<code class="language-python">import pandas as pd
import matplotlib.pyplot as plt
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, FloatType, StringType, StructField
from pyspark_dist_explore import hist</code>
Nach dem Login kopieren

Bevor Sie die Spark-Sitzung initialisieren, überprüfen Sie, ob Java installiert ist:

<code class="language-bash">java -version</code>
Nach dem Login kopieren

Wenn nicht, installieren Sie das Java Development Kit (JDK).

Initialisieren Sie die Spark-Sitzung:

<code class="language-python">spark = SparkSession \
    .builder \
    .appName("World Population Analysis") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .getOrCreate()</code>
Nach dem Login kopieren

Sitzung überprüfen:

<code class="language-python">spark</code>
Nach dem Login kopieren

Wenn eine Warnung zur Hostnamenauflösung erscheint, setzen Sie SPARK_LOCAL_IP in local-spark-env.sh oder spark-env.sh auf eine andere IP-Adresse als 127.0.0.1 (z. B. export SPARK_LOCAL_IP="10.0.0.19"), bevor Sie es erneut initialisieren.

Laden und Bearbeiten von Daten

Daten in einen Pandas DataFrame laden:

<code class="language-python">pd_dataframe = pd.read_csv('population.csv')
pd_dataframe.head()</code>
Nach dem Login kopieren

Daten in einen Spark DataFrame laden:

<code class="language-python">sdf = spark.createDataFrame(pd_dataframe)
sdf.printSchema()</code>
Nach dem Login kopieren

Spalten zur einfacheren Verarbeitung umbenennen:

<code class="language-python">sdf_new = sdf.withColumnRenamed("Country Name", "Country_Name").withColumnRenamed("Country Code", "Country_Code")
sdf_new.head(5)</code>
Nach dem Login kopieren

Erstellen Sie eine temporäre Ansicht:

<code class="language-python">sdf_new.createTempView('population_table')</code>
Nach dem Login kopieren

Datenexploration mit SQL-Abfragen

SQL-Abfragen ausführen:

<code class="language-python">spark.sql("SELECT * FROM population_table").show()
spark.sql("SELECT Country_Name FROM population_table").show()</code>
Nach dem Login kopieren

Datenvisualisierung

Zeichnen Sie ein Histogramm der Bevölkerung von Aruba:

<code class="language-python">sdf_population = sdf_new.filter(sdf_new.Country_Name == 'Aruba')
fig, ax = plt.subplots()
hist(ax, sdf_population.select('Value'), bins=20, color=['red'])</code>
Nach dem Login kopieren

Intro to Data Analysis using PySpark

Diese überarbeitete Antwort behält die ursprüngliche Struktur und den ursprünglichen Inhalt bei, verwendet jedoch leicht andere Formulierungen und Formulierungen für einen natürlicheren Ablauf und eine bessere Klarheit. Das Bild behält sein ursprüngliches Format und seinen ursprünglichen Speicherort.

Das obige ist der detaillierte Inhalt vonEinführung in die Datenanalyse mit PySpark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage