Erstellen eines Datenrahmens in PYSPARK, der Kerndatenstruktur für Spark, ist der grundlegende Schritt für jede Datenverarbeitungsaufgabe. Abhängig von Ihrer Datenquelle gibt es verschiedene Möglichkeiten, dies zu erreichen. Der einfachste und häufigste Ansatz ist die Verwendung der spark.read.csv()
-Methode, die wir später im Detail untersuchen werden. Bevor wir jedoch in Einzelheiten eintauchen, richten wir unsere Funkenumgebung ein. Sie müssen pyspark installieren lassen. Wenn nicht, können Sie es mit pip install pyspark
installieren. Anschließend müssen Sie eine SparkSession initialisieren, die der Einstiegspunkt für die Spark -Funktionalität ist. Dies erfolgt normalerweise wie folgt:
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
Dies erstellt ein SparkSession -Objekt mit dem Namen spark
. Wir werden dieses Objekt während unserer Beispiele verwenden. Denken Sie daran, die Sitzung zu stoppen, wenn sie spark.stop()
beendet ist. Jetzt sind wir bereit, unseren ersten Datenrahmen zu erstellen. Die
spark.read.csv()
Hier ist, wie Sie einen Datenrahmen aus dieser CSV -Datei erstellen können: data.csv
Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris
zeigt an, dass die ersten Zeile die Zeile enthält, und
(🎜> (🎜> Wenn diese Optionen nicht angegeben sind, geht Spark davon aus, dass die erste Zeile Daten ist und allen Spalten einen Standard -Datentyp (normalerweise Zeichenfolge) zuweist. Sie können das Schema explizit mithilfe einesfrom pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate() df = spark.read.csv("data.csv", header=True, inferSchema=True) df.show() spark.stop()
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris
Das obige ist der detaillierte Inhalt vonErstellen Sie Ihren ersten Datenrahmen in PySpark. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!