中創建您的第一個數據幀>在Pyspark(Spark的核心數據結構)中創建一個數據框,是任何數據處理任務的基礎步驟。 根據您的數據源,有幾種方法可以實現這一目標。 最簡單,最常見的方法是使用spark.read.csv()
方法,我們將在稍後詳細探討。 但是,在研究細節之前,讓我們建立我們的火花環境。 您需要安裝Pyspark。 如果不是,則可以使用pip install pyspark
安裝它。 然後,您需要初始化火花,這是火花功能的切入點。這通常如下所示:
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
這會創建一個名為spark
的Sparksession對象。我們將在整個示例中使用此對象。請記住在使用spark.stop()
完成時停止會話。現在,我們已經準備好創建第一個數據框。
>從CSV文件中讀取數據的CSV文件創建數據幀是一種在Pyspark中創建數據幀的普遍方法。 spark.read.csv()
>功能在處理各種CSV特性方面具有靈活性。 假設您在工作目錄中使用以下結構中有一個名為data.csv
的CSV文件:
Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris
>您可以從此CSV文件中創建一個數據框:
>from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate() df = spark.read.csv("data.csv", header=True, inferSchema=True) df.show() spark.stop()
header=True
inferSchema=True
表明,第一個行包含柱標頭,並指示StructType
指示自動推出數據類型。 如果未指定這些選項,Spark將假定第一行是數據,並且將為所有列分配默認數據類型(通常是字符串)。 您可以使用
from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrameCreation").getOrCreate()
Name,Age,City Alice,25,New York Bob,30,London Charlie,28,Paris
spark.read.json()
spark.read.parquet()
>對象提供了訪問這些來源的方法。 spark.read
spark.read.option("maxRecordsPerFile",10000).csv(...)
schema schema neferce essemence:header=True
以上是在Pyspark中創建您的第一個數據幀的詳細內容。更多資訊請關注PHP中文網其他相關文章!