使用Python PySpark處理大型資料集-Python教學-PHP中文網

Section 1: Getting Started with PySpark

第一部：開始使用PySpark

輸出

第 2 部分：轉換與分析資料

第三部分：進階PySpark技術

結論

首頁

後端開發

Python教學

使用Python PySpark處理大型資料集

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 29, 2023 am 09:09 AM

使用Python PySpark处理大型数据集

在本教學中，我們將探索Python和PySpark的強大組合，用於處理大型資料集。 PySpark是一個Python庫，提供了與Apache Spark的接口，它是一個快速且通用的叢集計算系統。透過利用PySpark，我們可以有效率地在一組機器上分發和處理數據，使我們能夠輕鬆處理大規模資料集。

在本文中，我們將深入探討PySpark的基本原理，並示範如何在大型資料集上執行各種資料處理任務。我們將涵蓋關鍵概念，如RDD（彈性分散式資料集）和資料框架，並透過逐步範例展示它們的實際應用。透過本教學的學習，您將對如何有效地利用PySpark處理和分析大規模資料集有一個紮實的理解。

Section 1: Getting Started with PySpark

的中文翻譯為：

第一部：開始使用PySpark

#在本節中，我們將設定開發環境並熟悉PySpark的基本概念。我們將介紹如何安裝PySpark，初始化SparkSession，並將資料載入到RDD和DataFrame中。讓我們開始安裝PySpark：

# Install PySpark
!pip install pyspark

登入後複製

輸出

Collecting pyspark
...
Successfully installed pyspark-3.1.2

登入後複製

安裝PySpark之後，我們可以初始化一個SparkSession來連接到我們的Spark叢集：

from pyspark.sql import SparkSession

# Create a SparkSession
spark = SparkSession.builder.appName("LargeDatasetProcessing").getOrCreate()

登入後複製

有了我們準備好的SparkSession，我們現在可以將資料載入到RDDs或DataFrames中。 RDDs是PySpark中的基本資料結構，它提供了一個分散式的元素集合。而DataFrames則將資料組織成命名列，類似於關聯式資料庫中的表格。讓我們將一個CSV檔案載入為一個DataFrame：

# Load a CSV file as a DataFrame
df = spark.read.csv("large_dataset.csv", header=True, inferSchema=True)

登入後複製

輸出

+---+------+--------+
|id |name  |age     |
+---+------+--------+
|1  |John  |32      |
|2  |Alice |28      |
|3  |Bob   |35      |
+---+------+--------+

登入後複製

從上面的程式碼片段可以看出，我們使用`read.csv()`方法將CSV檔案讀入資料框中。 `header=True`參數表示第一行包含列名，而`inferSchema=True`會自動推斷每一列的資料類型。

第 2 部分：轉換與分析資料

在本節中，我們將探索使用 PySpark 的各種資料轉換和分析技術。我們將介紹過濾、聚合和連接資料集等操作。讓我們先根據特定條件過濾資料：

# Filter data
filtered_data = df.filter(df["age"] > 30)

登入後複製

輸出

+---+----+---+
|id |name|age|
+---+----+---+
|1  |John|32 |
|3  |Bob |35 |
+---+----+---+

登入後複製

在上面的程式碼片段中，我們使用`filter()`方法來選擇「age」列大於30的行。這個操作允許我們從大型資料集中提取相關的子集。

接下來，讓我們使用「groupBy()」和「agg()」方法對資料集執行聚合：

# Aggregate data
aggregated_data = df.groupBy("gender").agg({"salary": "mean", "age": "max"})

登入後複製

輸出

+------+-----------+--------+
|gender|avg(salary)|max(age)|
+------+-----------+--------+
|Male  |2500       |32      |
|Female|3000       |35      |
+------+-----------+--------+

登入後複製

在這裡，我們按「性別」欄位將資料分組，並計算每組的平均薪資和最大年齡。產生的「aggreated_data」資料框架為我們提供了對資料集的寶貴見解。

除了過濾和聚合之外，PySpark 還使我們能夠有效率地連接多個資料集。讓我們考慮一個範例，其中我們有兩個 DataFrame：「df1」和「df2」。我們可以根據一個共同的列加入它們：

# Join two DataFrames
joined_data = df1.join(df2, on="id", how="inner")

登入後複製

輸出

+---+----+---------+------+
|id |name|department|salary|
+---+----+---------+------+
|1  |John|HR       |2500  |
|2  |Alice|IT      |3000  |
|3  |Bob |Sales    |2000  |
+---+----+---------+------+

登入後複製

`join()`方法允許我們根據`on`參數指定的公共列來合併DataFrame。根據我們的需求，我們可以選擇不同的連接類型，例如"inner"、"outer"、"left"或"right"。

第三部分：進階PySpark技術

在本節中，我們將探討進階的PySpark技術，以進一步增強我們的資料處理能力。我們將涵蓋使用者定義函數（UDFs）、視窗函數和快取等主題。讓我們從定義和使用UDF開始：

from pyspark.sql.functions import udf

# Define a UDF
def square(x):
    return x ** 2

# Register the UDF
square_udf = udf(square)

# Apply the UDF to a column
df = df.withColumn("age_squared", square_udf(df["age"]))

登入後複製

輸出

+---+------+---+------------+
|id |name  |age|age_squared |
+---+------+---+------------+
|1  |John  |32 |1024        |
|2  |Alice |28 |784         |
|3  |Bob   |35 |1225        |
+---+------+---+------------+

登入後複製

在上面的程式碼片段中，我們定義了一個簡單的UDF函數，名為`square()`，它用於對給定的輸入進行平方運算。然後，我們使用`udf()`函數註冊該UDF，並將其應用於"age"列，從而在我們的DataFrame中建立一個名為"age_squared"的新列。

PySpark也提供了強大的視窗函數，讓我們在特定的視窗範圍內執行計算。讓我們考慮上一行和下一行來計算每位員工的平均薪資：

from pyspark.sql.window import Window
from pyspark.sql.functions import lag, lead, avg

# Define the window
window = Window.orderBy("id")

# Calculate average salary with lag and lead
df = df.withColumn("avg_salary", (lag(df["salary"]).over(window) + lead(df["salary"]).over(window) + df["salary"]) / 3)

登入後複製

輸出

+---+----+---------+------+----------+
|id |name|department|salary|avg_salary|
+---+----+---------+------+----------+
|1  |John|HR       |2500  |2666.6667 |
|2  |Alice|

IT      |3000  |2833.3333 |
|3  |Bob |Sales    |2000  |2500      |
+---+----+---------+------+----------+

登入後複製

在上面的程式碼摘錄中，我們使用「Window.orderBy()」方法定義一個窗口，根據「id」列指定行的排序。然後，我們使用“lag()”和“lead()”函數分別存取前一行和下一行。最後，我們透過考慮當前行及其鄰居來計算平均工資。

最後，快取是 PySpark 中提高迭代演算法或重複計算效能的重要技術。我們可以使用 `cache()` 方法在記憶體中快取 DataFrame 或 RDD：

# Cache a DataFrame
df.cache()

登入後複製

快取不會顯示任何輸出，但依賴快取的 DataFrame 的後續操作會更快，因為資料儲存在記憶體中。

結論

在本教學中，我們探索了 PySpark 在 Python 中處理大型資料集的強大功能。我們首先設定開發環境並將資料載入到 RDD 和 DataFrame 中。然後，我們深入研究了資料轉換和分析技術，包括過濾、聚合和連接資料集。最後，我們討論了進階 PySpark 技術，例如使用者定義函數、視窗函數和快取。

以上是使用Python PySpark處理大型資料集的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn