首頁 > 後端開發 > Python教學 > 如何使用 PySpark 進行機器學習

如何使用 PySpark 進行機器學習

DDD
發布: 2024-12-11 08:47:10
原創
901 人瀏覽過

自從Apache Spark(一種用於處理大數據的開源框架)發布以來,它已成為跨多個容器並行處理大量數據的最廣泛使用的技術之一- 它以效率和速度而自豪與之前存在的類似軟體相比。

透過 PySpark 在 Python 中使用這項令人驚嘆的技術是可行的,PySpark 是一個 Python API,可讓您使用 Python 程式語言與 ApacheSpark 進行互動並挖掘 ApacheSpark 的驚人潛力。

在本文中,您將學習並開始使用 PySpark 使用線性迴歸演算法建立機器學習模型。

注意:預先了解 Python、VSCode 等 IDE、如何使用命令提示字元/終端機以及熟悉機器學習概念對於正確理解本文中包含的概念至關重要。

透過閱讀本文,您應該能夠:

  • 了解 ApacheSpark 是什麼。
  • 了解 PySpark 以及如何將其用於機器學習。

PySpark 到底是什麼?

根據Apache Spark 官方網站,PySpark 可讓您利用ApacheSpark(簡單性、速度、可擴展性、多功能性)和Python(豐富的生態系統、成熟的庫、簡單性)的綜合優勢進行「資料工程」單節點機器或叢集上的資料科學和機器學習。 ”

How to Use PySpark for Machine Learning
圖片來源

PySpark 是 ApacheSpark 的 Python API,這意味著它充當一個接口,讓用 Python 編寫的程式碼與用 Scala 編寫的 ApacheSpark 技術進行通訊。這樣,已經熟悉Python生態系統的專業人士就可以快速利用ApacheSpark技術。這也確保了 Python 中使用的現有函式庫保持相關性。

有關如何使用 PySpark 進行機器學習的詳細指南

在接下來的步驟中,我們將使用線性迴歸演算法來建立機器學習模型:

  • 安裝專案依賴項:我假設您的電腦上已經安裝了 Python。如果沒有,請先安裝它,然後再進行下一步。開啟終端機或命令提示字元並輸入以下程式碼以安裝 PySpark 庫。

如果沒有這些額外的 Python 函式庫,您可以安裝它們。

  • 建立檔案並匯入必要的函式庫:開啟 VSCode,然後在您選擇的專案目錄中為您的專案建立一個文件,例如 pyspart_model.py。開啟檔案並匯入專案所需的庫。
  • 建立 Spark 會話:透過在匯入下輸入此程式碼來啟動專案的 Spark 會話。
  • 讀取 CSV 檔案(您將使用的資料集):如果您的專案目錄/資料夾中已有名為 data.csv 的資料集,請使用下列程式碼載入它。
  • 探索性資料分析:此步驟可協助您了解正在使用的資料集。檢查空值並決定使用的清理方法。

如果您正在使用小型資料集,您可以將其轉換為 Python 資料框和目錄,並使用 Python 檢查缺失值。

  • 資料預處理:此步驟涉及將資料集中的列/特徵轉換為 PySpark 的機器學習庫可以輕鬆理解或相容的格式。

使用 VectorAssembler 將所有特徵組合到單一向量列中。

  • 分割資料集:依照您方便的比例分割資料集。在這裡,我們使用 70% 到 30%:70% 用於訓練,30% 用於測試模型。
  • 訓練你的模型:我們正在使用邏輯迴歸演算法來訓練我們的模型。

建立 LogisticRegression 類別的實例並擬合模型。

  • 使用您訓練的模型進行預測:使用我們在上一步中訓練的模型進行預測
  • 模型評估:在這裡,正在評估模型以確定其預測性能或其正確性水平。我們透過使用合適的評估指標來實現這一目標。

使用 AUC 指標評估模型

本文所使用的端到端程式碼如下圖所示:

下一步?

我們已經到了本文的結尾。透過執行上述步驟,您已經使用 PySpark 建立了機器學習模型。

在繼續下一步之前,請務必確保您的資料集乾淨且沒有空值。最後,在繼續訓練模型之前,請確保您的特徵全部包含數值。

以上是如何使用 PySpark 進行機器學習的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:dev.to
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板