自從Apache Spark(一種用於處理大數據的開源框架)發布以來,它已成為跨多個容器並行處理大量數據的最廣泛使用的技術之一- 它以效率和速度而自豪與之前存在的類似軟體相比。
透過 PySpark 在 Python 中使用這項令人驚嘆的技術是可行的,PySpark 是一個 Python API,可讓您使用 Python 程式語言與 ApacheSpark 進行互動並挖掘 ApacheSpark 的驚人潛力。
在本文中,您將學習並開始使用 PySpark 使用線性迴歸演算法建立機器學習模型。
注意:預先了解 Python、VSCode 等 IDE、如何使用命令提示字元/終端機以及熟悉機器學習概念對於正確理解本文中包含的概念至關重要。
透過閱讀本文,您應該能夠:
根據Apache Spark 官方網站,PySpark 可讓您利用ApacheSpark(簡單性、速度、可擴展性、多功能性)和Python(豐富的生態系統、成熟的庫、簡單性)的綜合優勢進行「資料工程」單節點機器或叢集上的資料科學和機器學習。 ”
圖片來源
PySpark 是 ApacheSpark 的 Python API,這意味著它充當一個接口,讓用 Python 編寫的程式碼與用 Scala 編寫的 ApacheSpark 技術進行通訊。這樣,已經熟悉Python生態系統的專業人士就可以快速利用ApacheSpark技術。這也確保了 Python 中使用的現有函式庫保持相關性。
在接下來的步驟中,我們將使用線性迴歸演算法來建立機器學習模型:
如果沒有這些額外的 Python 函式庫,您可以安裝它們。
如果您正在使用小型資料集,您可以將其轉換為 Python 資料框和目錄,並使用 Python 檢查缺失值。
使用 VectorAssembler 將所有特徵組合到單一向量列中。
建立 LogisticRegression 類別的實例並擬合模型。
使用 AUC 指標評估模型
本文所使用的端到端程式碼如下圖所示:
我們已經到了本文的結尾。透過執行上述步驟,您已經使用 PySpark 建立了機器學習模型。
在繼續下一步之前,請務必確保您的資料集乾淨且沒有空值。最後,在繼續訓練模型之前,請確保您的特徵全部包含數值。
以上是如何使用 PySpark 進行機器學習的詳細內容。更多資訊請關注PHP中文網其他相關文章!