首頁 > 常見問題 > spark四大組件是什麼?

spark四大組件是什麼?

青灯夜游
發布: 2020-12-14 14:34:18
原創
22222 人瀏覽過

spark四大元件分別為:1、SparkStreaming,針對即時資料進行串流計算的元件;2、SparkSQL,用來操作結構化資料的元件;3、GraphX,Spark面向圖計算提供的框架與演算法庫;4、MLlib,一個機器學習演算法庫。

spark四大組件是什麼?

相關推薦:《程式設計影片課程

spark四大元件

1、SparkStreaming:

眾多應用領域對即時資料的串流運算有著強烈的需求,例如網路環境中的網頁伺服器日誌或是由使用者提交的狀態更新組成的訊息隊列等,這些都是即時資料流。 Spark Streaming是Spark平台上針對即時資料進行串流運算的元件,提供了豐富的處理資料流的API。由於這些API與Spark Core中的基本操作相對應,因此開發者在熟知Spark核心概念與程式設計方法之後,編寫Spark Streaming應用程式會更加得心應手。從底層設計來看,Spark Streaming支援與Spark Core同等級的容錯性、吞吐量以及可擴充性。

2、SparkSQL:

Spark SQL是Spark用來操作結構化資料的元件。透過Spark SQL,使用者可以使用SQL或Apache Hive版本的SQL方言(HQL)來查詢資料。 Spark SQL支援多種資料來源類型,例如Hive表、Parquet以及JSON等。 Spark SQL不僅為Spark提供了一個SQL接口,還支援開發者將SQL語句融入Spark應用程式開發過程中,無論是使用Python、Java還是Scala,使用者可以在單一的應用程式中同時進行SQL查詢和複雜的數據分析。由於能夠與Spark所提供的豐富的運算環境緊密結合,Spark SQL得以從其他開源資料倉儲工具中脫穎而出。 Spark SQL在Spark l.0中首次被引入。在Spark SQL之前,美國加州大學柏克萊分校曾經嘗試修改Apache Hive以使其運行在Spark上,進而提出了組件Shark。然而隨著Spark SQL的提出與發展,其與Spark引擎和API結合得更加緊密,使得Shark已經被Spark SQL所取代。

3、GraphX:

GraphX是Spark面向圖計算提供的框架與演算法庫。 GraphX中提出了彈性分散式屬性圖的概念,並在此基礎上實現了圖視圖與表格視圖的有機結合與統一;同時針對圖資料處理提供了豐富的操作,例如取子圖操作subgraph、頂點屬性操作mapVertices、邊屬性操作mapEdges等。 GraphX也實現了與Pregel的結合,可以直接使用一些常用圖演算法,如PageRank、三角形計數等。

4、MLlib:

MLlib是Spark提供的一個機器學習演算法庫,其中包含了多種經典、常見的機器學習演算法,主要有分類、迴歸、聚類、協同過濾等。 MLlib不僅提供了模型評估、資料導入等額外的功能,還提供了一些更底層的機器學習原語,包括一個通用的梯度下降最佳化基礎演算法。所有這些方法都被設計為可以在叢集上輕鬆伸縮的架構。

想要查閱更多相關文章,請造訪PHP中文網! !

以上是spark四大組件是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板