首頁 運維 Apache apache spark 是什麼

apache spark 是什麼

Jun 28, 2019 pm 01:52 PM
apache spark

apache spark 是什麼

Spark是一個基於記憶體運算的開源的叢集運算系統,目的是讓資料分析更快速。 Spark非常小巧玲瓏,由加州柏克萊大學AMP實驗室的Matei為主的小團隊所開發。使用的語言是Scala,專案的core部分的程式碼只有63個Scala文件,非常短小精悍。

Spark 是一種與Hadoop 相似的開源叢集運算環境,但兩者之間仍存在一些不同之處,這些有用的不同之處使Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了記憶體分佈資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程式框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密整合,其中的 Scala 可以像操作本地集合物件一樣輕鬆地操作分散式資料集。

儘管創建 Spark 是為了支援分散式資料集上的迭代作業,但實際上它是對 Hadoop 的補充,可以在 Hadoop 檔案系統中並行運行。透過名為Mesos的第三方叢集框架可以支援此行為。 Spark 由加州大學柏克萊分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用於建立大型的、低延遲的資料分析應用程式。

Spark 叢集運算架構
雖然 Spark 與 Hadoop 有相似之處,但它提供了一個具有有用差異的新的叢集運算框架。首先,Spark 是為叢集計算中的特定類型的工作負載而設計,即那些在平行操作之間重複使用工作資料集(例如機器學習演算法)的工作負載。為了優化這些類型的工作負載,Spark 引進了記憶體叢集運算的概念,可在記憶體叢集運算中將資料集快取在記憶體中,以縮短存取延遲。

Spark 也引進了名為彈性分散式資料集(RDD) 的抽象。 RDD 是分佈在一組節點中的唯讀物件集合。這些集合是彈性的,如果資料集一部分遺失,則可以對它們進行重建。重建部分資料集的過程依賴容錯機制,該機制可以維護 "血統"(即允許基於資料衍生過程重建部分資料集的資訊)。 RDD 被表示為一個Scala 對象,並且可以從文件中創建它;一個並行化的切片(遍布於節點之間);另一個RDD 的轉換形式;並且最終會徹底改變現有RDD 的持久性,例如請求快取在記憶體中。

Spark 中的應用程式稱為驅動程序,這些驅動程式可實現在單一節點上執行的操作或在一組節點上並行執行的操作。與 Hadoop 類似,Spark 支援單節點叢集或多節點叢集。對於多節點操作,Spark 依賴 Mesos 叢集管理器。 Mesos 為分散式應用程式的資源共享和隔離提供了一個有效平台。此設定充許 Spark 與 Hadoop 共存於節點的一個共享池中。

更多Apache的相關技術文章,請造訪Apache教學專欄進行學習!

以上是apache spark 是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

apache中cgi目錄怎麼設置 apache中cgi目錄怎麼設置 Apr 13, 2025 pm 01:18 PM

要在 Apache 中設置 CGI 目錄,需要執行以下步驟:創建 CGI 目錄,如 "cgi-bin",並授予 Apache 寫入權限。在 Apache 配置文件中添加 "ScriptAlias" 指令塊,將 CGI 目錄映射到 "/cgi-bin" URL。重啟 Apache。

apache80端口被佔用怎麼辦 apache80端口被佔用怎麼辦 Apr 13, 2025 pm 01:24 PM

當 Apache 80 端口被佔用時,解決方法如下:找出佔用該端口的進程並關閉它。檢查防火牆設置以確保 Apache 未被阻止。如果以上方法無效,請重新配置 Apache 使用不同的端口。重啟 Apache 服務。

apache怎麼連接數據庫 apache怎麼連接數據庫 Apr 13, 2025 pm 01:03 PM

Apache 連接數據庫需要以下步驟:安裝數據庫驅動程序。配置 web.xml 文件以創建連接池。創建 JDBC 數據源,指定連接設置。從 Java 代碼中使用 JDBC API 訪問數據庫,包括獲取連接、創建語句、綁定參數、執行查詢或更新以及處理結果。

怎麼查看自己的apache版本 怎麼查看自己的apache版本 Apr 13, 2025 pm 01:15 PM

有 3 種方法可在 Apache 服務器上查看版本:通過命令行(apachectl -v 或 apache2ctl -v)、檢查服務器狀態頁(http://<服務器IP或域名>/server-status)或查看 Apache 配置文件(ServerVersion: Apache/<版本號>)。

怎麼查看apache版本 怎麼查看apache版本 Apr 13, 2025 pm 01:00 PM

如何查看 Apache 版本?啟動 Apache 服務器:使用 sudo service apache2 start 啟動服務器。查看版本號:使用以下方法之一查看版本:命令行:運行 apache2 -v 命令。服務器狀態頁面:在 Web 瀏覽器中訪問 Apache 服務器的默認端口(通常為 80),版本信息顯示在頁面底部。

apache怎麼配置zend apache怎麼配置zend Apr 13, 2025 pm 12:57 PM

如何在 Apache 中配置 Zend?在 Apache Web 服務器中配置 Zend Framework 的步驟如下:安裝 Zend Framework 並解壓到 Web 服務器目錄中。創建 .htaccess 文件。創建 Zend 應用程序目錄並添加 index.php 文件。配置 Zend 應用程序(application.ini)。重新啟動 Apache Web 服務器。

apache怎麼刪除多於的服務器名 apache怎麼刪除多於的服務器名 Apr 13, 2025 pm 01:09 PM

要從 Apache 中刪除多餘的 ServerName 指令,可以採取以下步驟:識別並刪除多餘的 ServerName 指令。重新啟動 Apache 使更改生效。檢查配置文件驗證更改。測試服務器確保問題已解決。

apache不能啟動怎麼解決 apache不能啟動怎麼解決 Apr 13, 2025 pm 01:21 PM

Apache 無法啟動,原因可能有以下幾點:配置文件語法錯誤。與其他應用程序端口衝突。權限問題。內存不足。進程死鎖。守護進程故障。 SELinux 權限問題。防火牆問題。軟件衝突。

See all articles