Apache Hadoop是一套用於在由通用硬體建構的大型叢集上執行應用程式的框架。它實現了Map/Reduce程式設計範式,計算任務會被分割成小塊(多次)運行在不同的節點上。
除此之外,它還提供了一個分散式檔案系統(HDFS),資料被儲存在計算節點上以提供極高的跨資料中心聚合頻寬。
框架作用
Apache Hadoop大資料歸屬的新選擇
物理DAS仍然是Apache Hadoop最好的存儲介質,因為相關的高水平的專業和業務的公司的都是經過研究和實踐來確定存儲介質。但這樣基於HDFS的Apache Hadoop資料儲存卻有很大的問題。
首先,預設方案是所有Apache Hadoop資料進行複製,移動,然後備份。 HDFS是基於Apache Hadoop大數據塊的I/O優化,省去了Apache Hadoop資料互動的時間。以後的使用通常意味著Apache Hadoop資料複製出來。儘管有本地快照,但他們並不完全一致或時間點不完全可恢復。
對於這些和其他原因,企業儲存廠商聰明的將HDFS做改變,一些技術狂人類型的大數據專家使Apache Hadoop運算利用外部儲存。但對許多企業來說,Apache Hadoop提供了一個很好的妥協:無需高維護儲存或儲存新的維護方式的適應,但這有一定的成本。
許多Apache Hadoop供應商,提供對Apache Hadoop叢集遠端HDFS的接口,是生意量比較大的Apache Hadoop企業首選。因為他們將在isilon裡,進行任何其他Apache Hadoop資料處理大數據的保護,其中包括Apache Hadoop安全性和其他問題。另一個好處是,在外部儲存的資料通常可以存取其他Apache Hadoop協定的儲存,支援工作流程和限制資料的傳輸和企業內所需的資料副本。 Apache Hadoop也是基於這樣的原理處理大數據,一個大的資料參考架構,結合一個組合的儲存解決方案,直接進入Apache Hadoop叢集。
另外值得一提的是,虛擬化Apache Hadoop大數據分析。理論上,所有運算和儲存節點可以都可以進行虛擬化。 VMware和RedHat/OpenStack有Hadoop的虛擬化解決方案。然而,幾乎所有的Apache Hadoop主機節點都無法解決企業的儲存問題。它模擬Apache Hadoop運算方面使企業把現有的資料集-SAN/NAS-加速和轉儲到它Apache Hadoop的HDFS的覆蓋之下。在這種方式中,Apache Hadoop大數據分析可以做到一個資料中心的資料沒有任何變動,從而使用新的Apache Hadoop儲存架構和新的資料流或資料管理的所有變更。
大多數Apache Hadoop分佈都是從近Apache Hadoop的開源HDFS(目前軟體定義的儲存大數據)開始,差異在於Apache Hadoop採取了不同的方法。這基本上就是企業Apache Hadoop所需存儲,從而建立自己的相容儲存層在Apache Hadoop HDFS上。 MAPR版本是完全有能力處理I/O快照複製的支持,Apache Hadoop同時和原生支援的其他協定相容,如NFS。 Apache Hadoop也非常有效,並有助於主要提供企業業務智慧應用程序,運行決策支援解決方案依賴大數據的歷史和即時資訊。類似的想法,IBM已經出爐的高效能運算系統儲存API為Apache Hadoop發行版作為一種替代HDFS
另一個Apache Hadoop有趣的解決方案可以幫助解決資料的問題。一個是dataguise,資料安全啟動,能切實有效地保護Apache Hadoop的大數據集的一些獨特的IP,Apache Hadoop可以在一個大的資料聚類自動識別和全局覆蓋或加密敏感資料。水平線資料科學是這個領域的新興技術,如果你連線登陸你的資料檔案到Apache Hadoop,無論資料在哪裡,即使是HDFS,Apache Hadoop都會自動儲存。 Apache Hadoop 大數據提供的產出有助於快速建立商業應用,並利用資料的來源和位置來統計商業所需的資料。
如果你一直持有Apache Hadoop的管理或企業資料中心儲存的興趣,這是一個好時機去update自己對Apache Hadoop大數據的了解,如果你想跟得上Apache Hadoop大數據的腳步,就不應該拒絕Apache Hadoop新技術的應用。
更多Apache相關技術文章,請造訪Apache使用教學欄位學習!
以上是apache hadoop是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!