hdfs在hadoop中的作用是為海量的資料提供了存儲,能提供高吞吐量的資料訪問,HDFS具有高容錯性的特點,並且設計用來部署在低廉的硬體上;而且它提供高吞吐量來存取應用程式的數據,適合那些有著超大數據集的應用程式。
Hadoop是由Apache基金會所開發的分散式系統基礎架構。使用者可以在不了解分散式底層細節的情況下,開發分散式程式。充分利用叢集的威力進行高速運算和儲存。
Hadoop實作了一個分散式檔案系統(Hadoop Distributed File System),其中一個元件是HDFS。
HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來存取應用程式的數據,適合那些有著超大資料集(large data set)的應用程式。 HDFS放寬了(relax)POSIX的要求,可以以串流的形式存取(streaming access)檔案系統中的資料。
Hadoop的框架最核心的設計就是:HDFS和MapReduce。 HDFS為海量的數據提供了存儲,而MapReduce則為海量的數據提供了計算。
HDFS
對外部客戶機而言,HDFS就像是傳統的分級檔案系統。可以建立、刪除、移動或重新命名文件,等等。但是 HDFS 的架構是基於一組特定的節點所建構的(參見圖 1),這是由它本身的特徵決定的。這些節點包括 NameNode(僅一個),它在 HDFS 內部提供元資料服務;DataNode,它為 HDFS 提供儲存區塊。由於僅存在一個 NameNode,因此這是 HDFS 1.x版本的缺點(單點失敗)。在Hadoop 2.x版本可以有兩個NameNode,解決了單節點故障問題。
儲存在 HDFS 中的檔案被分成區塊,然後將這些區塊複製到多個電腦中(DataNode)。這與傳統的 RAID 架構大不相同。區塊的大小(1.x版本預設為 64MB,2.x版本預設為128MB)和複製的區塊數量在建立檔案時由客戶機決定。 NameNode 可以控制所有檔案操作。 HDFS 內部的所有通訊都基於標準的 TCP/IP 協定。
更多相關知識,請造訪:PHP中文網!
以上是hdfs在hadoop中的作用是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!