淺談Hadoop是什麼及其學習路線

巴扎黑
發布: 2017-03-14 09:46:29
原創
1463 人瀏覽過

Hadoop實作了一個分散式檔案系統(HadoopDistributedFileSystem),簡稱HDFS。超大資料集(largedataset)的應用程式。
最核心的設計就是:HDFS和MapReduce。 ##  Hadoop這個名字不是一個縮寫,而是一個虛構的名字。   Hadoop是一個能夠讓使用者輕鬆架構
和使用的分散式運算平台。使用者可以輕鬆地在Hadoop上開發和運行處理大量資料的應用程式。它主要有以下幾個優點:
  1、高可靠性Hadoop位元儲存和處理資料的能力值得人們信賴。   2、高擴展性Hadoop是在可用的電腦集簇間分配資料並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。   3、高效性Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。
  4、高容錯性Hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新指派。
  5、低成本與一體機、商用資料倉儲以及QlikView、YonghongZ-Suite等資料市集相比,hadoop是開源的,專案的軟體成本因此會大幅降低。
  Hadoop有一個用java語言寫的框架,因此運行在
Linux
生產平台上是非常理想的。 Hadoop上的應用程式也可以使用其他語言來編寫,例如C++。
  Hadoop大數據處理的意義  Hadoop得以在大數據處理應用中廣泛應用得益於其自身在資料擷取、變形和載入(ETL)方面上的天然優勢。 Hadoop的分散式架構,將大數據處理引擎盡可能的靠近存儲,對例如像ETL這樣的批次操作相對合適,因為類似這樣操作的批次結果可以直接走向存儲。 Hadoop的MapReduce功能實作了將單一任務打碎,並將片段任務(Map)送到多個節點上,之後再以單一資料集的形式載入(Reduce)到資料倉儲裡。   PHP中文網Hadoop學習路線資料:
  1、HadoopCommon:Hadoop系統最底層的一個模組,為Hadoop各子項目提供各種工具,如:
配置文件
和日誌操作等。
  2、HDFS:分散式檔案系統,提供高吞吐量的應用程式資料訪問,對外部客戶機而言,HDFS就像一個傳統的分級檔案系統。可以建立、刪除、移動或重新命名文件,等等。但是HDFS的架構是基於一組特定的節點所建構的(參見圖1),這是由它本身的特徵決定的。這些節點包括NameNode(僅一個),它在HDFS內部提供元資料服務;DataNode,它為HDFS提供儲存區塊。由於只存在一個NameNode,因此這是HDFS的缺點(單點失敗)。
  儲存在HDFS中的檔案被分成區塊,然後將這些區塊複製到多個電腦中(DataNode)。這與傳統的RAID架構大不相同。區塊的大小(通常為64MB)和複製的區塊數量在建立檔案時由客戶機決定。 NameNode可以控制所有檔案操作。 HDFS內部的所有通訊都基於標準的TCP/IP協定。
  3、MapReduce:一個分散式海量資料處理的軟體框架集計算群集。   4、Avro:dougcutting主持的RPC項目,主要負責資料的序列化
。有點類似Google的protobuf和Facebook的thr
ift。 avro用來做以後hadoop的RPC,讓hadoop的RPC模組通訊速度更快、資料結構更緊湊。   5、Hive:類似CloudBase,也是基於hadoop分散式運算平台上的提供datawarehouse的sql功能的一套軟體。使得儲存在hadoop裡面的大量資料的匯總,即席查詢簡化。 hive提供了一套QL的查詢語言,以sql為基礎,使用起來很方便。
  6、HBase:基於HadoopDistributedFileSystem,是一個開源的,基於列存儲模型的可擴展的分散式資料庫,支援大型表的儲存結構化資料。
  7、Pig:是一個平行計算的高階的資料流語言和執行框架,SQL-like語言,是在MapReduce上建構的一種高階查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,並且使用者可以定義自己的功能。
  8、ZooKeeper:Google的Chubby一個開源的實作。它是一個針對大型分散式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分散式同步、群組服務等。 ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。
  9、Chukwa:一個管理大型分散式系統的資料擷取系統由yahoo貢獻。
  10、Cassandra:無單點故障的可擴展的多主資料庫。
  11、Mahout:一個可擴展的機器學習和資料探勘庫。
  Hadoop設計之初的目標就定位於高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。到目前為止,Hadoop技術在網路領域已經得到了廣泛的運用。
  以上就是關於Hadoop是什麼及Hadoop學習路線的詳細介紹,想要了解更多關於Hadoop的新聞資訊,請關注大講台官網、微信等平台,大講台IT職業在線學習教育平台為您提供權威的大數據Hadoop培訓課程和視頻教程系統,透過大講台金牌講師在線錄製的第一套自適應Hadoop在線視頻課程系統,讓你快速掌握Hadoop從入門到精通大數據開發實戰技能。

以上是淺談Hadoop是什麼及其學習路線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板