前序：

基于hadoop集群下海量离线数据存储和挖掘分析架构：

1、数据存储层

2、集群架构层

3、分布式计算引擎层

4、算法合成层

5、数据可视化层

总结：

首頁

資料庫

mysql教程

ThinkinginBigDate（九）大数据hadoop集群下离线数据存储和挖掘

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:28 PM

hadoop 數據叢集

前序： 2月23日，在中关村，海淀黄庄丹棱街SOHO大厦好未来会议室，hadoop专家吴超大侠，分享使用hadoop进行论坛日志分析。在回来的第二天，赶上了这次草根面对面交流。说是草根，像我这样的是草根，其余的都是大侠。在这一次交流中，主要是针对初级想了解had

前序：

2月23日，在中关村，海淀黄庄丹棱街SOHO大厦好未来会议室，hadoop专家吴超大侠，分享使用hadoop进行论坛日志分析。在回来的第二天，赶上了这次草根面对面交流。说是草根，像我这样的是草根，其余的都是大侠。在这一次交流中，主要是针对初级想了解hadoop的人员的，主要讲的内容，在我的上一篇Thinking in BigDate（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解博客中基本都有所涉及。这里我们又为什么又费言说这么多，只有一个目的，从这里你可以获得扩展你知识的另一个途径。

这段时间一直忙着，架构图的梳理与后期项目该如何开展，以及自己的学习状况。虽然看上去很简单的一个架构图，其实它需要你了解其中每一个点。我记得上次July和夏粉来北航讲座，July说到一句话：当你把你知道的东西，写下来，让人看明白是一种境界；当你能把自己写下来的东西给人讲明白，又是另一种境界。在这个过程中，我们都需要历练。虽然自己写博客并没有太长的时间，但是我深知吴超大侠、July的痛苦，说明白点，博客就是一件太耽误时间的事，而选择权在你手上。就这样还有人一直傻二愣的的再写。

基于hadoop集群下海量离线数据存储和挖掘分析架构：

架构图采用主流的Hadoop+Hive+Hbase集群架构平台。最简单的利用，包含了基本的基于hadoop集群下的日志分析过程。但此架构图，又不仅局限于简单的基于日志数据处理。我们可以把它定位到，把基于传统数据挖掘技术，移植到Hadoop集群平台上，提高计算效率，节省时间，降低开发成本。说到这里就必须多说一点，传统数据挖掘和基于Hadoop集群下的数据分析过程有什么区别？

我想这也是一直困扰大家的问题。旁人看热闹，行人看门道。把基于传统数据挖掘的过程移植到hadoop集群中，好在哪儿？问题在于：传统数据挖掘过程，基于单机或放在内存比较大的小型机上去跑数据，去建模型，7-8GB的数据，在参数不多的情况下，建模的过程，我想稍微熟悉建模过程的人，会有一个时间上的概念，10几个小时或者上天已经是好的了。太耗时了，太耽误时间了。而当数据越来越大，就面临这一瓶颈。自此，分布式的概念提出来了，分布式出来了，自然就会引入集群的概念。集群就是一群机器处理一个问题，或集群中不同的机器处理不同阶段的问题。除此时间问题之外，还有什么优势？其实，也一直困扰着我，我一有机会就会向那些大牛去请教，还有什么优点，他们也是堂堂不知其所言。

这里再多说两句还有什么优势：1、非关系型数据（Nosql），类日志文件数据。2、实时性。但这两点又不是传统数据挖掘的核心。其实，一个时间节省的问题，就足可以为之探究了。

这里没有采用现主流基于内存计算引擎Spark集群架构。后续如有涉及，再细讨论。

1、数据存储层

功能：数据收集、处理、存储、装载

包含：数据集成、ETL、数据仓库

工具：Sqoop、Flume、Kettle、Hive。

简介：

(1)Sqoop：数据收集工具，用于把相关数据导入Hadoop集群中。

(2)Flume:分布式日志收集工具，适用于网站、服务器等日志文件的收集。

(3)Kettle：一种开源免费的ETL工具。还有很多收费的ETL工具。在中国这都免费。

(4)Hive：基于Hadoop集群架构下的数据仓库的建立工具。主要是为了，类SQL与SQL之间的转换。

数据存储层，是前提。而前提的前提，就是数据的收集与ETL，在前面的博客中提到前期数据搜集和ETL过程可能会占整个项目工程的75%甚至以上的时间。可见，前期的工作多么的重要，没有前面，后面无从谈起。

2、集群架构层

功能：离线数据分析系统

核心：大数据存储和集群系统：Hive0.12.0 & Hadoop2.2.0 & HBase0.96.1

简介：

(1)Hadoop:开源集群分布式架构平台。2.2.0为最新版本。

(2)HBase：面向列的分布式数据库，适合构建低并发延时性数据服务系统。

(3)HDFS：分布式文件系统，是海量数据存储的标准。

集群架构层：说的是，也是集群平台的核心。我们常说的搭建hadoop平台，一般指的就是Hive+Hadoop+HBase。这需要自己去按照说明文档，在linux下搭建平台。其实，在我们配置Hadoop相关系统文件的时候，我们已经可以测试数据了，我们可以通过上传一个不是很大数据，测试hadoop是否运行成功。HBase+Hive是为大数据处理准备的。这里不介绍如何去配置系统文件，综合网上相关的文档，配置安装应该都没有问题。

目的在于，梳理一下整个大数据挖掘整体的流程。在脑海里梳理一下，有一张架构图。

3、分布式计算引擎层

功能：针对密集型数据计算

核心：Yarn、MapReduce

简介：

(1)Yarn：分布式资源管理框架，也可以理解为管理类MapReduce这种分布式处理平台的框架。

(2)Map/Reduce：基于密集型离线数据分析框架。这区别于现在很火的基于内存数据处理的Spark架构。

这里可能涉及到数据处理的过程，在上一篇博客中，谈到MapReduce的内部机理。其实就是把数据分块分发到不同机器上并发处理数据，最后把处理完的数据整合到一起，输出。其实看似简单，细分到每一块，我们就会看到，数据是如何在单机上去走的。这里逃不掉到的是数据还是一行行的读取，你也没有别的办法。这里你要做的工作就是，去写MapReduce函数，这个是根据数据的类型，业务需求，去写相应的函数。

4、算法合成层

功能：集成数据挖掘算法

核心：HiveQL、R语言、Mahout

简介：

(1)HiveQL：上面提到，类SQL，这也是选择Hive的原因，有利于传统数据库操作员到NoSql数据库操作之间的转型。

(2)R语言：主要用与统计分析、绘图的语言等。提供了一套完整的数据处理、计算和制图软件系统，也为下面的数据可视化提供了前提。

(3)Mahout：主要是集成机器学习等相关经典算法的实现。可以更有效的提供，挖掘数据背后隐藏的规律。

算法合成层，其实是数据挖掘，数据规律之间挖掘的核心。通过这些经典的或优化过的算法，为我们在海量数据面前，挖掘出有用价值的数据提供了方面。如果大家，了解一些数据挖掘和机器学习的一些内容的话，我们会知道两个概念：一、训练集。二、测试集。这里我们也会更多的提到建模，而构建模型的两个范畴就是，构建训练集合测试集的过程。训练集，是把原始数据抽取一部分用来构建模型，找到其中的一些规律。然后用剩下的数据，当测试集，去测试模型构建的准确率。其实更深入讨论一下，我们就会面临一个业界头疼的问题，准确率问题。因为我们所有的测试都是针对线下的数据去构建模型，这种方式对离线数据分析没有太大的影响，原因在于：离线数据，是不可变的，在很大情况下满足，在训练集测试的规律满足测试集的规律。而在更多的情况下，如基于实时线上数据的机器学习，这要求就非常的高了。这就会遇到一个通用的诟病：如何解决线下测试准确了极高的模型，如何保证在线上准确率却很差。他们给出的办法：就是没有办法，调参数，不断的测试，提高准确率。

这里不再多说，先梳理整个架构。

5、数据可视化层

其实上面已经讲到了一个可视化集成工具，就是R语言。当我们把通过Hadoop集群，业务梳理后的数据再写回HDFS中时候，这些数据有些已经是有规律的数据了。有些数据是提取出来制作报表、饼图或柱状图等。其实对上面已经处理完的数据还有下一步的处理过程就是：把HDFS或Hive数据仓库中的数据导入传统关系型数据库。用传统可视化工具进行展示，这是目前很主流的方法。当数据导入传统关系型数据库中，最后一步就是BI，传统BI。大家都在忙着吵大数据概念，可不要把传统的优势忘记，不然也只是丢了西瓜，捡了芝麻。

说了这么多废话，其实就是为了引出，基于传统离线数据存储和挖掘架构图。这是为我们自己接下来的工作，提前梳理好要做的内容。

（自己梳理的过程）

总结：

最近一段时间，一直在整理技术核心架构，一方面为写策划方案；一方面是为了接下来学习打下基础。上面的架构图基本已经涉及基于传统数据挖掘移植到Hadoop集群的一些流程。为不清楚或初学者提供一个解决方案，知道一个流程应该从哪方面入手。对于熟悉整个流程的Hadoop工程师来说，可能上面的工作是多此一举。但是能整理出来，在时间上的消费，为后来者提供一个解决方案，自是一件好事。

自己也是作为一个初学者。还有时间，也愿意抽出时间，把最近一段时间的学习整理一下，是为了积累。如有不足，后续改正。

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1653

CakePHP 教程

1413

Laravel 教程

1306

PHP教程

1251

C# 教程

1224

Related knowledge

使用ddrescue在Linux上恢復數據 Mar 20, 2024 pm 01:37 PM

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備，留下損壞的資料區塊，只移動好的資料區塊。 ddreasue是一種強大的恢復工具，完全自動化，因為它在恢復操作期間不需要任何干擾。此外，由於有了ddasue地圖文件，它可以隨時停止和恢復。 DDREASE的其他主要功能如下：它不會覆寫恢復的數據，但會在迭代恢復的情況下填補空白。但是，如果指示工具明確執行此操作，則可以將其截斷。將資料從多個檔案或區塊還原到單

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

如何多條件使用Excel過濾功能 Feb 26, 2024 am 10:19 AM

如果您需要了解如何在Excel中使用具有多個條件的篩選功能，以下教學將引導您完成對應步驟，確保您可以有效地篩選資料和排序資料。 Excel的篩選功能是非常強大的，能夠幫助您從大量資料中提取所需的資訊。這個功能可以根據您設定的條件，過濾資料並只顯示符合條件的部分，讓資料的管理變得更有效率。透過使用篩選功能，您可以快速找到目標數據，節省了尋找和整理數據的時間。這個功能不僅可以應用在簡單的資料清單上，還可以根據多個條件進行篩選，幫助您更精準地定位所需資訊。總的來說，Excel的篩選功能是一個非常實用的

Google狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow，7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中，Pytorch依然比Tensorflow更受歡迎。但未來，也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近，Keras團隊為三個後端（TensorFlow、JAX、PyTorch）與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先，他們為生成式和非生成式人工智慧任務選擇了一組主流

iPhone上的蜂窩數據網路速度慢：修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後，緩慢的行動數據連線？通常，手機上蜂窩互聯網的強度取決於幾個因素，例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時，強制重啟設備只會重置許多內容，包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來，按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度，但在訊號較弱

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

阿里7B多模態文件理解大模型拿下新SOTA Apr 02, 2024 am 11:31 AM

多模態文件理解能力新SOTA！阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5，針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰，提出了一系列解決方案。話不多說，先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式：不同樣式的圖表都可以：更細節的文字識別和定位也能輕鬆搞定：還能對文檔理解給出詳細解釋：要知道，“文檔理解”目前是大語言模型實現落地的一個重要場景，市面上有許多輔助文檔閱讀的產品，有的主要透過OCR系統進行文字識別，配合LLM進行文字理

超級智能體生命力覺醒！可自我更新的AI來了，媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂煉大模型，一網路的資料不夠用，根本不夠用。訓練模型搞得跟《飢餓遊戲》似的，全球AI研究者，都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中，這問題尤其突出。一籌莫展之際，來自人大系的初創團隊，用自家的新模型，率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下，兩側都能產生高品質、多模態的新數據，對模型本身進行數據反哺。模型是啥？中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰？智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立，高

See all articles

ThinkinginBigDate（九）大数据hadoop集群下离线数据存储和挖掘

前序：

基于hadoop集群下海量离线数据存储和挖掘分析架构：

1、数据存储层

2、集群架构层

3、分布式计算引擎层

4、算法合成层

5、数据可视化层

总结：

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題