大数据分析:结合Hadoop或ElasticMapReduce使用Hunk
作者 Jonathan Allen ,译者 张晓鹏 Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic MapReduce。 结合Hadoop使用Hunk Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可
作者 Jonathan Allen ,译者 张晓鹏
Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic MapReduce。
结合Hadoop使用Hunk
Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可以分布在成千上万个复制的节点上。接下来是MapReduce单元,它负责跟踪和管理被命名为map-reduce jobs的作业。
之前,开发者会用到Splunk Hadoop Connect (SHC)连接器。SHC通过常用的推模型(push model)来输出数据到Hadoop中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过Splunk来探测数据时,原始的数据会被吸收到Splunk Server来检索和处理。就像人们猜想的那样,这个过程并没有发挥出Hadoop计算能力的优势。
Hunk通过提供与Hadoop MapReduce节点协同工作的适配器来解决这个问题。Splunk的查询被转化成Hadoop MapReduce的作业,这些作业在Hadoop集群中处理,最终只有结果被取回到Splunk 服务器中进行分析和可视化。
通过这种方式,Hunk提供了抽象层,以便用户和开发者不需要关心怎么去写Hadoop MapReduce的作业。Hunk还能在MapReduce作业启动前就提供结果预览,以减少无用搜索的数量。
结合Elastic MapReduce使用Hunk
亚马逊的Elastic MapReduce可以看做是对Hadoop的补充,同时也是Hadoop的竞争者。EMR既可以运行在Hadoop HDFS集群上,也可以直接运行在AWS S3上。亚马逊宣称使用AWS S3的优势在于比HDFS集群更易于管理。
当运行Elastic MapReduce时,Hunk提供了相同的抽象层和预览功能,就像它在Hadoop上做的一样。所以从用户的观点来看,在Hadoop和EMR之间切换不会造成什么变化。
云上的Hunk
在云上托管Hunk的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对Hunk的运行实例进行手动配置以让它对应到正确的Hadoop或AWS集群上。
这个月的新版本里,Hunk的运行实例可以在AWS上进行自动化配置,这包括自动发现EMR数据源,这样Hunk实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk运行实例是按小时来计费。
虚索引(Virtual Indexes)
Hunk中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由Hunk来体现Hadoop和EMR集群处理的一种方式。从Splunk的用户界面上看,它们像是真正的索引,即使其数据处理是在map-reduce作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。
查看英文原文:Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Pandas是一個強大的資料分析工具,可以輕鬆讀取和處理各種類型的資料檔案。其中,CSV檔案是最常見且常用的資料檔案格式之一。本文將介紹如何使用Pandas讀取CSV檔案並進行資料分析,同時提供具體的程式碼範例。一、導入必要的函式庫首先,我們需要導入Pandas函式庫和其他可能需要的相關函式庫,如下所示:importpandasaspd二、讀取CSV檔使用Pan

常見的資料分析方法:1、對照分析法;2、結構分析法;3、交叉分析法;4、趨勢分析法;5、因果分析法;6、關聯分析法;7、聚類分析法;8 、主成分分析法;9、散點分析法;10、矩陣分析法。詳細介紹:1、對照分析法:將兩個或兩個以上的資料進行比較分析,找出其中的差異與規律;2、結構分析法:對總體內各部分與總體進行比較分析的方法;3、交叉分析法等等。

繼上次盤點《資料科學家95%的時間都在使用的11個基本圖表》之後,今天將為大家帶來資料科學家95%的時間都在使用的11個基本分佈。掌握這些分佈,有助於我們更深入地理解數據的本質,並在數據分析和決策過程中做出更準確的推論和預測。 1.常態分佈常態分佈(NormalDistribution),也被稱為高斯分佈(GaussianDistribution),是一種連續型機率分佈。它具有一個對稱的鐘形曲線,以平均值(μ)為中心,標準差(σ)為寬度。常態分佈在統計學、機率論、工程學等多個領域具有重要的應用價值。

在當今智慧化的社會中,機器學習和數據分析是必不可少的工具,能夠幫助人們更好地理解和利用大量的數據。而在這些領域中,Go語言也成為了備受關注的程式語言,它的速度和效率使它成為了許多程式設計師的選擇。本文介紹如何使用Go語言進行機器學習和資料分析。一、機器學習Go語言的生態系統並不像Python和R那樣豐富,但是,隨著越來越多的人開始使用它,一些機器學習庫和框架

視覺化是一種強大的工具,用於以直觀和可理解的方式傳達複雜的數據模式和關係。它們在數據分析中發揮著至關重要的作用,提供了通常難以從原始數據或傳統數位表示中辨別出來的見解。視覺化對於理解複雜的數據模式和關係至關重要,我們將介紹11個最重要且必須知道的圖表,這些圖表有助於揭示數據中的信息,使複雜數據更加可理解和有意義。 1.KSPlotKSPlot用來評估分佈差異。其核心思想是測量兩個分佈的累積分佈函數(CDF)之間的最大距離。最大距離越小,它們越有可能屬於同一分佈。所以它主要被解釋為確定分佈差異的「統

如何利用ECharts和php介面實現統計圖的資料分析和預測資料分析和預測在各個領域中扮演著重要角色,它們能夠幫助我們理解資料的趨勢和模式,為未來的決策提供參考。 ECharts是一款開源的資料視覺化函式庫,它提供了豐富且靈活的圖表元件,可以透過使用php介面來實現資料的動態載入和處理。本文將介紹基於ECharts和php介面的統計圖資料分析和預測的實作方法,並提供

1.本課我們進行講解整合Excel資料分析,我們透過一個案例進行完成,開啟課程素材點選E2儲存格進行輸入公式。 2.我們再進行選取到儲存格E53,就可以將下面的資料都計算出來。 3.然後我們點選F2單元格,然後我們輸入公式就可以計算出,同樣向下拖曳都可以計算出我們要的數值。 4.我們選取G2儲存格點選資料標籤點選資料驗證,進行選擇然後確定。 5.我們再使用相同方式進行下拉自動填入下面需要計算的儲存格。 6.接下來我們計算實發工資,選取H2儲存格進行輸入公式。 7.然後我們點選數值下拉選單進行點選其他數

探索PHP與區塊鏈的完美結合隨著區塊鏈技術的逐漸成熟和應用範圍的不斷拓展,人們開始嘗試將傳統的程式語言與區塊鏈結合,以實現更多種類的應用。在這樣的背景下,PHP語言作為一種廣泛應用的網路程式語言,也被人們開始探索與區塊鏈技術的結合。本文將圍繞PHP語言與區塊鏈技術的結合展開探討,其中將會涉及到具體的程式碼範例以便讀者更好地理解。什麼是區塊鏈?首先,讓我們
