大数据分析:结合Hadoop或ElasticMapReduce使用Hunk
作者 Jonathan Allen ,译者 张晓鹏 Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic MapReduce。 结合Hadoop使用Hunk Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可
作者 Jonathan Allen ,译者 张晓鹏
Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic MapReduce。
结合Hadoop使用Hunk
Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可以分布在成千上万个复制的节点上。接下来是MapReduce单元,它负责跟踪和管理被命名为map-reduce jobs的作业。
之前,开发者会用到Splunk Hadoop Connect (SHC)连接器。SHC通过常用的推模型(push model)来输出数据到Hadoop中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过Splunk来探测数据时,原始的数据会被吸收到Splunk Server来检索和处理。就像人们猜想的那样,这个过程并没有发挥出Hadoop计算能力的优势。
Hunk通过提供与Hadoop MapReduce节点协同工作的适配器来解决这个问题。Splunk的查询被转化成Hadoop MapReduce的作业,这些作业在Hadoop集群中处理,最终只有结果被取回到Splunk 服务器中进行分析和可视化。
通过这种方式,Hunk提供了抽象层,以便用户和开发者不需要关心怎么去写Hadoop MapReduce的作业。Hunk还能在MapReduce作业启动前就提供结果预览,以减少无用搜索的数量。
结合Elastic MapReduce使用Hunk
亚马逊的Elastic MapReduce可以看做是对Hadoop的补充,同时也是Hadoop的竞争者。EMR既可以运行在Hadoop HDFS集群上,也可以直接运行在AWS S3上。亚马逊宣称使用AWS S3的优势在于比HDFS集群更易于管理。
当运行Elastic MapReduce时,Hunk提供了相同的抽象层和预览功能,就像它在Hadoop上做的一样。所以从用户的观点来看,在Hadoop和EMR之间切换不会造成什么变化。
云上的Hunk
在云上托管Hunk的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对Hunk的运行实例进行手动配置以让它对应到正确的Hadoop或AWS集群上。
这个月的新版本里,Hunk的运行实例可以在AWS上进行自动化配置,这包括自动发现EMR数据源,这样Hunk实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk运行实例是按小时来计费。
虚索引(Virtual Indexes)
Hunk中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由Hunk来体现Hadoop和EMR集群处理的一种方式。从Splunk的用户界面上看,它们像是真正的索引,即使其数据处理是在map-reduce作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。
查看英文原文:Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Pandas は、さまざまな種類のデータ ファイルを簡単に読み取り、処理できる強力なデータ分析ツールです。その中でも、CSV ファイルは最も一般的でよく使用されるデータ ファイル形式の 1 つです。この記事では、Pandas を使用して CSV ファイルを読み取り、データ分析を実行する方法と、具体的なコード例を紹介します。 1. 必要なライブラリをインポートする まず、以下に示すように、Pandas ライブラリと必要になる可能性のあるその他の関連ライブラリをインポートする必要があります。 importpandasaspd 2. Pan を使用して CSV ファイルを読み取ります。

一般的なデータ分析手法: 1. 比較分析手法; 2. 構造分析手法; 3. クロス分析手法; 4. 傾向分析手法; 5. 因果分析手法; 6. 関連分析手法; 7. クラスター分析手法; 8 , 主成分分析法; 9. 散布分析法; 10. マトリックス分析法。詳細な紹介: 1. 比較分析手法: 2 つ以上のデータを比較分析して、相違点やパターンを見つける手法; 2. 構造分析手法: 全体の各部分と全体を比較分析する手法; 3. クロス分析手法、など。

前回の「データ サイエンティストが 95% の時間使用する 11 個の基本チャート」に続き、今日はデータ サイエンティストが 95% の時間使用する 11 個の基本ディストリビューションをお届けします。これらの分布をマスターすることで、データの性質をより深く理解し、データ分析や意思決定の際により正確な推論や予測を行うことができます。 1. 正規分布 正規分布はガウス分布としても知られ、連続確率分布です。平均 (μ) を中心、標準偏差 (σ) を幅とした対称な釣鐘型の曲線を持ちます。正規分布は、統計学、確率論、工学などの多くの分野で重要な応用価値があります。

今日のインテリジェント社会では、機械学習とデータ分析は、人々が大量のデータをより深く理解し、活用できるようになる不可欠なツールです。こうした分野でもGo言語は注目を集めているプログラミング言語となっており、その高速性と効率性から多くのプログラマーに選ばれています。この記事では、機械学習やデータ分析に Go 言語を使用する方法を紹介します。 1. 機械学習のエコシステム Go 言語は、Python や R ほど豊富ではありません。しかし、より多くの人が Go 言語を使い始めるにつれて、一部の機械学習ライブラリとフレームワークが

視覚化は、複雑なデータのパターンと関係を直感的でわかりやすい方法で伝えるための強力なツールです。これらはデータ分析において重要な役割を果たし、生データや従来の数値表現からは識別することが難しい洞察を提供します。視覚化は複雑なデータのパターンと関係を理解するために非常に重要です。データ内の情報を明らかにし、複雑なデータをより理解しやすく意味のあるものにするのに役立つ、最も重要で知っておくべき 11 のグラフを紹介します。 1. KSPlotKSPlot は分布の違いを評価するために使用されます。中心となるアイデアは、2 つの分布の累積分布関数 (CDF) 間の最大距離を測定することです。最大距離が小さいほど、同じ分布に属する可能性が高くなります。したがって、主に分布の差異を決定するための「システム」として解釈されます。

ECharts と PHP インターフェイスを使用して統計グラフのデータ分析と予測を実装する方法。データ分析と予測はさまざまな分野で重要な役割を果たします。データの傾向とパターンを理解し、将来の意思決定の参考にすることができます。 ECharts は、PHP インターフェイスを使用してデータを動的にロードして処理できる、豊富で柔軟なグラフ コンポーネントを提供するオープン ソース データ視覚化ライブラリです。この記事では、EChartsとphpインターフェースに基づいた統計グラフデータの分析と予測の実装方法を紹介し、提供します

PHP とブロックチェーンの完璧な組み合わせの探求 ブロックチェーン技術が成熟し、その応用範囲が拡大し続けるにつれて、人々は従来のプログラミング言語とブロックチェーンを組み合わせて、より多くの種類のアプリケーションを実現しようと試み始めています。これに関連して、広く使用されているネットワーク プログラミング言語としての PHP 言語も、ブロックチェーン テクノロジーとの組み合わせを検討し始めています。この記事では、PHP 言語とブロックチェーン テクノロジの組み合わせに焦点を当て、読者がよりよく理解できるように具体的なコード例を示します。ブロックチェーンとは何ですか?まず、しましょう

1. このレッスンでは、Excel の統合データ分析について説明します。ケースを通して完成させます。教材を開いて、セル E2 をクリックして数式を入力します。 2. 次に、セル E53 を選択して、以下のすべてのデータを計算します。 3. 次に、セル F2 をクリックし、計算する数式を入力します。同様に、下にドラッグすると、必要な値を計算できます。 4. セル G2 を選択し、「データ」タブをクリックし、「データ検証」をクリックして、選択して確認します。 5. 同じ方法を使用して、計算が必要な下のセルを自動的に入力してみましょう。 6. 次に、実際の賃金を計算し、セル H2 を選択して数式を入力します。 7. 次に、値のドロップダウン メニューをクリックして、他の数値をクリックします。
