Heim Datenbank MySQL-Tutorial 大数据分析:结合Hadoop或ElasticMapReduce使用Hunk

大数据分析:结合Hadoop或ElasticMapReduce使用Hunk

Jun 07, 2016 pm 04:10 PM
hadoop 数据分析 结合

作者 Jonathan Allen ,译者 张晓鹏 Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic MapReduce。 结合Hadoop使用Hunk Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可

作者 Jonathan Allen ,译者 张晓鹏

Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic MapReduce。

结合Hadoop使用Hunk

Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可以分布在成千上万个复制的节点上。接下来是MapReduce单元,它负责跟踪和管理被命名为map-reduce jobs的作业。

之前,开发者会用到Splunk Hadoop Connect (SHC)连接器。SHC通过常用的推模型(push model)来输出数据到Hadoop中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过Splunk来探测数据时,原始的数据会被吸收到Splunk Server来检索和处理。就像人们猜想的那样,这个过程并没有发挥出Hadoop计算能力的优势。

Hunk通过提供与Hadoop MapReduce节点协同工作的适配器来解决这个问题。Splunk的查询被转化成Hadoop MapReduce的作业,这些作业在Hadoop集群中处理,最终只有结果被取回到Splunk 服务器中进行分析和可视化。

通过这种方式,Hunk提供了抽象层,以便用户和开发者不需要关心怎么去写Hadoop MapReduce的作业。Hunk还能在MapReduce作业启动前就提供结果预览,以减少无用搜索的数量。

结合Elastic MapReduce使用Hunk

亚马逊的Elastic MapReduce可以看做是对Hadoop的补充,同时也是Hadoop的竞争者。EMR既可以运行在Hadoop HDFS集群上,也可以直接运行在AWS S3上。亚马逊宣称使用AWS S3的优势在于比HDFS集群更易于管理。

当运行Elastic MapReduce时,Hunk提供了相同的抽象层和预览功能,就像它在Hadoop上做的一样。所以从用户的观点来看,在Hadoop和EMR之间切换不会造成什么变化。

云上的Hunk

在云上托管Hunk的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对Hunk的运行实例进行手动配置以让它对应到正确的Hadoop或AWS集群上。

这个月的新版本里,Hunk的运行实例可以在AWS上进行自动化配置,这包括自动发现EMR数据源,这样Hunk实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk运行实例是按小时来计费。

虚索引(Virtual Indexes)

Hunk中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由Hunk来体现Hadoop和EMR集群处理的一种方式。从Splunk的用户界面上看,它们像是真正的索引,即使其数据处理是在map-reduce作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。

查看英文原文:Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce


Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1664
14
PHP-Tutorial
1268
29
C#-Tutorial
1246
24
Lesen Sie CSV-Dateien und führen Sie eine Datenanalyse mit Pandas durch Lesen Sie CSV-Dateien und führen Sie eine Datenanalyse mit Pandas durch Jan 09, 2024 am 09:26 AM

Pandas ist ein leistungsstarkes Datenanalysetool, das verschiedene Arten von Datendateien problemlos lesen und verarbeiten kann. Unter diesen sind CSV-Dateien eines der gebräuchlichsten und am häufigsten verwendeten Datendateiformate. In diesem Artikel wird erläutert, wie Sie mit Pandas CSV-Dateien lesen und Datenanalysen durchführen, und es werden spezifische Codebeispiele bereitgestellt. 1. Importieren Sie die erforderlichen Bibliotheken. Zuerst müssen wir die Pandas-Bibliothek und andere möglicherweise benötigte verwandte Bibliotheken importieren, wie unten gezeigt: importpandasaspd 2. Lesen Sie die CSV-Datei mit Pan

Einführung in Datenanalysemethoden Einführung in Datenanalysemethoden Jan 08, 2024 am 10:22 AM

Gängige Datenanalysemethoden: 1. Vergleichende Analysemethode; 3. Methode der Trendanalyse; , Hauptkomponentenanalysemethode 9. Streuanalysemethode; 10. Matrixanalysemethode; Detaillierte Einführung: 1. Vergleichende Analysemethode: Vergleichende Analyse von zwei oder mehr Daten, um die Unterschiede und Muster zu finden. 2. Strukturelle Analysemethode: Eine Methode zur vergleichenden Analyse zwischen jedem Teil des Ganzen , usw.

11 Grundverteilungen, die Datenwissenschaftler in 95 % der Fälle verwenden 11 Grundverteilungen, die Datenwissenschaftler in 95 % der Fälle verwenden Dec 15, 2023 am 08:21 AM

Im Anschluss an die letzte Bestandsaufnahme von „11 Basisdiagramme, die Datenwissenschaftler in 95 % der Zeit verwenden“ stellen wir Ihnen heute 11 Basisverteilungen vor, die Datenwissenschaftler in 95 % der Zeit verwenden. Die Beherrschung dieser Verteilungen hilft uns, die Natur der Daten besser zu verstehen und bei der Datenanalyse und Entscheidungsfindung genauere Schlussfolgerungen und Vorhersagen zu treffen. 1. Normalverteilung Die Normalverteilung, auch Gaußsche Verteilung genannt, ist eine kontinuierliche Wahrscheinlichkeitsverteilung. Es hat eine symmetrische glockenförmige Kurve mit dem Mittelwert (μ) als Mittelpunkt und der Standardabweichung (σ) als Breite. Die Normalverteilung hat in vielen Bereichen wie Statistik, Wahrscheinlichkeitstheorie und Ingenieurwesen einen wichtigen Anwendungswert.

Verwendung von ECharts und PHP-Schnittstellen zur Implementierung der Datenanalyse und Vorhersage statistischer Diagramme Verwendung von ECharts und PHP-Schnittstellen zur Implementierung der Datenanalyse und Vorhersage statistischer Diagramme Dec 17, 2023 am 10:26 AM

Verwendung von ECharts und PHP-Schnittstellen zur Implementierung der Datenanalyse und Vorhersage statistischer Diagramme. Datenanalyse und -vorhersage spielen in verschiedenen Bereichen eine wichtige Rolle. Sie können uns helfen, die Trends und Muster von Daten zu verstehen und Referenzen für zukünftige Entscheidungen bereitzustellen. ECharts ist eine Open-Source-Datenvisualisierungsbibliothek, die umfangreiche und flexible Diagrammkomponenten bereitstellt, die mithilfe der PHP-Schnittstelle Daten dynamisch laden und verarbeiten können. In diesem Artikel wird die Implementierungsmethode der statistischen Diagrammdatenanalyse und -vorhersage basierend auf ECharts und der PHP-Schnittstelle vorgestellt und bereitgestellt

Maschinelles Lernen und Datenanalyse mit der Go-Sprache Maschinelles Lernen und Datenanalyse mit der Go-Sprache Nov 30, 2023 am 08:44 AM

In der heutigen intelligenten Gesellschaft sind maschinelles Lernen und Datenanalyse unverzichtbare Werkzeuge, die den Menschen helfen können, große Datenmengen besser zu verstehen und zu nutzen. Auch in diesen Bereichen hat sich die Go-Sprache zu einer Programmiersprache entwickelt, die aufgrund ihrer Geschwindigkeit und Effizienz die erste Wahl vieler Programmierer ist. In diesem Artikel wird die Verwendung der Go-Sprache für maschinelles Lernen und Datenanalyse vorgestellt. 1. Das Ökosystem der Go-Sprache für maschinelles Lernen ist nicht so reichhaltig wie Python und R. Da jedoch immer mehr Menschen beginnen, es zu verwenden, gibt es einige Bibliotheken und Frameworks für maschinelles Lernen

11 erweiterte Visualisierungen für Datenanalyse und maschinelles Lernen 11 erweiterte Visualisierungen für Datenanalyse und maschinelles Lernen Oct 25, 2023 am 08:13 AM

Visualisierung ist ein leistungsstarkes Werkzeug, um komplexe Datenmuster und Beziehungen auf intuitive und verständliche Weise zu kommunizieren. Sie spielen eine wichtige Rolle bei der Datenanalyse und liefern Erkenntnisse, die aus Rohdaten oder herkömmlichen numerischen Darstellungen oft nur schwer zu erkennen sind. Visualisierung ist für das Verständnis komplexer Datenmuster und -beziehungen von entscheidender Bedeutung. Wir stellen die 11 wichtigsten und unverzichtbarsten Diagramme vor, die dabei helfen, die Informationen in den Daten offenzulegen und komplexe Daten verständlicher und aussagekräftiger zu machen. 1. KSPlotKSPlot wird zur Bewertung von Verteilungsunterschieden verwendet. Die Kernidee besteht darin, den maximalen Abstand zwischen den kumulativen Verteilungsfunktionen (CDF) zweier Verteilungen zu messen. Je kleiner der maximale Abstand, desto wahrscheinlicher ist es, dass sie zur gleichen Verteilung gehören. Daher wird es hauptsächlich als „System“ zur Bestimmung von Verteilungsunterschieden interpretiert.

Welche Datenanalyse-Websites werden empfohlen? Welche Datenanalyse-Websites werden empfohlen? Mar 13, 2024 pm 05:44 PM

Empfohlen: 1. Wirtschaftsforum des Volkskongresses – Bereich Ökonometrie und Statistik; 4. Forum für Datenanalyse; . Datenanalyse; 8. Data Mining Research Institute; 9. S-PLUS, R Statistikforum.

Entdecken Sie die perfekte Kombination aus PHP und Blockchain Entdecken Sie die perfekte Kombination aus PHP und Blockchain Mar 27, 2024 pm 02:12 PM

Erforschung der perfekten Kombination von PHP und Blockchain Mit zunehmender Reife der Blockchain-Technologie und zunehmendem Anwendungsbereich beginnen Menschen, traditionelle Programmiersprachen mit Blockchain zu kombinieren, um mehr Arten von Anwendungen zu erreichen. In diesem Zusammenhang hat die PHP-Sprache als weit verbreitete Netzwerkprogrammiersprache auch damit begonnen, ihre Kombination mit der Blockchain-Technologie zu erforschen. Dieser Artikel konzentriert sich auf die Kombination von PHP-Sprache und Blockchain-Technologie und beinhaltet spezifische Codebeispiele, damit die Leser sie besser verstehen können. Was ist Blockchain? Lassen Sie uns zunächst einmal

See all articles