大数据分析:结合Hadoop或ElasticMapReduce使用Hunk
作者 Jonathan Allen ,译者 张晓鹏 Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic MapReduce。 结合Hadoop使用Hunk Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可
作者 Jonathan Allen ,译者 张晓鹏
Hunk是Splunk公司一款比较新的产品,用来对Hadoop和其它NoSQL数据存储进行探测和可视化,它的新版本将会支持亚马逊的Elastic MapReduce。
结合Hadoop使用Hunk
Hadoop由两个单元组成,首先是被称为HDFS的存储单元,HDFS可以分布在成千上万个复制的节点上。接下来是MapReduce单元,它负责跟踪和管理被命名为map-reduce jobs的作业。
之前,开发者会用到Splunk Hadoop Connect (SHC)连接器。SHC通过常用的推模型(push model)来输出数据到Hadoop中,这块处理相当地好,但相反方向的处理却可能会有问题。当通过Splunk来探测数据时,原始的数据会被吸收到Splunk Server来检索和处理。就像人们猜想的那样,这个过程并没有发挥出Hadoop计算能力的优势。
Hunk通过提供与Hadoop MapReduce节点协同工作的适配器来解决这个问题。Splunk的查询被转化成Hadoop MapReduce的作业,这些作业在Hadoop集群中处理,最终只有结果被取回到Splunk 服务器中进行分析和可视化。
通过这种方式,Hunk提供了抽象层,以便用户和开发者不需要关心怎么去写Hadoop MapReduce的作业。Hunk还能在MapReduce作业启动前就提供结果预览,以减少无用搜索的数量。
结合Elastic MapReduce使用Hunk
亚马逊的Elastic MapReduce可以看做是对Hadoop的补充,同时也是Hadoop的竞争者。EMR既可以运行在Hadoop HDFS集群上,也可以直接运行在AWS S3上。亚马逊宣称使用AWS S3的优势在于比HDFS集群更易于管理。
当运行Elastic MapReduce时,Hunk提供了相同的抽象层和预览功能,就像它在Hadoop上做的一样。所以从用户的观点来看,在Hadoop和EMR之间切换不会造成什么变化。
云上的Hunk
在云上托管Hunk的传统方法是买一个标准版的许可证,然后部署到虚拟机中,这和你现场安装一样简单。接下来是对Hunk的运行实例进行手动配置以让它对应到正确的Hadoop或AWS集群上。
这个月的新版本里,Hunk的运行实例可以在AWS上进行自动化配置,这包括自动发现EMR数据源,这样Hunk实例可以在几分钟内上线使用。为了充分利用这个优势,Hunk运行实例是按小时来计费。
虚索引(Virtual Indexes)
Hunk中的有个关键概念是“虚索引(Virtual Indexes)”。这些索引已不同原本的意义,变成只是由Hunk来体现Hadoop和EMR集群处理的一种方式。从Splunk的用户界面上看,它们像是真正的索引,即使其数据处理是在map-reduce作业中完成的。并且,由于看起来像索引,你可以在它们之上创建持久的二级索引(persistent secondary indexes)。当你要处理部分数据,然后进一步检查或在多个方面可视化时,这个持久的二级索引会非常有用。
查看英文原文:Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Pandas ialah alat analisis data yang berkuasa yang boleh membaca dan memproses pelbagai jenis fail data dengan mudah. Antaranya, fail CSV ialah salah satu daripada format fail data yang paling biasa dan biasa digunakan. Artikel ini akan memperkenalkan cara menggunakan Panda untuk membaca fail CSV dan melakukan analisis data serta memberikan contoh kod khusus. 1. Import perpustakaan yang diperlukan Mula-mula, kita perlu mengimport perpustakaan Pandas dan perpustakaan lain yang berkaitan yang mungkin diperlukan, seperti yang ditunjukkan di bawah: importpandasaspd 2. Baca fail CSV menggunakan Pan

Kaedah analisis data biasa: 1. Kaedah analisis perbandingan 3. Kaedah analisis silang 5. Kaedah analisis sebab dan akibat , Kaedah analisis komponen utama 9. Kaedah analisis serakan 10. Kaedah analisis matriks. Pengenalan terperinci: 1. Kaedah analisis perbandingan: Analisis perbandingan dua atau lebih data untuk mencari perbezaan dan corak 2. Kaedah analisis struktur: Kaedah analisis perbandingan antara setiap bahagian keseluruhan dan keseluruhan; , dsb.

Berikutan inventori terakhir "11 Saintis Data Carta Asas Menggunakan 95% Masa", hari ini kami akan membawakan kepada anda 11 pengedaran asas yang digunakan oleh saintis data 95% daripada masa. Menguasai pengedaran ini membantu kami memahami sifat data dengan lebih mendalam dan membuat inferens dan ramalan yang lebih tepat semasa analisis data dan membuat keputusan. 1. Taburan Normal Taburan Normal, juga dikenali sebagai Taburan Gaussian, ialah taburan kebarangkalian berterusan. Ia mempunyai lengkung berbentuk loceng simetri dengan min (μ) sebagai pusat dan sisihan piawai (σ) sebagai lebar. Taburan normal mempunyai nilai aplikasi penting dalam banyak bidang seperti statistik, teori kebarangkalian, dan kejuruteraan.

Dalam masyarakat pintar hari ini, pembelajaran mesin dan analisis data merupakan alat yang sangat diperlukan yang boleh membantu orang ramai memahami dan menggunakan sejumlah besar data dengan lebih baik. Dalam bidang ini, bahasa Go juga telah menjadi bahasa pengaturcaraan yang telah menarik perhatian ramai. Artikel ini memperkenalkan cara menggunakan bahasa Go untuk pembelajaran mesin dan analisis data. 1. Ekosistem pembelajaran mesin bahasa Go tidak sekaya Python dan R. Walau bagaimanapun, apabila semakin ramai orang mula menggunakannya, beberapa perpustakaan dan rangka kerja pembelajaran mesin

Visualisasi ialah alat yang berkuasa untuk menyampaikan corak dan hubungan data yang kompleks dengan cara yang intuitif dan mudah difahami. Mereka memainkan peranan penting dalam analisis data, memberikan cerapan yang selalunya sukar untuk dibezakan daripada data mentah atau perwakilan berangka tradisional. Visualisasi adalah penting untuk memahami corak dan perhubungan data yang kompleks, dan kami akan memperkenalkan 11 carta paling penting dan mesti diketahui yang membantu mendedahkan maklumat dalam data dan menjadikan data kompleks lebih mudah difahami dan bermakna. 1. KSPlotKSPlot digunakan untuk menilai perbezaan taburan. Idea teras adalah untuk mengukur jarak maksimum antara fungsi pengedaran kumulatif (CDF) dua pengedaran. Semakin kecil jarak maksimum, semakin besar kemungkinan mereka tergolong dalam pengedaran yang sama. Oleh itu, ia terutamanya ditafsirkan sebagai "sistem" untuk menentukan perbezaan pengedaran.

Cara menggunakan antara muka ECharts dan PHP untuk melaksanakan analisis data dan ramalan carta statistik Analisis dan ramalan data memainkan peranan penting dalam pelbagai bidang. Ia boleh membantu kami memahami arah aliran dan corak data dan menyediakan rujukan untuk keputusan masa hadapan. ECharts ialah perpustakaan visualisasi data sumber terbuka yang menyediakan komponen carta yang kaya dan fleksibel yang boleh memuatkan dan memproses data secara dinamik dengan menggunakan antara muka PHP. Artikel ini akan memperkenalkan kaedah pelaksanaan analisis data carta statistik dan ramalan berdasarkan ECharts dan antara muka php, dan menyediakan

1. Dalam pelajaran ini, kami akan menerangkan analisis data Excel bersepadu Kami akan melengkapkannya melalui kes Buka bahan kursus dan klik pada sel E2 untuk memasukkan formula. 2. Kami kemudian memilih sel E53 untuk mengira semua data berikut. 3. Kemudian kita klik pada sel F2, dan kemudian kita masukkan formula untuk mengiranya Begitu juga, menyeret ke bawah boleh mengira nilai yang kita mahu. 4. Kami memilih sel G2, klik tab Data, klik Pengesahan Data, pilih dan sahkan. 5. Mari kita gunakan kaedah yang sama untuk mengisi secara automatik sel di bawah yang perlu dikira. 6. Seterusnya, kami mengira gaji sebenar dan pilih sel H2 untuk memasukkan formula. 7. Kemudian kita klik pada menu drop-down nilai untuk klik pada nombor lain.

Meneroka gabungan sempurna PHP dan blockchain Apabila teknologi blockchain semakin matang dan skop aplikasinya terus berkembang, orang ramai mula cuba menggabungkan bahasa pengaturcaraan tradisional dengan blockchain untuk mencapai lebih banyak jenis aplikasi. Dalam konteks ini, bahasa PHP, sebagai bahasa pengaturcaraan rangkaian yang digunakan secara meluas, juga telah mula meneroka gabungannya dengan teknologi blockchain. Artikel ini akan menumpukan pada gabungan bahasa PHP dan teknologi blockchain, yang akan melibatkan contoh kod khusus untuk lebih memahami pembaca. Apa itu blockchain? Mula-mula, mari
