Hadoop的Secondary Sorting-mysql教程-PHP中文網

首頁

資料庫

mysql教程

Hadoop的Secondary Sorting

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:35 PM

hadoop

这几天项目中使用Hadoop遇到一个问题，对于这样key-value的数据集合：id-biz object，对id进行partition（比如根据某特定的hash算法P），分为a份；使用数量为b的reducer，在reducer里面要使用第三方组件进行批量上传；上传成文件，文件数量为c，但是有两个要

Hadoop的Secondary Sorting 这几天项目中使用Hadoop遇到一个问题，对于这样key-value的数据集合：id-biz object，对id进行partition（比如根据某特定的hash算法P），分为a份；使用数量为b的reducer，在reducer里面要使用第三方组件进行批量上传；上传成文件，文件数量为c，但是有两个要求：

上述a、b、c都相等，从而使得每个partition的数据最终都通过同一个reducer上传到同一个文件中去；
每个reducer中上传的数据要求id必须有序。

最开始，想到的办法是，为了保证reducer中的批量上传，需要使得传入reducer的key变成一个经过hash算法A计算得到的index，这样就使得reducer中的value是一个包含了数个biz boject的集合的iterator，从而实现在一次reducer调用中批量上传并且提交。在批量上传提交的过程中，按照每上限个（例如1000个）文件提交一次的办法进行，以保证内存占用控制在一定范围内。

如何保证有序？

Hadoop在Reduce之前会自动对key排序，但是上述的情况实际是要根据id来给value排序（因为在map之后key已经变成index了），凡是涉及到要给value排序的，都要使用Hadoop的Secondary Sorting（见stackoverflow链接）。

Hadoop的Secondary Sorting

这张图其实已经可以说明，把value要排序的关键属性放到key里面去，这样key就变成了natural key（上述的index）和secondary key（上述的id）这样两部分组成的一个composite key。

1. Partition：Partition的时候仅使用natural key，保证所有index的数据都分在同一个partition；

JobConf.setPartitionClass(...);

登入後複製

2. Sort：真正给key排序的比较算法要对natural key和secondary key两部分进行排序，从而保证了key在id维度上是有序的，而id和value是一一对应的，因此value也就是有序的。

JobConf.setOutputKeyComparatorClass(...);

登入後複製

3. Group：grouping的比较算法忽略掉secondary key，只对natural keygrouping，使得属于同一index的数据都走到同一个reducer中去。

JobConf.setOutputValueGroupingComparatorClass(...);

登入後複製

总结一下，这样一来，在reducer中，input key是上述这样一个composite key对象，包含了index和id，input value是一个可以遍历的元素为原始biz object类型的对象。

后话：这是Secondary Sorting的过程，可以解决我的问题，但是后来发现，实际上，我的问题并不需要要用这样啰嗦的方式来解决：

进入reducer的key只需要是id，Hadoop会对key自动排序；
partition策略不变，但是是在partitioner中计算index并根据它来partition；
不需要单独指定Grouping和Sorting的算法；
在reducer中建立一个大小为上限（如1000个）的容器对象p。

这样，既然对于每个partition的数据，都在同一个reducer中得到处理，而reducer中每次reduce方法彼此之间是根据id有序进行，那么就可以在每次调用时把数据放到p中，在p放满时提交一次即可。

测试通过。回头看看，真是刚开始的时候把问题想复杂了。

文章未经特殊标明皆为本人原创，未经许可不得用于任何商业用途，转载请保持完整性并注明来源链接《四火的唠叨》

你可能也喜欢：

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1669

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

Related knowledge

Java錯誤：Hadoop錯誤，如何處理與避免 Jun 24, 2023 pm 01:06 PM

Java錯誤：Hadoop錯誤，如何處理和避免使用Hadoop處理大數據時，常常會遇到一些Java異常錯誤，這些錯誤可能會影響任務的執行，導致資料處理失敗。本文將介紹一些常見的Hadoop錯誤，並提供處理和避免這些錯誤的方法。 Java.lang.OutOfMemoryErrorOutOfMemoryError是Java虛擬機器記憶體不足的錯誤。當Hadoop任

如何使用PHP和Hadoop進行大數據處理 Jun 19, 2023 pm 02:24 PM

隨著資料量的不斷增大，傳統的資料處理方式已經無法處理大數據時代所帶來的挑戰。 Hadoop是開源的分散式運算框架，它透過分散式儲存和處理大量的數據，解決了單節點伺服器在大數據處理中帶來的效能瓶頸問題。 PHP是一種腳本語言，廣泛應用於Web開發，而且具有快速開發、易於維護等優點。本文將介紹如何使用PHP和Hadoop進行大數據處理。什麼是HadoopHadoop是

在Beego中使用Hadoop和HBase進行大數據儲存和查詢 Jun 22, 2023 am 10:21 AM

隨著大數據時代的到來，資料處理和儲存變得越來越重要，如何有效率地管理和分析大量的資料也成為企業面臨的挑戰。 Hadoop和HBase作為Apache基金會的兩個項目，為大數據儲存和分析提供了一個解決方案。本文將介紹如何在Beego中使用Hadoop和HBase進行大數據儲存和查詢。一、Hadoop和HBase簡介Hadoop是一個開源的分散式儲存和運算系統，它可

探索Java在大數據領域的應用：Hadoop、Spark、Kafka等技術堆疊的了解 Dec 26, 2023 pm 02:57 PM

Java大數據技術堆疊：了解Java在大數據領域的應用，如Hadoop、Spark、Kafka等隨著資料量不斷增加，大數據技術成為了當今網路時代的熱門話題。在大數據領域，我們常聽到Hadoop、Spark、Kafka等技術的名字。這些技術起到了至關重要的作用，而Java作為一門廣泛應用的程式語言，也在大數據領域發揮著巨大的作用。本文將重點放在Java在大

linux下安裝Hadoop的方法是什麼 May 18, 2023 pm 08:19 PM

一：安裝JDK1.執行以下指令，下載JDK1.8安裝套件。 wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2.執行以下命令，解壓縮下載的JDK1.8安裝包。 tar-zxvfjdk-8u151-linux-x64.tar.gz3.移動並重新命名JDK包。 mvjdk1.8.0_151//usr/java84.配置Java環境變數。 echo'

PHP中的資料處理引擎(Spark, Hadoop等) Jun 23, 2023 am 09:43 AM

在目前的網路時代，海量資料的處理是各個企業和機構都需要面對的問題。作為一種廣泛應用的程式語言，PHP同樣需要在資料處理方面跟上時代的腳步。為了更有效率地處理大量數據，PHP開發引入了一些大數據處理工具，如Spark和Hadoop等。 Spark是一款開源的資料處理引擎，可用於大型資料集的分散式處理。 Spark的最大特點是具有快速的資料處理速度和高效的資料存

利用PHP實現大規模資料處理：Hadoop、Spark、Flink等 May 11, 2023 pm 04:13 PM

隨著資料量的不斷增加，大規模資料處理已經成為了企業必須面對和解決的問題。傳統的關聯式資料庫已經無法滿足這種需求，而對於大規模資料的儲存與分析，Hadoop、Spark、Flink等分散式運算平台成為了最佳選擇。在資料處理工具的選擇過程中，PHP作為一種易於開發和維護的語言，越來越受到開發者的歡迎。在本文中，我們將探討如何利用PHP來實現大規模資料處理，以及如

Redis與Hadoop的對比及應用場景 Jun 21, 2023 am 08:28 AM

Redis和Hadoop都是常用的分散式資料儲存和處理系統。然而，兩者在設計、效能、使用場景等方面存在著明顯的差異。在本文中，我們將詳細比較Redis和Hadoop的不同之處，並探討它們的適用場景。 Redis概述Redis是一個開源的基於記憶體的資料儲存系統，支援多種資料結構和高效的讀寫操作。 Redis的主要特點包括：記憶體儲存：Redis

See all articles

Hadoop的Secondary Sorting

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題