コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > データベース > mysql チュートリアル > MapReduce文件切分个数计算方法

MapReduce文件切分个数计算方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-06-07 16:33:49

オリジナル

1208 人が閲覧しました

Hadoop的MapReduce计算的第一个阶段是InputFormat处理的，先将文件进行切分，然后将每个切分传递给每个Map任务来执行，本文阐述切分个数，也就是Map任务数目的计算方法； Hadoop首先会计算每个切分的大小，然后使用文件总大小/每个切分的大小来决定划分的总

Hadoop的MapReduce计算的第一个阶段是InputFormat处理的，先将文件进行切分，然后将每个切分传递给每个Map任务来执行，本文阐述切分个数，也就是Map任务数目的计算方法；

Hadoop首先会计算每个切分的大小，然后使用”文件总大小/每个切分的大小“来决定划分的总数，如果不足一个切分的大小，则当做1个；

在org.apache.hadoop.mapred.FileInputFormat中给出了计算每个划分大小的方法：

protected long computeSplitSize(long goalSize, long minSize,
long blockSize) {
return Math.max(minSize, Math.min(goalSize, blockSize));
}

其中几个变量的解释如下：

blockSize：HDFS存储的基本单元，默认为64MB或者128MB；
minSize：由用户设置的最小切分大小，配置项为mapred.min.split.size；
goalSize：计算公式为"文件总大小/用户设定的Map任务个数"，即用户间接期望的大小；

由此可以推断出选定策略：

划分大小为blockSize：blockSize小于用户期望的大小，比用户设定的最小值要大；也就是说如果用户设定的最小值太小的话，会使用block size作为划分大小；
划分大小为goalSize：用户设定了Map的任务数目，那么即使算出来的划分大小比block size小也会使用，这个时候出现了两个用户设定值：最小值和期望值，hadoop会选择两者中大的那个；
划分大小为minSize：如果用户期望的值，还有blocksize只都比用户设定的最小值要小，那么就会使用这个最小值；

针对这几个值，用户可以根据输入数据的情况，合理的设置mapred.min.split.size和map.tasks.size来实现优化，InputSplit和blockSize相同是非常好的一种方法，因为不需要拆分block了.

文章地址：http://www.crazyant.net/1423.html

関連ラベル：

mapreduce 番号書類方法計算する

前の記事：Linux 上安装 WebLogic Server 12c (静默安装) 次の記事：Linux下MySQL出现#1036 – Table ‘ ‘ is read only 错误解决方法

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

携帯電話でPhotoshopの使用方法

2025-02-24 12:36:12
ストリーミングサービスに多くのお金を費やすのをやめてください

2025-02-24 12:11:09
あなたの電話と話すのをやめなさい：タイプを使用する方法Siri

2025-02-24 12:06:10
Amazon Lockersを使用して時間を節約し、ポーチパイレーツを倒す方法

2025-02-24 12:04:13
Windowsの画像からテキストを読む方法

2025-02-24 12:03:10
Spotifyに接続する9つの便利なアプリ

2025-02-24 12:02:09
ChatGpt内でタスクとリマインダーを使用する方法

2025-02-24 12:01:10
Apple Intelligenceを使用してメールをソートする方法

2025-02-24 12:00:16
Androidで新しい盗難検出機能を設定する方法

2025-02-24 11:59:10
ジェミニにあなたが言ったすべてを覚えている（または忘れる）方法

2025-02-24 11:58:14

最新の問題

mongodbでは、mapReduceの一部の値がreduceで処理されません。

から 1970-01-01 08:00:00

0

0

0

リモートウェアハウスを git に追加した後、プッシュできません

から 1970-01-01 08:00:00

0

0

0

Objective-C のブロックと Swift のクロージャの違いは何ですか?

から 1970-01-01 08:00:00

0

0

0

github - git は特定のサフィックスを除くすべてのファイルを無視できますか

から 1970-01-01 08:00:00

0

0

0

object-c - この cas ファイルを偶然見ましたか?これはどのように書かれているか聞いてもいいでしょうか？

から 1970-01-01 08:00:00

0

0

0

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート