Maison base de données tutoriel mysql MapReduce2.0处理机制

MapReduce2.0处理机制

Jun 07, 2016 pm 03:08 PM
mapreduce indiquer 处理 机制

MapReduce(分布式计算模型)作为Hadoop家族一重要的家庭成员主要用于搜素领域,海量数据计算等问题。 内部模型采用分而治之的思想。MapReduce分为两部分(Map和Reduce)。其中Shuffler是对Reduce的预处理。 map和reduce的数据处理方式均采取键对的方式:即 [k1

                      MapReduce(分布式计算模型)作为Hadoop家族一重要的家庭成员主要用于搜素领域,海量数据计算等问题。

                 内部模型采用"分而治之"的思想。MapReduce分为两部分(Map和Reduce)。其中Shuffler是对Reduce的预处理。MapReduce2.0处理机制

map和reduce的数据处理方式均采取键值对的方式:即  [k1,v1]->MAP->[K2,V2]->Reduce->[k3,v3]。

MR执行流程
 (1).客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar ...)
 (2).JobClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)和jobId
 (3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
 (4).开始提交任务(任务的描述信息,不是jar, 包括jobid,jar存放的位置,配置信息等等)
 (5).JobTracker进行初始化任务
 (6).读取HDFS上的要处理的文件,开始计算输入分片,每一个分片对应一个MapperTask
 (7).TaskTracker通过心跳机制领取任务(任务的描述信息)
 (8).下载所需的jar,配置文件等
 (9).TaskTracker启动一个java child子进程,用来执行具体的任务(MapperTask或ReducerTask)
 (10).将结果写入到HDFS当中

在hadoop2.0以上版本中JobTracker取名为RM(resourceManage)  TastTracker取名为NM(nodeManage)

MapReduce2.0处理机制

mapReduce操作实现wordcount功能(即从文本中读取内容,计算出每个单词出现的次数)

程序分为3个类(自定义MAP方法功能实现,自定义REDUCE方法功能实现,最后类拼凑成mapreduce模式导成jar包,在HDFS分布式功能中实现)

1.WCMapper类(实现map)

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/*
 * 给wordcount写mapper
 * 定义mapper
 * KEYIN:k1的类型
 * VALUEIN:v1的类型
 *
 * 重写map方法
 * hadoop没有使用jdk默认的序列化机制(long->longwriteable String->Text)
 */
public class WCMapper extends Mapper {

 @Override
 protected void map(LongWritable key, Text value,
   Mapper.Context context)
   throws IOException, InterruptedException {
  // TODO Auto-generated method stub

  // 接收信息V1
  String line = value.toString();
  // 切分数据
  String[] words = line.split(" ");
  // 循环
  for (String w : words) {
   // 出现一次记一个1,输出
   // 构一个新的key,value
   context.write(new Text(w), new LongWritable(1));
  }
 }

}

2.WCReducer类实现reduce功能

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/*
 * KEYIN k2的类型
 * VALUEIN v2的类型
 *
 * 重写reducer方法
 */
public class WCReducer extends Reducer {

 @Override
 protected void reduce(Text k2, Iterable v2s,
   Reducer.Context context)
   throws IOException, InterruptedException {
  // 接收数据
  Text k3 = k2;
  // 定义一个计数器
  Long count = (long) 0;
  // 循环v2s
  for (LongWritable i : v2s) {
   count += i.get();
  }
  // 输出
  context.write(k3, new LongWritable(count));
 }

}

3.wordCount类。拼凑前两个类,符合mapreduce格式


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/*
 * mapReduce
 *
 * 组装自定义的map和reduce
 */
public class wordCount {
 public static void main(String[] args) throws Exception {
  // Job job=Job.instance(new Configuration()); //版本hadoop2
  Job job = new Job(new Configuration()); // 版本hadoop1

  // 4.注意---将main方法中的类设进去
  job.setJarByClass(wordCount.class);

  // 1.设置自定义Mapper
  job.setMapperClass(WCMapper.class);
  job.setMapOutputKeyClass(Text.class);
  job.setMapOutputValueClass(LongWritable.class);

  // 设置mapper读入的path(hdfs路径)
  FileInputFormat.setInputPaths(job, new Path("/words.txt"));

  // 2.设置reduce
  job.setReducerClass(WCReducer.class);
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(LongWritable.class);

  FileOutputFormat.setOutputPath(job, new Path("/WcountResult"));

  // 3.提交
  job.waitForCompletion(true); // 打印进度和详情
 }
}

 

 

 

 

 

 

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
4 Il y a quelques semaines By DDD
Musée à deux points: toutes les expositions et où les trouver
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le processus de fonctionnement de l'hôte de service WIN10 occupant trop de CPU Le processus de fonctionnement de l'hôte de service WIN10 occupant trop de CPU Mar 27, 2024 pm 02:41 PM

1. Tout d'abord, nous cliquons avec le bouton droit sur l'espace vide de la barre des tâches et sélectionnons l'option [Gestionnaire des tâches], ou cliquons avec le bouton droit sur le logo de démarrage, puis sélectionnons l'option [Gestionnaire des tâches]. 2. Dans l'interface du Gestionnaire des tâches ouverte, nous cliquons sur l'onglet [Services] à l'extrême droite. 3. Dans l'onglet [Service] ouvert, cliquez sur l'option [Ouvrir le service] ci-dessous. 4. Dans la fenêtre [Services] qui s'ouvre, cliquez avec le bouton droit sur le service [InternetConnectionSharing(ICS)], puis sélectionnez l'option [Propriétés]. 5. Dans la fenêtre des propriétés qui s'ouvre, remplacez [Ouvrir avec] par [Désactivé], cliquez sur [Appliquer] puis cliquez sur [OK]. 6. Cliquez sur le logo Démarrer, puis cliquez sur le bouton d'arrêt, sélectionnez [Redémarrer] et terminez le redémarrage de l'ordinateur.

Un guide rapide sur la manipulation des fichiers CSV Un guide rapide sur la manipulation des fichiers CSV Dec 26, 2023 pm 02:23 PM

Apprenez rapidement à ouvrir et traiter des fichiers au format CSV Avec le développement continu de l'analyse et du traitement des données, le format CSV est devenu l'un des formats de fichiers les plus utilisés. Un fichier CSV est un fichier texte simple et facile à lire avec différents champs de données séparés par des virgules. Que ce soit dans la recherche académique, l'analyse commerciale ou le traitement de données, nous rencontrons souvent des situations où nous devons ouvrir et traiter des fichiers CSV. Le guide suivant vous montrera comment apprendre rapidement à ouvrir et traiter des fichiers au format CSV. Étape 1 : Comprendre le format de fichier CSV. Tout d'abord,

Apprenez à gérer les caractères spéciaux et à convertir les guillemets simples en PHP Apprenez à gérer les caractères spéciaux et à convertir les guillemets simples en PHP Mar 27, 2024 pm 12:39 PM

Dans le processus de développement PHP, la gestion des caractères spéciaux est un problème courant, en particulier dans le traitement des chaînes, les caractères spéciaux sont souvent échappés. Parmi eux, la conversion de caractères spéciaux en guillemets simples est une exigence relativement courante, car en PHP, les guillemets simples sont un moyen courant d'encapsuler des chaînes. Dans cet article, nous expliquerons comment gérer les guillemets simples de conversion de caractères spéciaux en PHP et fournirons des exemples de code spécifiques. En PHP, les caractères spéciaux incluent, sans s'y limiter, les guillemets simples ('), les guillemets doubles ("), la barre oblique inverse (), etc. Dans les chaînes

Comment gérer les formats de données XML et JSON dans le développement C# Comment gérer les formats de données XML et JSON dans le développement C# Oct 09, 2023 pm 06:15 PM

La gestion des formats de données XML et JSON dans le développement C# nécessite des exemples de code spécifiques. Dans le développement de logiciels modernes, XML et JSON sont deux formats de données largement utilisés. XML (Extensible Markup Language) est un langage de balisage permettant de stocker et de transmettre des données, tandis que JSON (JavaScript Object Notation) est un format d'échange de données léger. Dans le développement C#, nous devons souvent traiter et exploiter des données XML et JSON. Cet article se concentrera sur la façon d'utiliser C# pour traiter ces deux formats de données et les attacher.

Compétences en gestion des exceptions et en journalisation des erreurs en C# Compétences en gestion des exceptions et en journalisation des erreurs en C# Oct 08, 2023 am 11:51 AM

Compétences en gestion des exceptions et en journalisation des erreurs en C# Introduction : Dans le processus de développement logiciel, la gestion des exceptions et la journalisation des erreurs sont des liens très importants. Pour les développeurs C#, la maîtrise des compétences de gestion des exceptions et des méthodes de journalisation des erreurs peut nous aider à mieux suivre et déboguer le code, et à améliorer la stabilité et la maintenabilité du programme. Cet article présentera les techniques courantes de gestion des exceptions en C# et fournira des exemples de code spécifiques pour aider les lecteurs à mieux comprendre et appliquer la gestion des exceptions et la journalisation des erreurs. 1. Concepts de base de la gestion des exceptions Les exceptions font référence à

Générateurs en PHP7 : Comment gérer efficacement des données à grande échelle et économiser de la mémoire ? Générateurs en PHP7 : Comment gérer efficacement des données à grande échelle et économiser de la mémoire ? Oct 20, 2023 pm 04:42 PM

Générateurs en PHP7 : Comment gérer efficacement des données à grande échelle et économiser de la mémoire ? Présentation : PHP7 présente les générateurs comme un outil puissant en termes de traitement de données à grande échelle et d'économie de mémoire. Les générateurs sont un type spécial de fonction dans le langage PHP. Contrairement aux fonctions ordinaires, les générateurs peuvent suspendre l'exécution et renvoyer des résultats intermédiaires au lieu de renvoyer tous les résultats en même temps. Cela rend le générateur idéal pour traiter de gros lots de données, réduisant ainsi l'utilisation de la mémoire et améliorant l'efficacité du traitement. Cet article présentera aux étudiants

Comment résoudre le problème après l'échec de la mise à niveau de Win7 vers Win10 ? Comment résoudre le problème après l'échec de la mise à niveau de Win7 vers Win10 ? Dec 26, 2023 pm 07:49 PM

Si le système d'exploitation que nous utilisons est Win7, certains amis peuvent ne pas réussir à passer de Win7 à Win10 lors de la mise à niveau. L'éditeur pense que nous pouvons réessayer la mise à jour pour voir si cela peut résoudre le problème. Jetons un coup d'œil à ce que l'éditeur a fait pour plus de détails ~ Que faire si Win7 ne parvient pas à passer à Win10 Méthode 1 : 1. Il est recommandé de télécharger d'abord un pilote pour évaluer si votre ordinateur peut être mis à niveau vers Win10. utilisez le test du pilote après la mise à niveau. Vérifiez s'il y a des anomalies du pilote, puis corrigez-les en un seul clic. Méthode 2 : 1. Supprimez tous les fichiers sous C:\Windows\SoftwareDistribution\Download. 2.win+R exécutez "wuauclt.e

Comment gérer les problèmes de multilinguisme et d'internationalisation dans le développement PHP Comment gérer les problèmes de multilinguisme et d'internationalisation dans le développement PHP Oct 09, 2023 pm 04:24 PM

La manière de gérer les problèmes de multilinguisme et d'internationalisation dans le développement PHP nécessite des exemples de code spécifiques. Avec le développement d'Internet, la demande de multilinguisme et d'internationalisation est de plus en plus forte. Dans le développement PHP, la manière de gérer efficacement les problèmes de multilinguisme et d’internationalisation est devenue une tâche importante que les développeurs doivent résoudre. Gestion de l'encodage des caractères Dans le développement PHP, nous devons d'abord nous assurer que l'encodage des caractères est géré correctement. Dans les environnements multilingues, l’utilisation du codage UTF-8 est le choix le plus courant. Vous pouvez ajouter le code suivant en tête du fichier PHP : header('C

See all articles