Hadoop-Streaming实战经验及问题解决方法总结-mysql教程-PHP中文网

目录 1. ? Join操作分清join的类型很重要 2. ?启动程序中key字段和partition字段的设定 3. ?控制hadoop程序内存的方法 4. ? 对于数字key的排序问题 5. ? 在mapper中获取map_input_file环境变量的方法 6. ? 运行过程中记录数据的方法 7. ?多次运行Hadoop之是

1. ? Join操作分清join的类型很重要…

2. ?启动程序中key字段和partition字段的设定…

3. ?控制hadoop程序内存的方法…

4. ? 对于数字key的排序问题…

5. ? 在mapper中获取map_input_file环境变量的方法…

6. ? 运行过程中记录数据的方法…

7. ?多次运行Hadoop之是否成功的判断…

8. ?对stdin读取的 line的预处理…

9. ?Python字符串的连接方法…

10. ?怎样查看mapper程序的输出…

11. ?SHELL脚本中变量名的命名方法…

12. ?提前设计好流程能简化很多重复工作…

13. ?其他一些实用经验…

1. Join操作分清join的类型很重要

Join操作是hadoop计算中非常常见的需求，它要求将两个不同数据源的数据根据一个或多个key字段连接成一个合并数据输出，由于key字段数据的特殊性，导致join分成三种类型，处理方法各有不同，如果一个key在数据中可以重复，则记该数据源为N类型，如果只能出现一次，则记为1类型。

1) ?类型1-1的join

比如（学号，姓名）和（学号，班级）两个数据集根据学号字段进行join，因为同一个学号只能指向单个名字和单个班级，所以为1-1类型，处理方法是map阶段加上标记后，reduce阶段接收到的数据是每两个一个分组，这样的话只需要读取第一行，将非key字段连到第二行后面即可。

每个学号输出数据：1*1=1个

2) ?类型1-N或者N-1的join

比如（学号，姓名）和（学号，选修的课程）两个数据集根据学号字段的join，由于第二个数据源的数据中每个学号会对应很多的课程，所以为1-N类型join，处理方法是map阶段给第一个数据源（类型1）加上标记为1，第二个数据源加上标记为2。这样的话reduce阶段收到的数据以标记为1的行分组，同时每组行数会大于2，join方法是先读取标记1的行，记录其非key字段Field Value 1，然后往下遍历，每次遇到标记2的行都将Field Value 1添加到该行的末尾并输出。

每个学号输出数据：1*N=N*1=N个

3) ?类型M-N的join

比如（学号，选修的课程）和（学号，喜欢的水果）根据学号字段做join，由于每个数据源的单个学号都会对应多个相应数据，所以为M*N类型。处理方法是map阶段给数据源小的加上标记1（目的是reduce阶段的节省内存），给数据源大的加上标记2，reduce阶段每个分组会有M*N行，并且标记1的全部在标记2的前面。Join方法是先初始化一个空数组，遇到标记1的行时，将非key数据都记录在数组中，然后遇到标记2的行时，将数组中的数据添加在该行之后输出。

每个学号输出数据：M*N个

2. 启动程序中key字段和partition字段的设定

在join计算过程中，有两个字段非常的重要并需要对其理解，就是排序字段key和分区字段partition的指定。

字段	字段说明
num.key.fields.for.partition	用于分区，只影响数据被分发到哪个reduce机器，但不影响排序
stream.num.map.output.key.fields	Key的意思就是主键，这个主键会影响到数据根据前几列的排序
org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner	如果需要对字段排序、分区，默认都得加上此设置

上面三个配置尤其会影响到join计算时的配置：

1) ?如果是单key的join，因为要加上标记字段排序，所以设定key=2，同时设定partition=1对第一个字段分区来保证同Key的数据都在同一台机器上；

2) ?如果是N个联合key的join，首先需要加上标记字段，所以设定key=N+1，用来对其进行排序，然后需要partition为N来对其按key分区。

3. 控制hadoop程序内存的方法

Hadoop程序是针对海量数据的，因此任何一个保存变量的操作都会在内存中造成N倍的存储，如果尝试用一个数组记录每一行或某些行的单个字段，用不到程序运行结束，hadoop平台就会爆出137内存超出的错误而被kill掉。

控制内存的方法就是少用变量、尤其数组来记录数据，最终实现当前行的处理与数据总规模的无关，汇总、M*N的join等处理不得不记录历史数据，对这种处理要做到用后及时释放，同时尽量记录在单变量而不是数组中，比如汇总计算可以每次记录累加值，而不是先记录所有的元素最后才汇总。

4. 对于数字key的排序问题

如果不加以处理，排序处理过程中数字1会排在10之后，处理方法是需要在数字前面补0，比如如果全部有2位，就将个位数补1个零，让01和10比较，最终reduce输出的时候，再转回来，需要先预测数字的位数。

在mapper.py中：

Print ‘%010d\t%s’%(int(key),value)

其中key既然是数字，就需要用数字的格式化输出%010d表示将输出10位的字符串，如果不够10位，前面补0。

在reducer.py中，最终输出时，使用转int的方法去掉前面的0：

Print ‘%d\t%s’%(int(key),value)

5. 在mapper中获取map_input_file环境变量的方法

在mapper中，有时候为了区分不同的数据文件来源，这时候可以用map_input_file变量来记录当前正在处理的脚本的文件路径。以下是两种判别方法：

a)??????? 用文件名判断

Import os

filepath = os.environ["map_input_file"]
filename = os.path.split(filepath)[-1]

if filename==”filename1”:

#process 1

elif filename==”filename2”:

#process2

b)??????? 用文件路径是否包含确定字符串判断

filepath = os.environ["map_input_file"]

if filepath.find(sys.argv[2])!=-1:

#process

6. 运行过程中记录数据的方法

Hadoop程序不同于本地程序的调试方法，可以使用错误日志来查看错误信息，提交任务前也可以在本地用cat input | mapper.py | sort | reducer.py > output这种方法来先过滤基本的错误，在运行过程中也可以通过以下方法记录信息：

1) ?可以直接将信息输出到std output，程序运行结束后，需要手工筛选记录的数据，或者用awk直接查看，但是会污染结果数据

2) ?大多采用的是用错误输出的方法，这样运行后可以在stderr日志里面查看自己输出的数据：sys.stderr.write(‘filename:%s\t’%(filename))

7. ?多次运行Hadoop之是否成功的判断

如果要运行多次的hadoop计算，并且前一次的计算结果是下一次计算的输入，那么如果上一次计算失败了，下一次很明显不需要启动计算。因此在shell文件中可以通过$?来判断上一次是否运行成功，示例代码：

if [ $? -ne 0 ];then

?? exit 1

8. 对stdin读取的 line的预处理

Mapper和reducer程序都是从标准输入读取数据的，然而如果直接进行split会发现最后一个字段后面跟了个’\n’，解决方法有两种：

1) ?datas = line[:-1].split(‘\t’)

2) ?datas=line.strip().split(‘\t’)

第一种方法直接去除最后一个字符\n，然后split，第二种方法是去除行两边的空格（包括换行），然后split。个人喜欢用第二种，因为我不确定是否所有行都是\n结尾的，但是有些数据两边会有空格，如果strip掉的话就会伤害数据，所以可以根据情景选用。

9. Python字符串的连接方法

Mapper和reducer的输出或者中间的处理经常需要将不同类型的字符串结合在一起，python中实现字符串连接的方法有格式化输出、字符串连接（加号）和join操作（需要将每个字段转化成字符类型）。

使用格式化输出：’%d\t%s’%(inti,str)

使用字符串的+号进行连接：’%d\t’%i+’\t’.join(list)

写成元祖的\t的Join：’\t’.join((‘%d’%i, ‘\t’.join(list)))

10. 怎样查看mapper程序的输出

一般来说，mapper程序经过处理后，会经过排序然后partition给不同的reducer来做下一步的处理，然而在开发过程中常常需要查看当前的mapper输出是否是预期的结果，对其输出的查看有两种需求。

需求一，查看mapper的直接输出：

在运行脚本中，不设定-reducer参数，也就是没有reducer程序，然后把-D mapred.reduce.tasks=0，即不需要任何reduce的处理，但是同时要设定-output选项，这样的话，在output的目录中会看到每个mapper机器输出的一个文件，就是mapper程序的直接输出。

需求二，查看mapper的输出被partition并排序后的内容，即reducer的输入是什么样子：在运行脚本中，不设定-reducer参数，也就是没有自己的reducer程序，然后把-D mapred.reduce.tasks=1或者更大的值，即有reduce机器，但是没有reducer程序，hadoop会认为有reducer是存在的，因此会继续对mapper的输出调用shuffle打乱和sort操作，这样的话就在output目录下面看到了reducer的输入文件，并且数目等于reducer设定的tasks个数。

11. SHELL脚本中变量名的命名方法

如果遇到很多的输入数据源和很多输出的中间结果，每个hadoop的输出都会用到下一步的输入，并且该人物也用到了其他的输出，这样的话最好在一个统一的shell配置文件中配置所有的文件路径名字，同时一定避免InputDir1、InputDir2这样的命名方法，变量命名是一种功力，一定要多练直观并且显而易见，这样随着程序规模的增加不会变的越来越乱。

12. 提前设计好流程能简化很多重复工作

近期自己接到一个较为复杂的hadoop数据处理流程，大大小小的处理估算的话得十几个hadoop任务才能完成，不过幸好没有直接开始写代码，而是把这些任务统一整理了一下，最后竟然发现很多个问题可以直接合并成一类代码处理，过程中同时将整个任务拆分成了很多小任务并列了个顺序，然后挨个解决小任务非常的快。Hadoop处理流程中如果任务之间错综复杂并相互依赖对方的处理结果，都需要事先设计好处理流程再开始事先。

13. 其他一些实用经验

1) ?Mapper和reducer脚本写在同一个Python程序，便于对比和查看；

2) ?独立编写数据源的字段信息和位置映射字典，不容易混淆；

3) ?抽取常用的如输出数据、读入数据模块为独立函数；

4) ?测试脚本及数据、run脚本、map-reduce程序分目录放置；

原文地址：Hadoop-Streaming实战经验及问题解决方法总结, 感谢原作者分享。

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7471

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Win11系统无法安装中文语言包的解决方法 Mar 09, 2024 am 09:48 AM

Win11系统无法安装中文语言包的解决方法随着Windows11系统的推出，许多用户开始升级他们的操作系统以体验新的功能和界面。然而，一些用户在升级后发现他们无法安装中文语言包，这给他们的使用体验带来了困扰。在本文中，我们将探讨Win11系统无法安装中文语言包的原因，并提供一些解决方法，帮助用户解决这一问题。原因分析首先，让我们来分析一下Win11系统无法

五招教你解决黑鲨手机开不了机的问题！ Mar 24, 2024 pm 12:27 PM

随着智能手机技术的不断发展，手机在我们日常生活中扮演着越来越重要的角色。而作为一款专注于游戏性能的旗舰手机，黑鲨手机备受玩家青睐。然而，有时候我们也会面临到黑鲨手机开不了机的情况，这时候我们就需要采取一些措施来解决这一问题。接下来，就让我们来分享五招教你解决黑鲨手机开不了机的问题：第一招：检查电池电量首先，确保你的黑鲨手机有足够的电量。可能是因为手机电量耗尽

无法在此设备上加载驱动程序怎么解决？(亲测有效) Mar 14, 2024 pm 09:00 PM

　　大家都知道，如果电脑无法加载驱动程序，该设备可能就无法正常工作或与计算机进行正确的交互。那在电脑上弹出无法在此设备上加载驱动程序的提示框，我们要如何解决呢？下面小编就教大家两招轻松解决问题。　　无法在此设备上加载驱动程序解决方法　　1、开始菜单搜索“内核隔离”。　　2、将内存完整性关闭，上方提示“内存完整性已关闭。你的设备可能易受攻击。”点击后方忽略即可，不会对使用有影响。　　3.重启机器之后即可解决问题。

小红书发布自动保存图片怎么解决？发布自动保存图片在哪里？ Mar 22, 2024 am 08:06 AM

随着社交媒体的不断发展，小红书已经成为越来越多年轻人分享生活、发现美好事物的平台。许多用户在发布图片时遇到了自动保存的问题，这让他们感到十分困扰。那么，如何解决这个问题呢？一、小红书发布自动保存图片怎么解决？1.清除缓存首先，我们可以尝试清除小红书的缓存数据。步骤如下：（1）打开小红书，点击右下角的“我的”按钮；（2）在个人中心页面，找到“设置”并点击；（3）向下滚动，找到“清除缓存”选项，点击确认。清除缓存后，重新进入小红书，尝试发布图片看是否解决了自动保存的问题。2.更新小红书版本确保你的小

解读Oracle错误3114：原因及解决方法 Mar 08, 2024 pm 03:42 PM

标题：分析Oracle错误3114：原因及解决方法在使用Oracle数据库时，常常会遇到各种错误代码，其中错误3114是比较常见的一个。该错误一般涉及到数据库链接的问题，可能导致访问数据库时出现异常情况。本文将对Oracle错误3114进行解读，探讨其引起的原因，并给出解决该错误的具体方法以及相关的代码示例。1.错误3114的定义Oracle错误3114通

WordPress安装问题解决指南，一文搞定 Feb 29, 2024 am 11:06 AM

WordPress是一款非常流行的开源内容管理系统，许多个人用户和企业选择使用WordPress来建立和管理自己的网站。然而，在安装WordPress的过程中，有时会遇到一些问题，例如数据库连接错误、文件权限问题等。本文将针对常见的WordPress安装问题进行解决指南，通过具体的代码示例帮助用户快速解决问题。问题一：数据库连接错误当在安装WordPress

苹果手机声音小怎么解决 Mar 08, 2024 pm 01:40 PM

苹果手机声音变小的问题可能由多种原因引起，用户可以尝试调整音量设置、检查静音模式、清除扬声器和听筒、重启手机、检查耳机插孔等方式来解决。苹果手机声音小怎么解决1、调整音量设置首先，确保你的手机的音量设置是正确的。你可以通过按下音量按钮（通常位于手机侧面）来增加音量。另外，还可以在设置中的“声音与触感”或“声音与触觉反馈”中调整音量。2、检查静音模式确保你的手机没有处于静音模式。你可以在侧面的音量按钮旁边查看静音开关。如果静音开关打开，声音将被关闭。3、清除扬声器和听筒有时扬声器和听筒可能会被灰尘

WordPress后台乱码烦恼？试试这些解决方案 Mar 05, 2024 pm 09:27 PM

WordPress后台乱码烦恼？试试这些解决方案，需要具体代码示例随着WordPress在网站建设中的广泛应用，许多用户可能会遇到WordPress后台乱码的问题。这种问题会导致后台管理界面显示乱码，给用户的使用带来极大困扰。本文将介绍一些常见的解决方案，帮助用户解决WordPress后台乱码的烦恼。修改wp-config.php文件打开wp-config.

See all articles

Hadoop-Streaming实战经验及问题解决方法总结

1. Join操作分清join的类型很重要

2. 启动程序中key字段和partition字段的设定

3. 控制hadoop程序内存的方法

4. 对于数字key的排序问题

5. 在mapper中获取map_input_file环境变量的方法

6. 运行过程中记录数据的方法

7. ?多次运行Hadoop之是否成功的判断

8. 对stdin读取的 line的预处理

9. Python字符串的连接方法

10. 怎样查看mapper程序的输出

11. SHELL脚本中变量名的命名方法

12. 提前设计好流程能简化很多重复工作

13. 其他一些实用经验

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题