목차
1. 作业提交
2. 作业初始化
3. 任务分配
4. 任务运行
5. 进度和状态更新
6. 作业完成
데이터 베이스 MySQL 튜토리얼 YARN作业运行机制

YARN作业运行机制

Jun 07, 2016 pm 04:38 PM
mapreduce yarn 작업 작동 메커니즘

在传统的MapReduce中, Jobtracker同时负责作业调度(将任务调度给对应的tasktracker)和任务进度管理(监控任务, 重启失败的或者速度比较慢的任务等). YARN中将Jobtracker的责任划分给两个独立的守护进程: 资源管理器(resource manager)负责管理集群的所有资源,


在传统的MapReduce中, Jobtracker同时负责作业调度(将任务调度给对应的tasktracker)和任务进度管理(监控任务, 重启失败的或者速度比较慢的任务等). YARN中将Jobtracker的责任划分给两个独立的守护进程: 资源管理器(resource manager)负责管理集群的所有资源, 应用管理器(application master)负责管理集群上任务的生命周期. 具体的做法是应用管理器向资源管理器提出资源需求, 以container为单位, 然后在这些container中运行该应用相关的进程. container由运行在集群节点上的节点管理器监控, 确保应用不会用超资源. 每个应用的实例, 亦即一个MapReduce作业都有一个自己的应用管理器.

综上所述, YARN中包括以下几个角色
  • 客户端, 向整个集群提交MapReduce作业
  • YARN资源管理器, 负责调度整个集群的计算资源
  • YARN节点管理器, 在集群的机器上启动以及监控container
  • MapReduce应用管理器, 调度某个作业的所有任务. 应用管理器和任务运行在container中, container由资源管理器调度, 由节点管理器管理.
  • 分布式文件系统, 通常是HDFS.

YARN中运行一个作业的流程如下图所示:

Screen Shot 2014-08-10 at 下午09.40.35

1. 作业提交


YARN中的提交作业的API和经典的MapReduce很像(第1步). 作业提交的过程和经典的MapReduce很像, 新的作业ID(应用ID)由资源管理器分配(第2步). 作业的客户端核实作业的输出, 计算输入的split, 将作业的资源(包括Jar包, 配置文件, split信息)拷贝给HDFS(第3步). 最后, 通过调用资源管理器的submitApplication()来提交作业(第4步).

2. 作业初始化


当资源管理器收到submitApplciation()的请求时, 就将该请求发给调度器(scheduler), 调度器分配container, 然后资源管理器在该container内启动应用管理器进程, 由节点管理器监控(第5a和5b步).

MapReduce作业的应用管理器是一个主类为MRAppMaster的Java应用. 其通过创造一些bookkeeping对象来监控作业的进度, 得到任务的进度和完成报告(第6步). 然后其通过分布式文件系统得到由客户端计算好的输入split(第7步). 然后为每个输入split创建一个map任务, 根据mapreduce.job.reduces创建reduce任务对象.

然后应用管理器决定如何运行构成整个作业的任务. 如果作业很小, 应用管理器会选择在其自己的JVM中运行任务, 这种作业称作是被unerized, 或者是以uber task的方式运行. 在任务运行之前, 作业的setup方法被调用来创建输出路径. 与MapRuduce 1中该方法由tasktracker运行的一个任务调用不同, 在YARN中是由应用管理器调用的.

3. 任务分配


如果不是小作业, 那么应用管理器向资源管理器请求container来运行所有的map和reduce任务(第8步). 这些请求是通过心跳来传输的, 包括每个map任务的数据位置, 比如存放输入split的主机名和机架(rack). 调度器利用这些信息来调度任务, 尽量将任务分配给存储数据的节点, 或者退而分配给和存放输入split的节点相同机架的节点.

请求也包括了任务的内存需求, 默认情况下map和reduce任务的内存需求都是1024MB. 可以通过mapreduce.map.memory.mb和mapreduce.reduce.memory.mb来配置.

分配内存的方式和MapReduce 1中不一样, MapReduce 1中每个tasktracker有固定数量的slot, slot是在集群配置是设置的, 每个任务运行在一个slot中, 每个slot都有最大内存限制, 这也是整个集群固定的. 这种方式很不灵活.

在YARN中, 资源划分的粒度更细. 应用的内存需求可以介于最小内存和最大内存之间, 并且必须是最小内存的倍数.

4. 任务运行


当一个任务由资源管理器的调度器分配给一个container后, 应用管理器通过练习节点管理器来启动container(第9a步和9b步). 任务有一个主类为YarnChild的Java应用执行. 在运行任务之前首先本地化任务需要的资源, 比如作业配置, JAR文件, 以及分布式缓存的所有文件(第10步). 最后, 运行map或reduce任务(第11步).

YarnChild运行在一个专用的JVM中, 但是YARN不支持JVM重用.

5. 进度和状态更新


YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 后者通过每3秒的脐带接口有整个作业的视图(view). 这和MapRduce 1不太一样, 后者的进度流从tasktracker到jobtracker. 下图为MapReduce 2中的进度更新流:

Screen Shot 2014-08-10 at 下午09.40.27

客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户.

在MapReduce 1中, jobtracker的UI有运行的任务列表及其对应的进度. 在YARN中, 资源管理器的UI展示了所有的应用以及各自的应用管理器的UI.

6. 作业完成


除了向应用管理器请求作业进度外, 客户端每5分钟都会通过调用waitForCompletion()来检查作业是否完成. 时间间隔可以通过mapreduce.client.completion.pollinterval来设置.

作业完成之后, 应用管理器和container会清理工作状态, OutputCommiter的作业清理方法也会被调用. 作业的信息会被作业历史服务器存储以备之后用户核查.

参考文献:

[1]. Hadoop: The Definitive Guide. 3rd Edition. Chapter 6, YARN.

485 total views, no views today

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

JavaScript 패키지 관리자 비교: Npm vs Yarn vs Pnpm JavaScript 패키지 관리자 비교: Npm vs Yarn vs Pnpm Aug 09, 2022 pm 04:22 PM

이 기사에서는 세 가지 JavaScript 패키지 관리자(npm, Yarn, pnpm)를 소개하고, 이 세 가지 패키지 관리자를 비교하고, npm, Yarn 및 pnpm 간의 차이점과 관계에 대해 설명합니다. 모두에게 도움이 되기를 바랍니다. 도와주세요. 질문이 있으면 지적해 주세요!

JS 패키지 관리 도구를 간략하게 분석한 기사: Yarn JS 패키지 관리 도구를 간략하게 분석한 기사: Yarn Aug 09, 2022 pm 03:49 PM

Yarn도 npm과 마찬가지로 JavaScript 패키지 관리 도구입니다. 이번 글에서는 Yarn 패키지 관리 도구를 소개하겠습니다.

PHP 코어의 작동 메커니즘과 구현 원리에 대한 자세한 설명 PHP 코어의 작동 메커니즘과 구현 원리에 대한 자세한 설명 Nov 08, 2023 pm 01:15 PM

PHP는 웹 개발에 많이 사용되는 인기 있는 오픈 소스 서버 측 스크립팅 언어입니다. 동적 데이터를 처리하고 HTML 출력을 제어할 수 있지만 이를 달성하는 방법은 무엇입니까? 그런 다음 이 기사에서는 PHP의 핵심 작동 메커니즘과 구현 원리를 소개하고 특정 코드 예제를 사용하여 작동 프로세스를 자세히 설명합니다. PHP 소스코드 해석 PHP 소스코드는 C언어로 작성된 프로그램으로, 컴파일 후 php.exe라는 실행파일을 생성합니다. 웹 개발에 사용되는 PHP는 일반적으로 A를 통해 실행됩니다.

심층 분석: Go 언어의 고루틴의 본질과 작동 메커니즘 심층 분석: Go 언어의 고루틴의 본질과 작동 메커니즘 Mar 12, 2024 pm 03:39 PM

Go 언어에서 고루틴은 코드 조각을 동시에 실행하는 데 사용되는 경량 스레드입니다. 기존 스레드에 비해 고루틴은 더 효율적이고 메모리 소비가 적으며 시작 속도가 더 빠릅니다. 이 글에서는 Go 언어의 고루틴의 성격과 작동 메커니즘을 심층적으로 분석하고 독자의 이해를 돕기 위해 구체적인 코드 예제를 제공합니다. 1. 고루틴의 본질 Go 언어에서 고루틴은 Go 런타임에 의해 관리되는 경량 객체입니다.

설두통 숙제가 거부된 경우 어떻게 다시 제출할 수 있나요? -설학통 장을 공부한 횟수를 어떻게 확인할 수 있나요? 설두통 숙제가 거부된 경우 어떻게 다시 제출할 수 있나요? -설학통 장을 공부한 횟수를 어떻게 확인할 수 있나요? Mar 18, 2024 pm 08:49 PM

설두통 숙제가 거부된 경우 어떻게 다시 제출할 수 있나요? 1. 과제가 밀린 공지를 찾아보세요. 2. 반환된 작업에 대한 정보를 찾습니다. 3. 파란색 과제를 클릭하여 과제를 다시 수정하고 제출하세요. Xuexuetong 장을 공부한 횟수를 어떻게 확인하나요? 먼저 Xuedutong을 입력하고 오른쪽 하단에 있는 "나"를 클릭하세요. 다음으로 개인 이름 옆에 작은 로고가 있으니 클릭하세요. 마지막으로 표시를 클릭하면 Xuetong이 사용된 횟수를 확인할 수 있습니다.

설두통 숙제가 거부된 경우 어떻게 다시 제출할 수 있나요? -Xuexuetong에서 비디오를 보는 방법은 무엇입니까? 설두통 숙제가 거부된 경우 어떻게 다시 제출할 수 있나요? -Xuexuetong에서 비디오를 보는 방법은 무엇입니까? Mar 18, 2024 pm 05:55 PM

XueTong은 신경계 원리를 기반으로 한 국내 지식 전파 및 관리 공유 플랫폼입니다. 지난 20년간 Chaoxing이 축적한 방대한 도서, 저널, 신문, 비디오, 원본 및 기타 리소스를 활용하고 지식 관리, 강좌 학습, 특별 주제 생성을 통합하여 독자에게 원스톱 학습 및 작업 환경을 제공합니다. 많은 학생들이 온라인 강좌를 공부할 때 다음과 같은 문제에 직면하게 됩니다. 숙제를 잘못한 경우 다시 해야 할 경우 어떻게 제출합니까? 오늘은 Xuexuetong 숙제가 거부된 후 다시 제출하는 방법과 Xuexuetong에서 동영상을 보는 방법을 편집자에게 설명해 드리겠습니다! 1. 거부된 Xuexuetong 과제를 다시 제출하는 방법 1단계: Xuexitong 소프트웨어를 연 후 홈페이지에서 "강좌"를 클릭합니다. 2단계: 강좌 목록에서 반환된 강좌 과제인 "거부된 강좌"를 찾을 수 있습니다. 딸깍 하는 소리

React 설치 원사가 계속해서 내부 명령이 아니라고 보고하면 어떻게 해야 하나요? React 설치 원사가 계속해서 내부 명령이 아니라고 보고하면 어떻게 해야 하나요? Jan 04, 2023 am 09:24 AM

React 설치 Yarn이 내부 명령이 아니라고 계속 보고하는 문제에 대한 해결책은 다음과 같습니다. 1. "pm uninstall Yarn -g" 명령을 통해 Yarn을 제거합니다. 2. "npm install Yarn"을 사용하여 Yarn을 다시 설치합니다. :\ WINDOWS\system32\node_modules\yarn\bin"; 4. cmd를 다시 열고 "yarn -v" 명령을 실행합니다.

Swoole에서 코루틴의 작동 메커니즘 살펴보기 Swoole에서 코루틴의 작동 메커니즘 살펴보기 Jun 13, 2023 am 10:27 AM

Swoole은 PHP 기반의 코루틴 프레임워크로 비동기 IO 성능이 뛰어납니다. Swoole의 핵심은 코루틴입니다. 코루틴은 스레드보다 더 가벼운 동시성 메커니즘으로, 동시 실행을 달성하기 위해 동일한 스레드에서 작업을 전환할 수 있습니다. 이 기사에서는 Swoole의 코루틴 작동 메커니즘을 살펴보겠습니다. 1. 코루틴의 개념 마이크로 스레드라고도 알려진 코루틴은 스레드보다 더 세분화된 동시성 메커니즘입니다. 코루틴과 스레드의 차이점은 코루틴은 타임 슬라이스 회전을 통해 작업 전환을 구현하는 반면 스레드는 운영 체제 스케줄러에 의해 전환된다는 것입니다.

See all articles