데이터 베이스 MySQL 튜토리얼 Hadoop 2.0中单点故障解决方案总结

Hadoop 2.0中单点故障解决方案总结

Jun 07, 2016 pm 04:32 PM
do hadoop 작가 요약 잘못 해결책

作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明 网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-ha/ 本博客的文章集合: http://dongxicheng.org/recommend/ 重大消息:我的Hadoop新书《

作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明
网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-ha/
本博客的文章集合: http://dongxicheng.org/recommend/


重大消息:我的Hadoop新书《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》已经开始在各大网站销售了,购书链接地址: 当当购书网址, 京东购书网址, 卓越购书网址。新书官方宣传主页: http://hadoop123.com/。

-

Hadoop 1.0内核主要由两个分支组成: MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当长时间内仅适合离线存储和离线计算。

令人欣慰的是,这些问题在Hadoop 2.0中得到了非常完整的解决。Hadoop 2.0内核由三个分支组成,分别是HDFS、 MapReduce和 YARN,而Hadoop生态系统中的其他系统,比如HBase、Hive、Pig等,均是基于这三个系统开发的。截止本文发布,Hadoop 2.0的这三个子系统的单点故障均已经解决或者正在解决(Hadoop HA),本文将为大家介绍当前的进度和具体的解决方案。

在正式介绍单点故障解决方案之前,先简要回顾一下这三个系统(三个系统均采用简单的master/slaves架构,其中master是单点故障)。

(1) HDFS:仿照google GFS实现的分布式存储系统,由NameNode和DataNode两种服务组成,其中NameNode是存储了元数据信息(fsimage)和操作日志(edits),由于它是唯一的,其可用性直接决定了整个存储系统的可用性;

(2) YARN:Hadoop 2.0中新引入的资源管理系统,它的引入使得Hadoop不再局限于MapReduce一类计算,而是支持多样化的计算框架。它由两类服务组成,分别是ResourceManager和NodeManager,其中,ResourceManager作为整个系统的唯一组件,存在单点故障问题;

(3) MapReduce:目前存在两种MapReduce实现,分别是可独立运行的MapReduce,它由两类服务组成,分别是JobTracker和TaskTraker,其中JobTracker存在单点故障问题,另一个是MapReduce On YARN,在这种实现中,每个作业独立使用一个作业跟踪器(ApplicationMaster),彼此之间不再相互影响,不存在单点故障问题。本文提到的单点故障实际上是第一种实现中JobTracker的单点故障。

先说当前Hadoop单点故障的解决进度,截止本文发布时,HDFS单点故障已经解决,且提供了两套可行方案;MapReduce单点故障(JobTracker)由CDH4(CDH4同时打包了MRv1和MRv2,这里的单点故障指的是MRv1的单点问题)解决,且已经发布;YARN单点故障尚未解决,但方案已经提出,由于解决方案借鉴了HDFS HA和MapReduce HA的实现,因为将会很快得到解决。

总体上说,Hadoop中的HDFS、MapReduce和YARN的单点故障解决方案架构是完全一致的,分为手动模式和自动模式,其中手动模式是指由管理员通过命令进行主备切换,这通常在服务升级时有用,自动模式可降低运维成本,但存在潜在危险。这两种模式下的架构如下。

【手动模式】

【自动模式】

在Hadoop HA中,主要由以下几个组件构成:

(1) MasterHADaemon:与Master服务运行在同一个进程中,可接收外部RPC命令,以控制Master服务的启动和停止;

(2) SharedStorage:共享存储系统,active master将信息写入共享存储系统,而standby master则读取该信息以保持与active master的同步,从而减少切换时间。常用的共享存储系统有zookeeper(被YARN HA采用)、NFS(被HDFS HA采用)、HDFS(被MapReduce HA采用)和类bookeeper系统(被HDFS HA采用)。

(3) ZKFailoverController:基于Zookeeper实现的切换控制器,主要由两个核心组件构成:ActiveStandbyElector和HealthMonitor,其中,ActiveStandbyElector负责与zookeeper集群交互,通过尝试获取全局锁,以判断所管理的master进入active还是standby状态;HealthMonitor负责监控各个活动master的状态,以根据它们状态进行状态切换。。

(4) Zookeeper集群:核心功能通过维护一把全局锁控制整个集群有且仅有一个active master。当然,如果ShardStorge采用了zookeeper,则还会记录一些其他状态和运行时信息。

尤其需要注意的是,解决HA问题需考虑以下几个问题:

(1) 脑裂(brain-split):脑裂是指在主备切换时,由于切换不彻底或其他原因,导致客户端和Slave误以为出现两个active master,最终使得整个集群处于混乱状态。解决脑裂问题,通常采用 隔离(Fencing)机制,包括三个方面:

  • 共享存储fencing:确保只有一个Master往共享存储中写数据。
  • 客户端fencing:确保只有一个Master可以响应客户端的请求。
  • Slave fencing:确保只有一个Master可以向Slave下发命令。

Hadoop公共库中对外提供了两种fenching实现,分别是sshfence和shellfence(缺省实现),其中sshfence是指通过ssh登陆目标Master节点上,使用命令fuser将进程杀死(通过tcp端口号定位进程pid,该方法比jps命令更准确),shellfence是指执行一个用户事先定义的shell命令(脚本)完成隔离。

(2)切换对外透明:为了保证整个切换是对外透明的,Hadoop应保证所有客户端和Slave能自动重定向到新的active master上,这通常是通过若干次尝试连接旧master不成功后,再重新尝试链接新master完成的,整个过程有一定延迟。在新版本的Hadoop RPC中,用户可自行设置RPC客户端尝试机制、尝试次数和尝试超时时间等参数。

为了印证以上通用方案,以MapReduce HA为例进行说明,在CDH4中,HA方案介绍可参考我的这篇文章: “CDH中JobTracker HA方案介绍”,架构图如下:

Hadoop 2.0 中 HDFS HA解决方案可阅读文章: “Hadoop 2.0 NameNode HA和Federation实践”,目前HDFS2中提供了两种HA方案,一种是基于NFS共享存储的方案,一种基于Paxos算法的方案 Quorum Journal Manager(QJM),它的基本原理就是用2N+1台JournalNode存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了。目前社区正尝试 使用Bookeeper作为共享存储系统,具体可参考。 HDFS-1623给出的HDFS HA架构图如下所示:

目前进度最慢的是YARN HA解决方案,该方案已经文档化,正在规范和开发中,具体可参考: https://issues.apache.org/jira/browse/YARN-149,总体上看,它的整体架构与MapReduce HA和YARN HA的类似,但共享存储系统采用的是Zookeeper。之所以采用Zookeeper这种轻量级“存储系统”(需要注意的是,zookeeper设计目的并不是存储,而是提供分布式协调服务,但它的确可以安全可靠的存储少量数据以解决分布式环境下多个服务之间的数据共享问题),是由于YARN的大部分信息可以通过NodeManager和ApplicationMaster的心跳信息进行动态重构,而ResourceManager本身只需记录少量信息到Zookeeper上即可。

总体上讲,HA解决的难度取决于Master自身记录信息的多少和信息可重构性,如果记录的信息非常庞大且不可动态重构,比如NameNode,则需要一个可靠性与性能均很高的共享存储系统,而如果Master保存有很多信息,但绝大多数可通过Slave动态重构,则HA解决方法则容易得多,典型代表是MapReduce和YARN。从另外一个角度看,由于计算框架对信息丢失不是非常敏感,比如一个已经完成的任务信息丢失,只需重算即可获取,使得计算框架的HA设计难度远低于存储类系统。

原创文章,转载请注明: 转载自 董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-ha/

作者: Dong,作者介绍: http://dongxicheng.org/about/

本博客的文章集合: http://dongxicheng.org/recommend/


Copyright ? 2013
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

Hadoop 2.0中单点故障解决方案总结

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

중국어 언어 팩을 설치할 수 없는 Win11용 솔루션 중국어 언어 팩을 설치할 수 없는 Win11용 솔루션 Mar 09, 2024 am 09:15 AM

Win11은 Microsoft가 출시한 최신 운영 체제로, 이전 버전에 비해 인터페이스 디자인과 사용자 경험이 크게 향상되었습니다. 그러나 일부 사용자들은 Win11을 설치한 후 중국어 언어 팩을 설치할 수 없는 문제가 발생하여 시스템에서 중국어를 사용하는 데 문제가 발생했다고 보고했습니다. 이 글에서는 Win11에서 중국어 언어팩을 설치할 수 없는 문제에 대한 해결 방법을 제시하여 사용자들이 중국어를 원활하게 사용할 수 있도록 도와드리겠습니다. 먼저 중국어 언어팩을 설치할 수 없는 이유를 이해해야 합니다. 일반적으로 Win11은

scipy 라이브러리 설치 실패의 원인과 해결 방법 scipy 라이브러리 설치 실패의 원인과 해결 방법 Feb 22, 2024 pm 06:27 PM

scipy 라이브러리 설치 실패 이유와 해결 방법, 특정 코드 예제가 필요합니다. Python에서 과학 계산을 수행할 때 scipy는 수치 계산, 최적화, 통계 및 신호 처리를 위한 많은 기능을 제공하는 매우 일반적으로 사용되는 라이브러리입니다. 그러나 scipy 라이브러리를 설치할 때 가끔 문제가 발생하여 설치가 실패하는 경우가 있습니다. 이 기사에서는 scipy 라이브러리 설치가 실패하는 주요 이유를 살펴보고 해당 솔루션을 제공합니다. 종속 패키지 설치에 실패했습니다. scipy 라이브러리는 nu와 같은 다른 Python 라이브러리에 의존합니다.

Oracle 문자셋 수정으로 인한 문자 깨짐 문제에 대한 효과적인 솔루션 Oracle 문자셋 수정으로 인한 문자 깨짐 문제에 대한 효과적인 솔루션 Mar 03, 2024 am 09:57 AM

제목: Oracle 문자 집합 수정으로 인해 발생하는 문자 깨짐 문제를 해결하는 효과적인 솔루션 Oracle 데이터베이스에서 문자 집합을 수정하면 데이터에 호환되지 않는 문자가 존재하여 문자 깨짐 문제가 자주 발생합니다. 이 문제를 해결하려면 몇 가지 효과적인 솔루션을 채택해야 합니다. 이 문서에서는 Oracle 문자 집합 수정으로 인해 발생하는 문자 왜곡 문제를 해결하기 위한 몇 가지 구체적인 솔루션과 코드 예제를 소개합니다. 1. 데이터 내보내기 및 문자 집합 재설정 먼저 expdp 명령을 사용하여 데이터베이스의 데이터를 내보낼 수 있습니다.

Oracle NVL 기능의 일반적인 문제 및 솔루션 Oracle NVL 기능의 일반적인 문제 및 솔루션 Mar 10, 2024 am 08:42 AM

OracleNVL 기능에 대한 일반적인 문제 및 해결 방법 Oracle 데이터베이스는 널리 사용되는 관계형 데이터베이스 시스템이므로 데이터 처리 중에 null 값을 처리해야 하는 경우가 많습니다. Null 값으로 인해 발생하는 문제를 해결하기 위해 Oracle에서는 Null 값을 처리하는 NVL 기능을 제공합니다. 이 문서에서는 NVL 함수의 일반적인 문제와 해결 방법을 소개하고 구체적인 코드 예제를 제공합니다. 질문 1: NVL 함수의 부적절한 사용 NVL 함수의 기본 구문은 NVL(expr1,default_value)입니다.

Black Shark 휴대폰이 켜지지 않으면 어떻게 해야 합니까? 자신을 구하는 방법을 가르쳐주세요! Black Shark 휴대폰이 켜지지 않으면 어떻게 해야 합니까? 자신을 구하는 방법을 가르쳐주세요! Mar 23, 2024 pm 04:06 PM

Black Shark 휴대폰이 켜지지 않으면 어떻게 해야 합니까? 자신을 구하는 방법을 가르쳐주세요! 일상생활에서 휴대폰은 우리에게 없어서는 안 될 필수품이 되었습니다. 많은 사람들에게 Black Shark 휴대폰은 사랑받는 게임용 휴대폰입니다. 그러나 다양한 문제에 직면하게 되는 것은 불가피하며, 그 중 하나는 전화기가 켜지지 않는다는 것입니다. 그러한 상황이 발생하더라도 당황하지 마십시오. 다음은 도움이 될 수 있는 몇 가지 해결 방법입니다. 우선, 블랙샤크 휴대폰이 켜지지 않을 경우 먼저 휴대폰의 전원이 충분한지 확인하세요. 배터리가 방전되어 휴대폰이 켜지지 않을 수도 있습니다.

C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션 C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션 Jun 03, 2024 pm 01:25 PM

C++의 기계 학습 알고리즘이 직면하는 일반적인 과제에는 메모리 관리, 멀티스레딩, 성능 최적화 및 유지 관리 가능성이 포함됩니다. 솔루션에는 스마트 포인터, 최신 스레딩 라이브러리, SIMD 지침 및 타사 라이브러리 사용은 물론 코딩 스타일 지침 준수 및 자동화 도구 사용이 포함됩니다. 실제 사례에서는 Eigen 라이브러리를 사용하여 선형 회귀 알고리즘을 구현하고 메모리를 효과적으로 관리하며 고성능 행렬 연산을 사용하는 방법을 보여줍니다.

PyCharm 키 오류 해결 방법 공개 PyCharm 키 오류 해결 방법 공개 Feb 23, 2024 pm 10:51 PM

PyCharm은 개발자들에게 널리 사랑받는 강력한 Python 통합 개발 환경입니다. 그러나 PyCharm을 사용할 때 키 무효화 문제가 발생하여 소프트웨어를 정상적으로 사용하지 못하는 경우가 있습니다. 이 기사에서는 PyCharm 키 오류에 대한 솔루션을 공개하고 독자가 이 문제를 빠르게 해결할 수 있도록 구체적인 코드 예제를 제공합니다. 문제 해결을 시작하기 전에 먼저 키가 유효하지 않은 이유를 이해해야 합니다. PyCharm 키 오류는 일반적으로 네트워크 문제나 소프트웨어 자체로 인해 발생합니다.

응용 프로그램을 제대로 시작할 수 없음 오류 코드 0xc000007b 해결 응용 프로그램을 제대로 시작할 수 없음 오류 코드 0xc000007b 해결 Feb 20, 2024 pm 01:24 PM

정상적으로 시작할 수 없는 문제를 해결하는 방법 0xc000007b 컴퓨터를 사용할 때 때때로 다양한 오류 코드가 발생하는데, 가장 일반적인 오류 중 하나는 0xc000007b입니다. 일부 응용 프로그램이나 게임을 실행하려고 하면 이 오류 코드가 갑자기 나타나 제대로 시작하지 못하게 됩니다. 그렇다면 이 문제를 어떻게 해결해야 할까요? 먼저 에러코드 0xc000007b의 의미를 이해해야 합니다. 이 오류 코드는 일반적으로 하나 이상의 중요한 시스템 파일이나 라이브러리 파일이 누락, 손상 또는 올바르지 않음을 나타냅니다.

See all articles