Heim Datenbank MySQL-Tutorial Hadoop 2.0中单点故障解决方案总结

Hadoop 2.0中单点故障解决方案总结

Jun 07, 2016 pm 04:32 PM
do hadoop Autor 总结 故障 解决方案

作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明 网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-ha/ 本博客的文章集合: http://dongxicheng.org/recommend/ 重大消息:我的Hadoop新书《

作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明
网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-ha/
本博客的文章集合: http://dongxicheng.org/recommend/


重大消息:我的Hadoop新书《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》已经开始在各大网站销售了,购书链接地址: 当当购书网址, 京东购书网址, 卓越购书网址。新书官方宣传主页: http://hadoop123.com/。

-

Hadoop 1.0内核主要由两个分支组成: MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当长时间内仅适合离线存储和离线计算。

令人欣慰的是,这些问题在Hadoop 2.0中得到了非常完整的解决。Hadoop 2.0内核由三个分支组成,分别是HDFS、 MapReduce和 YARN,而Hadoop生态系统中的其他系统,比如HBase、Hive、Pig等,均是基于这三个系统开发的。截止本文发布,Hadoop 2.0的这三个子系统的单点故障均已经解决或者正在解决(Hadoop HA),本文将为大家介绍当前的进度和具体的解决方案。

在正式介绍单点故障解决方案之前,先简要回顾一下这三个系统(三个系统均采用简单的master/slaves架构,其中master是单点故障)。

(1) HDFS:仿照google GFS实现的分布式存储系统,由NameNode和DataNode两种服务组成,其中NameNode是存储了元数据信息(fsimage)和操作日志(edits),由于它是唯一的,其可用性直接决定了整个存储系统的可用性;

(2) YARN:Hadoop 2.0中新引入的资源管理系统,它的引入使得Hadoop不再局限于MapReduce一类计算,而是支持多样化的计算框架。它由两类服务组成,分别是ResourceManager和NodeManager,其中,ResourceManager作为整个系统的唯一组件,存在单点故障问题;

(3) MapReduce:目前存在两种MapReduce实现,分别是可独立运行的MapReduce,它由两类服务组成,分别是JobTracker和TaskTraker,其中JobTracker存在单点故障问题,另一个是MapReduce On YARN,在这种实现中,每个作业独立使用一个作业跟踪器(ApplicationMaster),彼此之间不再相互影响,不存在单点故障问题。本文提到的单点故障实际上是第一种实现中JobTracker的单点故障。

先说当前Hadoop单点故障的解决进度,截止本文发布时,HDFS单点故障已经解决,且提供了两套可行方案;MapReduce单点故障(JobTracker)由CDH4(CDH4同时打包了MRv1和MRv2,这里的单点故障指的是MRv1的单点问题)解决,且已经发布;YARN单点故障尚未解决,但方案已经提出,由于解决方案借鉴了HDFS HA和MapReduce HA的实现,因为将会很快得到解决。

总体上说,Hadoop中的HDFS、MapReduce和YARN的单点故障解决方案架构是完全一致的,分为手动模式和自动模式,其中手动模式是指由管理员通过命令进行主备切换,这通常在服务升级时有用,自动模式可降低运维成本,但存在潜在危险。这两种模式下的架构如下。

【手动模式】

【自动模式】

在Hadoop HA中,主要由以下几个组件构成:

(1) MasterHADaemon:与Master服务运行在同一个进程中,可接收外部RPC命令,以控制Master服务的启动和停止;

(2) SharedStorage:共享存储系统,active master将信息写入共享存储系统,而standby master则读取该信息以保持与active master的同步,从而减少切换时间。常用的共享存储系统有zookeeper(被YARN HA采用)、NFS(被HDFS HA采用)、HDFS(被MapReduce HA采用)和类bookeeper系统(被HDFS HA采用)。

(3) ZKFailoverController:基于Zookeeper实现的切换控制器,主要由两个核心组件构成:ActiveStandbyElector和HealthMonitor,其中,ActiveStandbyElector负责与zookeeper集群交互,通过尝试获取全局锁,以判断所管理的master进入active还是standby状态;HealthMonitor负责监控各个活动master的状态,以根据它们状态进行状态切换。。

(4) Zookeeper集群:核心功能通过维护一把全局锁控制整个集群有且仅有一个active master。当然,如果ShardStorge采用了zookeeper,则还会记录一些其他状态和运行时信息。

尤其需要注意的是,解决HA问题需考虑以下几个问题:

(1) 脑裂(brain-split):脑裂是指在主备切换时,由于切换不彻底或其他原因,导致客户端和Slave误以为出现两个active master,最终使得整个集群处于混乱状态。解决脑裂问题,通常采用 隔离(Fencing)机制,包括三个方面:

  • 共享存储fencing:确保只有一个Master往共享存储中写数据。
  • 客户端fencing:确保只有一个Master可以响应客户端的请求。
  • Slave fencing:确保只有一个Master可以向Slave下发命令。

Hadoop公共库中对外提供了两种fenching实现,分别是sshfence和shellfence(缺省实现),其中sshfence是指通过ssh登陆目标Master节点上,使用命令fuser将进程杀死(通过tcp端口号定位进程pid,该方法比jps命令更准确),shellfence是指执行一个用户事先定义的shell命令(脚本)完成隔离。

(2)切换对外透明:为了保证整个切换是对外透明的,Hadoop应保证所有客户端和Slave能自动重定向到新的active master上,这通常是通过若干次尝试连接旧master不成功后,再重新尝试链接新master完成的,整个过程有一定延迟。在新版本的Hadoop RPC中,用户可自行设置RPC客户端尝试机制、尝试次数和尝试超时时间等参数。

为了印证以上通用方案,以MapReduce HA为例进行说明,在CDH4中,HA方案介绍可参考我的这篇文章: “CDH中JobTracker HA方案介绍”,架构图如下:

Hadoop 2.0 中 HDFS HA解决方案可阅读文章: “Hadoop 2.0 NameNode HA和Federation实践”,目前HDFS2中提供了两种HA方案,一种是基于NFS共享存储的方案,一种基于Paxos算法的方案 Quorum Journal Manager(QJM),它的基本原理就是用2N+1台JournalNode存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了。目前社区正尝试 使用Bookeeper作为共享存储系统,具体可参考。 HDFS-1623给出的HDFS HA架构图如下所示:

目前进度最慢的是YARN HA解决方案,该方案已经文档化,正在规范和开发中,具体可参考: https://issues.apache.org/jira/browse/YARN-149,总体上看,它的整体架构与MapReduce HA和YARN HA的类似,但共享存储系统采用的是Zookeeper。之所以采用Zookeeper这种轻量级“存储系统”(需要注意的是,zookeeper设计目的并不是存储,而是提供分布式协调服务,但它的确可以安全可靠的存储少量数据以解决分布式环境下多个服务之间的数据共享问题),是由于YARN的大部分信息可以通过NodeManager和ApplicationMaster的心跳信息进行动态重构,而ResourceManager本身只需记录少量信息到Zookeeper上即可。

总体上讲,HA解决的难度取决于Master自身记录信息的多少和信息可重构性,如果记录的信息非常庞大且不可动态重构,比如NameNode,则需要一个可靠性与性能均很高的共享存储系统,而如果Master保存有很多信息,但绝大多数可通过Slave动态重构,则HA解决方法则容易得多,典型代表是MapReduce和YARN。从另外一个角度看,由于计算框架对信息丢失不是非常敏感,比如一个已经完成的任务信息丢失,只需重算即可获取,使得计算框架的HA设计难度远低于存储类系统。

原创文章,转载请注明: 转载自 董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-ha/

作者: Dong,作者介绍: http://dongxicheng.org/about/

本博客的文章集合: http://dongxicheng.org/recommend/


Copyright ? 2013
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

Hadoop 2.0中单点故障解决方案总结

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Lösung für Win11: Chinesisches Sprachpaket konnte nicht installiert werden Lösung für Win11: Chinesisches Sprachpaket konnte nicht installiert werden Mar 09, 2024 am 09:15 AM

Win11 ist das neueste von Microsoft eingeführte Betriebssystem. Im Vergleich zu früheren Versionen hat Win11 das Schnittstellendesign und die Benutzererfahrung erheblich verbessert. Einige Benutzer berichteten jedoch, dass sie nach der Installation von Win11 auf das Problem gestoßen waren, dass sie das chinesische Sprachpaket nicht installieren konnten, was zu Problemen bei der Verwendung von Chinesisch im System führte. Dieser Artikel bietet einige Lösungen für das Problem, dass Win11 das chinesische Sprachpaket nicht installieren kann, um Benutzern die reibungslose Verwendung von Chinesisch zu ermöglichen. Zuerst müssen wir verstehen, warum das chinesische Sprachpaket nicht installiert werden kann. Im Allgemeinen Win11

Gründe und Lösungen für einen Fehler bei der Installation der Scipy-Bibliothek Gründe und Lösungen für einen Fehler bei der Installation der Scipy-Bibliothek Feb 22, 2024 pm 06:27 PM

Gründe und Lösungen für einen Fehler bei der Installation der Scipy-Bibliothek. Es sind spezifische Codebeispiele erforderlich. Bei der Durchführung wissenschaftlicher Berechnungen in Python ist Scipy eine sehr häufig verwendete Bibliothek, die viele Funktionen für numerische Berechnungen, Optimierung, Statistik und Signalverarbeitung bereitstellt. Bei der Installation der Scipy-Bibliothek treten jedoch manchmal Probleme auf, die dazu führen, dass die Installation fehlschlägt. In diesem Artikel werden die Hauptgründe untersucht, warum die Installation der Scipy-Bibliothek fehlschlägt, und entsprechende Lösungen bereitgestellt. Die Installation abhängiger Pakete ist fehlgeschlagen. Die Scipy-Bibliothek ist von einigen anderen Python-Bibliotheken abhängig, z. B. nu.

Eine effektive Lösung zur Lösung des Problems verstümmelter Zeichen, die durch die Änderung des Oracle-Zeichensatzes verursacht werden Eine effektive Lösung zur Lösung des Problems verstümmelter Zeichen, die durch die Änderung des Oracle-Zeichensatzes verursacht werden Mar 03, 2024 am 09:57 AM

Titel: Eine wirksame Lösung zur Lösung des Problems verstümmelter Zeichen, die durch die Änderung des Oracle-Zeichensatzes verursacht werden. Wenn in der Oracle-Datenbank der Zeichensatz geändert wird, tritt das Problem verstümmelter Zeichen aufgrund des Vorhandenseins inkompatibler Zeichen in den Daten häufig auf. Um dieses Problem zu lösen, müssen wir einige wirksame Lösungen annehmen. In diesem Artikel werden einige spezifische Lösungen und Codebeispiele vorgestellt, um das Problem verstümmelter Zeichen zu lösen, die durch die Änderung des Oracle-Zeichensatzes verursacht werden. 1. Daten exportieren und den Zeichensatz zurücksetzen. Zuerst können wir die Daten in die Datenbank exportieren, indem wir den Befehl expdp verwenden.

Häufige Probleme und Lösungen der Oracle NVL-Funktion Häufige Probleme und Lösungen der Oracle NVL-Funktion Mar 10, 2024 am 08:42 AM

Häufige Probleme und Lösungen für die OracleNVL-Funktion Die Oracle-Datenbank ist ein weit verbreitetes relationales Datenbanksystem, und bei der Datenverarbeitung ist es häufig erforderlich, mit Nullwerten umzugehen. Um die durch Nullwerte verursachten Probleme zu bewältigen, stellt Oracle die NVL-Funktion zur Verarbeitung von Nullwerten bereit. In diesem Artikel werden häufige Probleme und Lösungen von NVL-Funktionen vorgestellt und spezifische Codebeispiele bereitgestellt. Frage 1: Unsachgemäße Verwendung der NVL-Funktion. Die grundlegende Syntax der NVL-Funktion lautet: NVL(expr1,default_value).

Was soll ich tun, wenn sich mein Black Shark-Telefon nicht einschalten lässt? Bringe dir bei, wie du dich selbst retten kannst! Was soll ich tun, wenn sich mein Black Shark-Telefon nicht einschalten lässt? Bringe dir bei, wie du dich selbst retten kannst! Mar 23, 2024 pm 04:06 PM

Was soll ich tun, wenn sich mein Black Shark-Telefon nicht einschalten lässt? Bringe dir bei, wie du dich selbst retten kannst! In unserem täglichen Leben sind Mobiltelefone zu einem unverzichtbaren Bestandteil von uns geworden. Für viele Menschen ist das Black Shark-Handy ein beliebtes Gaming-Handy. Es ist jedoch unvermeidlich, dass Sie auf verschiedene Probleme stoßen. Eines davon ist, dass sich das Telefon nicht einschalten lässt. Wenn Sie auf eine solche Situation stoßen, geraten Sie nicht in Panik. Hier sind einige Lösungen, von denen ich hoffe, dass sie Ihnen helfen. Wenn sich das Black Shark-Telefon nicht einschalten lässt, prüfen Sie zunächst, ob das Telefon über genügend Strom verfügt. Möglicherweise lässt sich das Telefon aufgrund eines leeren Akkus nicht einschalten.

Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Implementierung von Algorithmen für maschinelles Lernen in C++: Häufige Herausforderungen und Lösungen Jun 03, 2024 pm 01:25 PM

Zu den häufigsten Herausforderungen, mit denen Algorithmen für maschinelles Lernen in C++ konfrontiert sind, gehören Speicherverwaltung, Multithreading, Leistungsoptimierung und Wartbarkeit. Zu den Lösungen gehören die Verwendung intelligenter Zeiger, moderner Threading-Bibliotheken, SIMD-Anweisungen und Bibliotheken von Drittanbietern sowie die Einhaltung von Codierungsstilrichtlinien und die Verwendung von Automatisierungstools. Praktische Fälle zeigen, wie man die Eigen-Bibliothek nutzt, um lineare Regressionsalgorithmen zu implementieren, den Speicher effektiv zu verwalten und leistungsstarke Matrixoperationen zu nutzen.

Enthüllung der Methode zur Behebung von PyCharm-Schlüsselfehlern Enthüllung der Methode zur Behebung von PyCharm-Schlüsselfehlern Feb 23, 2024 pm 10:51 PM

PyCharm ist eine leistungsstarke integrierte Python-Entwicklungsumgebung, die bei Entwicklern sehr beliebt ist. Bei der Verwendung von PyCharm können jedoch manchmal Probleme mit der Ungültigmachung von Schlüsseln auftreten, die dazu führen, dass die Software nicht normal verwendet werden kann. In diesem Artikel wird die Lösung für den Fehler des PyCharm-Schlüssels aufgezeigt und spezifische Codebeispiele bereitgestellt, die den Lesern helfen, dieses Problem schnell zu lösen. Bevor wir mit der Lösung des Problems beginnen, müssen wir zunächst verstehen, warum der Schlüssel ungültig ist. Ein Ausfall des PyCharm-Schlüssels ist normalerweise auf Netzwerkprobleme oder die Software selbst zurückzuführen

Beheben Sie den Fehlercode 0xc000007b, der die Anwendung nicht ordnungsgemäß starten kann Beheben Sie den Fehlercode 0xc000007b, der die Anwendung nicht ordnungsgemäß starten kann Feb 20, 2024 pm 01:24 PM

So lösen Sie das Problem, dass kein normaler Start möglich ist 0xc000007b Bei der Verwendung des Computers stoßen wir manchmal auf verschiedene Fehlercodes, einer der häufigsten ist 0xc000007b. Wenn wir versuchen, einige Anwendungen oder Spiele auszuführen, erscheint plötzlich dieser Fehlercode und verhindert, dass wir sie ordnungsgemäß starten können. Wie also sollen wir dieses Problem lösen? Zuerst müssen wir die Bedeutung des Fehlercodes 0xc000007b verstehen. Dieser Fehlercode weist normalerweise darauf hin, dass eine oder mehrere wichtige Systemdateien oder Bibliotheksdateien fehlen, beschädigt oder falsch sind.

See all articles