Spark on YARN-MySQL-Tutorial-php.cn

Inhaltsverzeichnis

I. Yarn Cluster

II. yarn-client

Heim

Datenbank

MySQL-Tutorial

Spark on YARN

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:39 PM

spark yarn

Spark在YARN中有yarn-cluster和yarn-client两种运行模式: I. Yarn Cluster Spark Driver首先作为一个ApplicationMaster在YARN集群中启动，客户端提交给ResourceManager的每一个job都会在集群的worker节点上分配一个唯一的ApplicationMaster，由该Application

Spark在YARN中有yarn-cluster和yarn-client两种运行模式:

I. Yarn Cluster

Spark Driver首先作为一个ApplicationMaster在YARN集群中启动，客户端提交给ResourceManager的每一个job都会在集群的worker节点上分配一个唯一的ApplicationMaster，由该ApplicationMaster管理全生命周期的应用。因为Driver程序在YARN中运行，所以事先不用启动Spark Master/Client，应用的运行结果不能在客户端显示（可以在history server中查看），所以最好将结果保存在HDFS而非stdout输出，客户端的终端显示的是作为YARN的job的简单运行状况。
sparn-yarn1
by @Sandy Ryza
spark-yarn2
by 明风@taobao
从terminal的output中看到任务初始化更详细的四个步骤：

14/09/28 11:24:52 INFO RMProxy: Connecting to ResourceManager at hdp01/172.19.1.231:8032
14/09/28 11:24:52 INFO Client: Got Cluster metric info from ApplicationsManager (ASM), number of NodeManagers: 4
14/09/28 11:24:52 INFO Client: Queue info ... queueName: root.default, queueCurrentCapacity: 0.0, queueMaxCapacity: -1.0,
      queueApplicationCount = 0, queueChildQueueCount = 0
14/09/28 11:24:52 INFO Client: Max mem capabililty of a single resource in this cluster 8192
14/09/28 11:24:53 INFO Client: Uploading file:/usr/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar to hdfs://hdp01:8020/user/spark/.sparkStaging/application_1411874193696_0003/spark-examples_2.10-1.0.0-cdh5.1.0.jar
14/09/28 11:24:54 INFO Client: Uploading file:/usr/lib/spark/assembly/lib/spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar to hdfs://hdp01:8020/user/spark/.sparkStaging/application_1411874193696_0003/spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar
14/09/28 11:24:55 INFO Client: Setting up the launch environment
14/09/28 11:24:55 INFO Client: Setting up container launch context
14/09/28 11:24:55 INFO Client: Command for starting the Spark ApplicationMaster: List($JAVA_HOME/bin/java, -server, -Xmx512m, -Djava.io.tmpdir=$PWD/tmp, -Dspark.master=\"spark://hdp01:7077\", -Dspark.app.name=\"org.apache.spark.examples.SparkPi\", -Dspark.eventLog.enabled=\"true\", -Dspark.eventLog.dir=\"/user/spark/applicationHistory\",  -Dlog4j.configuration=log4j-spark-container.properties, org.apache.spark.deploy.yarn.ApplicationMaster, --class, org.apache.spark.examples.SparkPi, --jar , file:/usr/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar, , --executor-memory, 1024, --executor-cores, 1, --num-executors , 2, 1>, /stdout, 2>, /stderr)
14/09/28 11:24:55 INFO Client: Submitting application to ASM
14/09/28 11:24:55 INFO YarnClientImpl: Submitted application application_1411874193696_0003
14/09/28 11:24:56 INFO Client: Application report from ASM:
application identifier: application_1411874193696_0003
     appId: 3
     clientToAMToken: null
     appDiagnostics: 
     appMasterHost: N/A
     appQueue: root.spark
     appMasterRpcPort: -1
     appStartTime: 1411874695327
     yarnAppState: ACCEPTED
     distributedFinalState: UNDEFINED
     appTrackingUrl: http://hdp01:8088/proxy/application_1411874193696_0003/
     appUser: spark

Nach dem Login kopieren

1. 由client向ResourceManager提交请求，并上传jar到HDFS上
这期间包括四个步骤：
a). 连接到RM
b). 从RM ASM（ApplicationsManager ）中获得metric、queue和resource等信息。
c). upload app jar and spark-assembly jar
d). 设置运行环境和container上下文（launch-container.sh等脚本)
2. ResouceManager向NodeManager申请资源，创建Spark ApplicationMaster（每个SparkContext都有一个ApplicationMaster）
3. NodeManager启动Spark App Master，并向ResourceManager AsM注册
4. Spark ApplicationMaster从HDFS中找到jar文件，启动DAGscheduler和YARN Cluster Scheduler
5. ResourceManager向ResourceManager AsM注册申请container资源（INFO YarnClientImpl: Submitted application）
6. ResourceManager通知NodeManager分配Container，这时可以收到来自ASM关于container的报告。（每个container的对应一个executor）
7. Spark ApplicationMaster直接和container（executor）进行交互，完成这个分布式任务。
需要注意的是：
a). Spark中的localdir会被yarn.nodemanager.local-dirs替换
b). 允许失败的节点数(spark.yarn.max.worker.failures)为executor数量的两倍数量，最小为3.
c). SPARK_YARN_USER_ENV传递给spark进程的环境变量
d). 传递给app的参数应该通过–args指定。
部署：
环境介绍：
hdp0[1-4]四台主机
hadoop使用CDH 5.1版本: hadoop-2.3.0+cdh5.1.0+795-1.cdh5.1.0.p0.58.el6.x86_64
直接下载对应2.3.0的pre-build版本http://spark.apache.org/downloads.html
下载完毕后解压，检查spark-assembly目录：
file /home/spark/spark-1.1.0-bin-hadoop2.3/lib/spark-assembly-1.1.0-hadoop2.3.0.jar
/home/spark/spark-1.1.0-bin-hadoop2.3/lib/spark-assembly-1.1.0-hadoop2.3.0.jar: Zip archive data, at least v2.0 to extract
然后输出环境变量HADOOP_CONF_DIR/YARN_CONF_DIR和SPARK_JAR(可以设置到spark-env.sh中）
export HADOOP_CONF_DIR=/etc/hadoop/etc
export SPARK_JAR=/home/spark/spark-1.1.0-bin-hadoop2.3/lib/spark-assembly-1.1.0-hadoop2.3.0.jar
如果使用cloudera manager 5，在Spark Service的操作中可以找到Upload Spark Jar将spark-assembly上传到HDFS上。
spark-yarn3

Spark Jar Location (HDFS)
spark_jar_hdfs_path

/user/spark/share/lib/spark-assembly.jar

默认值

The location of the Spark jar in HDFS

Spark History Location (HDFS)
spark.eventLog.dir

/user/spark/applicationHistory

默认值

The location of Spark application history logs in HDFS. Changing this value will not move existing logs to the new location.

提交任务，此时在YARN的web UI和history Server上就可以看到运行状态信息。

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster /usr/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar

Nach dem Login kopieren

II. yarn-client

(YarnClientClusterScheduler)查看对应类的文件
在yarn-client模式下，Driver运行在Client上，通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executor container进行交互，并将最后的结果汇总。结束掉终端，相当于kill掉这个spark应用。一般来说，如果运行的结果仅仅返回到terminal上时需要配置这个。
spark-yarn4
客户端的Driver将应用提交给Yarn后，Yarn会先后启动ApplicationMaster和executor，另外ApplicationMaster和executor都是装载在container里运行，container默认的内存是1G，ApplicationMaster分配的内存是driver- memory，executor分配的内存是executor-memory。同时，因为Driver在客户端，所以程序的运行结果可以在客户端显示，Driver以进程名为SparkSubmit的形式存在。
配置YARN-Client模式同样需要HADOOP_CONF_DIR/YARN_CONF_DIR和SPARK_JAR变量。
提交任务测试：

spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode client /usr/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar
terminal output：
14/09/28 11:18:34 INFO Client: Command for starting the Spark ApplicationMaster: List($JAVA_HOME/bin/java, -server, -Xmx512m, -Djava.io.tmpdir=$PWD/tmp, -Dspark.tachyonStore.folderName=\"spark-9287f0f2-2e72-4617-a418-e0198626829b\", -Dspark.eventLog.enabled=\"true\", -Dspark.yarn.secondary.jars=\"\", -Dspark.driver.host=\"hdp01\", -Dspark.driver.appUIHistoryAddress=\"\", -Dspark.app.name=\"Spark Pi\", -Dspark.jars=\"file:/usr/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar\", -Dspark.fileserver.uri=\"http://172.19.17.231:53558\", -Dspark.eventLog.dir=\"/user/spark/applicationHistory\", -Dspark.master=\"yarn-client\", -Dspark.driver.port=\"35938\", -Dspark.httpBroadcast.uri=\"http://172.19.17.231:43804\",  -Dlog4j.configuration=log4j-spark-container.properties, org.apache.spark.deploy.yarn.ExecutorLauncher, --class, notused, --jar , null,  --args  'hdp01:35938' , --executor-memory, 1024, --executor-cores, 1, --num-executors , 2, 1>, /stdout, 2>, /stderr)
14/09/28 11:18:34 INFO Client: Submitting application to ASM
14/09/28 11:18:34 INFO YarnClientSchedulerBackend: Application report from ASM: 
     appMasterRpcPort: -1
     appStartTime: 1411874314198
     yarnAppState: ACCEPTED
......

Nach dem Login kopieren

##最后将结果输出到terminal中
Pi is roughly 3.14528

原文地址：Spark on YARN, 感谢原作者分享。

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

4 Wochen vor By DDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7678

CakePHP-Tutorial

1393

C#-Tutorial

1207

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

Related knowledge

JavaScript-Paketmanager im Vergleich: Npm vs. Yarn vs. Pnpm Aug 09, 2022 pm 04:22 PM

Dieser Artikel führt Sie durch die drei JavaScript-Paketmanager (npm, Yarn, Pnpm), vergleicht diese drei Paketmanager und spricht über die Unterschiede und Beziehungen zwischen npm, Yarn und Pnpm. Ich hoffe, dass er für alle hilfreich ist Hilfe, wenn Sie Fragen haben, weisen Sie diese bitte darauf hin!

Ein Artikel mit einer kurzen Analyse des JS-Paketverwaltungstools: Yarn Aug 09, 2022 pm 03:49 PM

Yarn ist wie npm auch ein JavaScript-Paketverwaltungstool. In diesem Artikel werde ich Ihnen das Garnpaketverwaltungstool vorstellen.

Zehn häufig verwendete Bibliotheken für KI-Algorithmen in der Java-Version Jun 13, 2023 pm 04:33 PM

ChatGPT ist dieses Jahr seit mehr als einem halben Jahr beliebt und seine Popularität ist überhaupt nicht zurückgegangen. Auch Deep Learning und NLP sind wieder in aller Munde. Einige Freunde im Unternehmen fragen mich als Java-Entwickler, wie ich mit künstlicher Intelligenz beginnen kann. Es ist an der Zeit, die versteckte Java-Bibliothek zum Erlernen von KI herauszuholen und sie allen vorzustellen. Diese Bibliotheken und Frameworks bieten eine breite Palette von Tools und Algorithmen für maschinelles Lernen, Deep Learning, Verarbeitung natürlicher Sprache und mehr. Abhängig von den spezifischen Anforderungen Ihres KI-Projekts können Sie die am besten geeignete Bibliothek oder das am besten geeignete Framework auswählen und mit verschiedenen Algorithmen experimentieren, um Ihre KI-Lösung zu erstellen. 1.Deeplearning4j Es handelt sich um eine verteilte Open-Source-Deep-Learning-Bibliothek für Java und Scala. Deeplearning

Verwenden Sie Spark in der Go-Sprache, um eine effiziente Datenverarbeitung zu erreichen Jun 16, 2023 am 08:30 AM

Mit dem Aufkommen des Big-Data-Zeitalters hat die Datenverarbeitung immer mehr an Bedeutung gewonnen. Für verschiedene Datenverarbeitungsaufgaben haben sich unterschiedliche Technologien herausgebildet. Unter ihnen ist Spark als Technologie, die für die Datenverarbeitung in großem Maßstab geeignet ist, in verschiedenen Bereichen weit verbreitet. Darüber hinaus hat die Go-Sprache als effiziente Programmiersprache in den letzten Jahren immer mehr Aufmerksamkeit erhalten. In diesem Artikel untersuchen wir, wie man Spark in der Go-Sprache verwendet, um eine effiziente Datenverarbeitung zu erreichen. Wir werden zunächst einige grundlegende Konzepte und Prinzipien von Spark vorstellen

Entdecken Sie die Anwendung von Java im Bereich Big Data: Verständnis von Hadoop, Spark, Kafka und anderen Technologie-Stacks Dec 26, 2023 pm 02:57 PM

Java-Big-Data-Technologie-Stack: Verstehen Sie die Anwendung von Java im Bereich Big Data wie Hadoop, Spark, Kafka usw. Da die Datenmenge weiter zunimmt, ist die Big-Data-Technologie im heutigen Internetzeitalter zu einem heißen Thema geworden. Im Bereich Big Data hören wir oft die Namen Hadoop, Spark, Kafka und andere Technologien. Diese Technologien spielen eine entscheidende Rolle, und Java spielt als weit verbreitete Programmiersprache auch im Bereich Big Data eine große Rolle. Dieser Artikel konzentriert sich auf die Anwendung von Java im Großen und Ganzen

Erste Schritte mit PHP: PHP und Spark May 20, 2023 am 08:41 AM

PHP ist eine sehr beliebte serverseitige Programmiersprache, da sie leicht zu erlernen, Open Source und plattformübergreifend ist. Derzeit verwenden viele große Unternehmen die PHP-Sprache, um Anwendungen zu erstellen, beispielsweise Facebook und WordPress. Spark ist ein schnelles und leichtes Entwicklungsframework zum Erstellen von Webanwendungen. Es basiert auf der Java Virtual Machine (JVM) und arbeitet mit PHP. In diesem Artikel wird erläutert, wie Sie Webanwendungen mit PHP und Spark erstellen. Was ist PHP? PH

Was soll ich tun, wenn das React-Installationsgarn weiterhin meldet, dass es sich nicht um einen internen Befehl handelt? Jan 04, 2023 am 09:24 AM

Die Lösung für das Problem, dass die Installationsgarn-Funktion immer wieder meldet, dass es sich nicht um einen internen Befehl handelt: 1. Garn mit dem Befehl „pm uninstall Yarn -g“ deinstallieren. 2. Garn mit „npm install Yarn“ neu installieren :\ WINDOWS\system32\node_modules\yarn\bin"; 4. Öffnen Sie cmd erneut und führen Sie den Befehl „yarn -v“ aus.

Verwenden Sie PHP, um eine groß angelegte Datenverarbeitung zu erreichen: Hadoop, Spark, Flink usw. May 11, 2023 pm 04:13 PM

Da die Datenmenge weiter zunimmt, ist die Datenverarbeitung in großem Maßstab zu einem Problem geworden, dem sich Unternehmen stellen und das sie lösen müssen. Herkömmliche relationale Datenbanken können diesen Bedarf nicht mehr decken. Für die Speicherung und Analyse großer Datenmengen sind verteilte Computerplattformen wie Hadoop, Spark und Flink die beste Wahl. Im Auswahlprozess von Datenverarbeitungstools erfreut sich PHP als einfach zu entwickelnde und zu wartende Sprache bei Entwicklern immer größerer Beliebtheit. In diesem Artikel werden wir untersuchen, wie und wie PHP für die Verarbeitung großer Datenmengen genutzt werden kann

See all articles