Apache Hadoop 2.2.0集群安装-MySQL-Tutorial-php.cn

Heim

Datenbank

MySQL-Tutorial

Apache Hadoop 2.2.0集群安装

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:14 PM

apache hadoop 安装用途集群

用途此文档描述了如何安装、配置和维护一个重大集群从几个节点到上千节点。初次接触hadoop建议先从单节点集群开始。前提从 Apache 上下载了稳定的版本。安装安装hadoop集群通常需要在所有的节点上解压软件或者prm安装。通常集群中的某一个节点被当做N

用途

此文档描述了如何安装、配置和维护一个重大集群从几个节点到上千节点。

初次接触hadoop建议先从单节点集群开始。

前提

从Apache 上下载了稳定的版本。

安装

安装hadoop集群通常需要在所有的节点上解压软件或者prm安装。

通常集群中的某一个节点被当做NameNode,其他节点作为ResourceManager，这些是主控节点。其他节点被当做DataNode和NodeManager，这些是从节点。

非安全模式启动Hadoop

接下来的章节将会阐述如何配置hadoop集群。

配置文件

hadoop中的配置文件有两大类型：

只读型默认配置：core-default.xml, hdfs-default.xml, yarn-default.xml and mapred-default.xml

定制化配置：conf/core-site.xml, conf/hdfs-site.xml, conf/yarn-site.xml and conf/mapred-site.xml.

此外：你可以自己操作hadoop的脚本，在bin目录下可以找到，还有一些配置的环境变量在conf/hadoop-env.sh and yarn-env.sh中。

站点配置：

配置hadoop集群你首先要配置hadoop守护进程执行的环境。

hadoop的守护进程包括NameNode/DataNode and ResourceManager/NodeManager.

hadoop守护进程环境配置：

管理员需要使用conf/hadoop-env.sh and conf/yarn-env.sh脚本对hadoop守护进程做环境配置。

首先你要验证JAVA_HOME在所有的节点上是否正确

有时候你需要 HADOOP_PID_DIR and HADOOP_SECURE_DN_PID_DIR目录只能被启动守护进程的用户执行写操作。否则就会出现软连接攻击。

管理员可以利用配置项单独配置进程，配置项如下：

Daemon Environment Variable


NameNode	HADOOP_NAMENODE_OPTS
DataNode	HADOOP_DATANODE_OPTS
Secondary NameNode	HADOOP_SECONDARYNAMENODE_OPTS
ResourceManager	YARN_RESOURCEMANAGER_OPTS
NodeManager	YARN_NODEMANAGER_OPTS
WebAppProxy	YARN_PROXYSERVER_OPTS
Map Reduce Job History Server	HADOOP_JOB_HISTORYSERVER_OPTS

如要配置Namenode 为parallelGC，那么可以添加如下到hadoop-env.sh中：

Python代码 Apache Hadoop 2.2.0集群安装

export HADOOP_NAMENODE_OPTS="-XX:+UseParallelGC ${HADOOP_NAMENODE_OPTS}"

其他有用的可定制化参数包括：

HADOOP_LOG_DIR / YARN_LOG_DIR ：进程日志目录，如果不存在会自动创建。

HADOOP_HEAPSIZE / YARN_HEAPSIZE：内存堆大小默认单位为M，如果变量设置成1000 那么堆内存会设置成1000M，默认为1000，如果你需要配置他那么你可以为每个节点单独配置。

Daemon Environment Variable


ResourceManager	YARN_RESOURCEMANAGER_HEAPSIZE
NodeManager	YARN_NODEMANAGER_HEAPSIZE
WebAppProxy	YARN_PROXYSERVER_HEAPSIZE
Map Reduce Job History Server	HADOOP_JOB_HISTORYSERVER_HEAPSIZE

hadoop守护进程非安全模式配置：

此章节是比较重要的参数配置，涉及信息如下：

conf/core-site.xml

Parameter Value Notes


`fs.defaultFS`	NameNode URI	hdfs://host:port/
`io.file.buffer.size`	131072	SequenceFiles的读/写缓冲区大小

conf/hdfs-site.xml

NameNode的配置：

Parameter Value Notes


`dfs.namenode.name.dir`	Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently.	If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for redundancy.
`dfs.namenode.hosts` /`dfs.namenode.hosts.exclude`	List of permitted/excluded DataNodes.	If necessary, use these files to control the list of allowable datanodes.
`dfs.blocksize`	268435456	HDFS blocksize of 256MB for large file-systems.
`dfs.namenode.handler.count`	100	More NameNode server threads to handle RPCs from large number of DataNodes.

DataNode配置：

Parameter Value Notes


`dfs.datanode.data.dir`	Comma separated list of paths on the local filesystem of a `DataNode` where it should store its blocks.	If this is a comma-delimited list of directories, then data will be stored in all named directories, typically on different devices.

conf/yarn-site.xml

ResourceManager和NodeManager配置：

Parameter Value Notes


`yarn.acl.enable`	`true` /`false`	Enable ACLs? Defaults to false.
`yarn.admin.acl`	Admin ACL	ACL to set admins on the cluster. ACLs are of for comma-separated-usersspacecomma-separated-groups. Defaults to special value of * which means anyone. Special value of just space means no one has access.
`yarn.log-aggregation-enable`	false	Configuration to enable or disable log aggregation

ResourceManager配置：

Parameter Value Notes


`yarn.resourcemanager.address`	`ResourceManager` host:port for clients to submit jobs.	host:port
`yarn.resourcemanager.scheduler.address`	`ResourceManager` host:port for ApplicationMasters to talk to Scheduler to obtain resources.	host:port
`yarn.resourcemanager.resource-tracker.address`	`ResourceManager` host:port for NodeManagers.	host:port
`yarn.resourcemanager.admin.address`	`ResourceManager` host:port for administrative commands.	host:port
`yarn.resourcemanager.webapp.address`	`ResourceManager` web-ui host:port.	host:port
`yarn.resourcemanager.scheduler.class`	`ResourceManager` Scheduler class.	`CapacityScheduler` (recommended), `FairScheduler`(also recommended), or `FifoScheduler`
`yarn.scheduler.minimum-allocation-mb`	Minimum limit of memory to allocate to each container request at the `Resource Manager`.	In MBs
`yarn.scheduler.maximum-allocation-mb`	Maximum limit of memory to allocate to each container request at the `Resource Manager`.	In MBs
`yarn.resourcemanager.nodes.include-path` /`yarn.resourcemanager.nodes.exclude-path`	List of permitted/excluded NodeManagers.	If necessary, use these files to control the list of allowable NodeManagers.

NodeManager配置：

Parameter Value Notes


`yarn.nodemanager.resource.memory-mb`	Resource i.e. available physical memory, in MB, for given`NodeManager`	Defines total available resources on the `NodeManager` to be made available to running containers
`yarn.nodemanager.vmem-pmem-ratio`	Maximum ratio by which virtual memory usage of tasks may exceed physical memory	The virtual memory usage of each task may exceed its physical memory limit by this ratio. The total amount of virtual memory used by tasks on the NodeManager may exceed its physical memory usage by this ratio.
`yarn.nodemanager.local-dirs`	Comma-separated list of paths on the local filesystem where intermediate data is written.	Multiple paths help spread disk i/o.
`yarn.nodemanager.log-dirs`	Comma-separated list of paths on the local filesystem where logs are written.	Multiple paths help spread disk i/o.
`yarn.nodemanager.log.retain-seconds`	10800	Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.
`yarn.nodemanager.remote-app-log-dir`	/logs	HDFS directory where the application logs are moved on application completion. Need to set appropriate permissions. Only applicable if log-aggregation is enabled.
`yarn.nodemanager.remote-app-log-dir-suffix`	logs	Suffix appended to the remote log dir. Logs will be aggregated to ${yarn.nodemanager.remote-app-log-dir}/${user}/${thisParam} Only applicable if log-aggregation is enabled.
`yarn.nodemanager.aux-services`	mapreduce_shuffle	Shuffle service that needs to be set for Map Reduce applications.

运行历史配置：

Parameter Value Notes


`yarn.log-aggregation.retain-seconds`	-1	How long to keep aggregation logs before deleting them. -1 disables. Be careful, set this too small and you will spam the name node.
`yarn.log-aggregation.retain-check-interval-seconds`	-1	Time between checks for aggregated log retention. If set to 0 or a negative value then the value is computed as one-tenth of the aggregated log retention time. Be careful, set this too small and you will spam the name node.

conf/mapred-site.xml

MapReduce应用配置：

Parameter Value Notes


`mapreduce.framework.name`	yarn	Execution framework set to Hadoop YARN.
`mapreduce.map.memory.mb`	1536	Larger resource limit for maps.
`mapreduce.map.java.opts`	-Xmx1024M	Larger heap-size for child jvms of maps.
`mapreduce.reduce.memory.mb`	3072	Larger resource limit for reduces.
`mapreduce.reduce.java.opts`	-Xmx2560M	Larger heap-size for child jvms of reduces.
`mapreduce.task.io.sort.mb`	512	Higher memory-limit while sorting data for efficiency.
`mapreduce.task.io.sort.factor`	100	More streams merged at once while sorting files.
`mapreduce.reduce.shuffle.parallelcopies`	50	Higher number of parallel copies run by reduces to fetch outputs from very large number of maps.

MapReduce 执行历史服务配置：

Parameter Value Notes


`mapreduce.jobhistory.address`	MapReduce JobHistory Server host:port	Default port is 10020.
`mapreduce.jobhistory.webapp.address`	MapReduce JobHistory Server Web UIhost:port	Default port is 19888.
`mapreduce.jobhistory.intermediate-done-dir`	/mr-history/tmp	Directory where history files are written by MapReduce jobs.
`mapreduce.jobhistory.done-dir`	/mr-history/done	Directory where history files are managed by the MR JobHistory Server.

Hadoop机架感知

HDFS和YARN服务可机架感知的。

NameNode 和ResourceManager通过调用api来获取集群中每个从节点的机架信息。

api以dns名称(或ip)作为一个机架id。

这个模块也是可配置的，通过topology.node.switch.mapping.impl来配置，可以通过命令行参数topology.script.file.name来配置，如果topology.script.file.name没有配置那么默认其ip为机架id。

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vor By DDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vor By DDD

<🎜>: Dead Rails - wie man Wölfe zähme

1 Monate vor By DDD

Kraftstufen für jeden Feind & Monster in R.E.P.O.

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

2 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1662

CakePHP-Tutorial

1419

Laravel-Tutorial

1311

PHP-Tutorial

1262

C#-Tutorial

1234

Related knowledge

So setzen Sie das CGI -Verzeichnis in Apache Apr 13, 2025 pm 01:18 PM

Um ein CGI-Verzeichnis in Apache einzurichten, müssen Sie die folgenden Schritte ausführen: Erstellen Sie ein CGI-Verzeichnis wie "CGI-bin" und geben Sie Apache-Schreibberechtigungen. Fügen Sie den Block "scriptalias" -Richtungsblock in die Apache-Konfigurationsdatei hinzu, um das CGI-Verzeichnis der URL "/cgi-bin" zuzuordnen. Starten Sie Apache neu.

So stellen Sie eine Verbindung zur Datenbank von Apache her Apr 13, 2025 pm 01:03 PM

Apache verbindet eine Verbindung zu einer Datenbank erfordert die folgenden Schritte: Installieren Sie den Datenbanktreiber. Konfigurieren Sie die Datei web.xml, um einen Verbindungspool zu erstellen. Erstellen Sie eine JDBC -Datenquelle und geben Sie die Verbindungseinstellungen an. Verwenden Sie die JDBC -API, um über den Java -Code auf die Datenbank zuzugreifen, einschließlich Verbindungen, Erstellen von Anweisungen, Bindungsparametern, Ausführung von Abfragen oder Aktualisierungen und Verarbeitungsergebnissen.

So sehen Sie Ihre Apache -Version an Apr 13, 2025 pm 01:15 PM

Es gibt 3 Möglichkeiten, die Version auf dem Apache -Server anzuzeigen: Über die Befehlszeile (apachect -v- oder apache2CTL -v) überprüfen Sie die Seite Serverstatus (http: // & lt; Server -IP- oder Domänenname & GT;/Server -Status) oder die Apache -Konfigurationsdatei (Serversion: Apache/& lt; Versionsnummer & GT;).).

Was tun, wenn der Port Apache80 belegt ist Apr 13, 2025 pm 01:24 PM

Wenn der Port -80 -Port der Apache 80 besetzt ist, lautet die Lösung wie folgt: Finden Sie den Prozess, der den Port einnimmt, und schließen Sie ihn. Überprüfen Sie die Firewall -Einstellungen, um sicherzustellen, dass Apache nicht blockiert ist. Wenn die obige Methode nicht funktioniert, konfigurieren Sie Apache bitte so, dass Sie einen anderen Port verwenden. Starten Sie den Apache -Dienst neu.

So sehen Sie die Apache -Version an Apr 13, 2025 pm 01:00 PM

Wie sehe ich die Apache -Version an? Starten Sie den Apache -Server: Verwenden Sie sudo Service Apache2, um den Server zu starten. Versionsnummer anzeigen: Verwenden Sie eine der folgenden Methoden, um die Version anzuzeigen: Befehlszeile: Führen Sie den Befehl apache2 -v aus. Seite Serverstatus: Greifen Sie in einem Webbrowser auf den Standardport des Apache -Servers (normalerweise 80) zu, und die Versionsinformationen werden unten auf der Seite angezeigt.

So konfigurieren Sie Zend für Apache Apr 13, 2025 pm 12:57 PM

Wie konfigurieren Sie Zend in Apache? Die Schritte zur Konfiguration von Zend Framework in einem Apache -Webserver sind wie folgt: Installieren Sie Zend Framework und extrahieren Sie es in das Webserververzeichnis. Erstellen Sie eine .htaccess -Datei. Erstellen Sie das Zend -Anwendungsverzeichnis und fügen Sie die Index.php -Datei hinzu. Konfigurieren Sie die Zend -Anwendung (application.ini). Starten Sie den Apache -Webserver neu.

So lösen Sie das Problem, dass Apache nicht gestartet werden kann Apr 13, 2025 pm 01:21 PM

Apache kann aus den folgenden Gründen nicht beginnen: Konfigurationsdatei -Syntaxfehler. Konflikt mit anderen Anwendungsports. Berechtigungen Ausgabe. Aus dem Gedächtnis. Prozess -Deadlock. Dämonversagen. Selinux -Berechtigungen Probleme. Firewall -Problem. Software -Konflikt.

So löschen Sie mehr als Servernamen von Apache Apr 13, 2025 pm 01:09 PM

Um eine zusätzliche Servername -Anweisung von Apache zu löschen, können Sie die folgenden Schritte ausführen: Identifizieren und löschen Sie die zusätzliche Servername -Richtlinie. Starten Sie Apache neu, damit die Änderungen wirksam werden. Überprüfen Sie die Konfigurationsdatei, um Änderungen zu überprüfen. Testen Sie den Server, um sicherzustellen, dass das Problem behoben ist.

See all articles