Die drei Kernkomponenten von HADOOP_Was sind die drei Kernkomponenten von HADOOP?-häufiges Problem-php.cn

Inhaltsverzeichnis

Die drei Kernkomponenten von Hadoop sind HDFS (verteilter Dateispeicher), MapReduce (verteiltes Computing) und YARN (Ressourcenplanung).

Heim

häufiges Problem

Was sind die drei Kernkomponenten von HADOOP?

小老鼠

Jan 04, 2024 am 10:52 AM

hadoop 核心组件

Die drei Kernkomponenten von HADOOP sind HDFS, MapReduce und YARN. Detaillierte Einführung: 1. HDFS: Verteiltes Dateisystem, das zum Speichern großer Datenmengen in Hadoop-Clustern verwendet wird. Es verfügt über eine hohe Fehlertoleranz, kann Daten über mehrere Datenknoten hinweg speichern und bietet einen Datenzugriff mit hohem Durchsatz. 2. MapReduce: wird für die parallele Verarbeitung großer Datensätze verwendet. Es zerlegt Big-Data-Aufgaben in mehrere kleine Aufgaben, verarbeitet sie parallel auf mehreren Knoten und fasst schließlich die Ergebnisse zusammen. 3. YARN: Verantwortlich für die Zuweisung und Verwaltung von Clusterressourcen.

Was sind die drei Kernkomponenten von HADOOP?

Die drei Kernkomponenten von Hadoop sind HDFS (verteilter Dateispeicher), MapReduce (verteiltes Computing) und YARN (Ressourcenplanung).

1. HDFS: HADOOP Distributed File System

HDFS (Hadoop Distributed File System) ist hauptsächlich für die Speicherung und das Lesen von Clusterdaten verantwortlich. Slave-Architektur (Master/Slave) für verteilte Dateisysteme. HDFS unterstützt eine traditionelle hierarchische Dateiorganisationsstruktur, bei der Benutzer oder Anwendungen Verzeichnisse erstellen und dann Dateien in diesen Verzeichnissen speichern können. Die hierarchische Struktur des Dateisystem-Namespace ähnelt der der meisten vorhandenen Dateisysteme. Dateien können über Dateipfade erstellt, gelesen, aktualisiert und gelöscht werden. Aufgrund der Natur des verteilten Speichers unterscheidet er sich jedoch offensichtlich von herkömmlichen Dateisystemen.

HDFS-Vorteile:

Hohe Fehlertoleranz. Die von HDFS hochgeladenen Daten speichern automatisch mehrere Kopien und ihre Fehlertoleranz kann durch Hinzufügen von Daten in den Kopien erhöht werden. Wenn ein Replikat verloren geht, repliziert HDFS das Replikat auf dem anderen Computer, und wir müssen uns nicht um die Implementierung kümmern.
Geeignet für die Verarbeitung großer Datenmengen. HDFS ist in der Lage, Gigabytes, Terabytes und sogar Petabytes an Daten zu verarbeiten, deren Größe bis zu Millionen reicht, was sehr groß ist. (1PB=1024TB, 1TB=1014GB)
Streaming-Datenzugriff. HDFS verwendet ein Streaming-Datenzugriffsmodell, um sehr große Dateien zu speichern, einmal zu schreiben und mehrmals zu lesen. Das heißt, sobald eine Datei geschrieben wurde, kann sie nicht mehr geändert, sondern nur hinzugefügt werden. Dadurch bleibt die Datenkonsistenz erhalten.

2. MapReduce: Datenverarbeitung im großen Maßstab ) und Reduzieren (Reduktion).

Wenn eine MapReduce-Aufgabe gestartet wird, liest die Map-Seite die Daten auf HDFS, ordnet die Daten dem erforderlichen Schlüssel-Wert-Paartyp zu und überträgt sie an die Reduce-Seite. Die Reduce-Seite empfängt die von der Map-Seite übergebenen Schlüssel-Wert-Paar-Daten, gruppiert sie nach verschiedenen Schlüsseln, verarbeitet jede Datengruppe mit demselben Schlüssel, erhält neue Schlüssel-Wert-Paare und gibt sie an HDFS aus. Dies ist der Kern Idee von MapReduce.

Ein vollständiger MapReduce-Prozess umfasst Dateneingabe und Sharding, Datenverarbeitung in der Kartenphase, Datenverarbeitung in der Reduzierphase, Datenausgabe und andere Phasen:

Eingabedaten lesen. Daten im MapReduce-Prozess werden aus dem verteilten HDFS-Dateisystem gelesen. Wenn eine Datei auf HDFS hochgeladen wird, wird sie im Allgemeinen entsprechend 128 MB in mehrere Datenblöcke unterteilt. Wenn Sie also das MapReduce-Programm ausführen, generiert jeder Datenblock eine Karte. Sie können die Anzahl der Karten jedoch auch anpassen, indem Sie die Dateifragmentgröße zurücksetzen . Beim Ausführen von MapReduce wird die Datei entsprechend der eingestellten Fragmentgröße neu aufgeteilt (Split), und ein Datenblock der Fragmentgröße entspricht einer Map.

Shuffle/Sort-Phase: Diese Phase bezieht sich auf den Prozess, bei dem mit der Kartenausgabe begonnen und die Kartenausgabe als Eingabe an Reduce übertragen wird. Bei diesem Prozess werden zunächst die Ausgabedaten mit demselben Schlüssel in derselben Karte integriert, um die übertragene Datenmenge zu reduzieren. Anschließend werden die Daten nach der Integration nach dem Schlüssel sortiert.
Reduzierungsstufe: Es kann auch mehrere Reduzierungsaufgaben geben, die entsprechend der in der Kartenstufe festgelegten Datenpartition bestimmt werden. Eine Partitionsdaten werden von einer Reduzierung verarbeitet. Für jede Reduce-Aufgabe empfängt Reduce Daten von verschiedenen Map-Aufgaben, und die Daten von jeder Map sind in Ordnung. Bei jeder Verarbeitung in einer Reduzieraufgabe werden die Daten für alle Daten mit demselben Schlüssel reduziert und als neues Schlüssel-Wert-Paar an HDFS ausgegeben.
3. Yarn: Ressourcenmanager

Hadoops MapReduce-Architektur heißt YARN (Yet Another Resource Negotiator, ein weiterer Ressourcenkoordinator) und ist der Kern eines effizienteren Ressourcenmanagements.

YARN besteht hauptsächlich aus drei Modulen: Resource Manager (RM), Node Manager (NM) und Application Master (AM):

Resource Manager ist für die Überwachung, Zuweisung und Verwaltung aller Ressourcen verantwortlich;

Node Manager ist für die Wartung jedes Knotens verantwortlich.

Das obige ist der detaillierte Inhalt vonWas sind die drei Kernkomponenten von HADOOP?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7529

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Java-Fehler: Hadoop-Fehler, wie man damit umgeht und sie vermeidet Jun 24, 2023 pm 01:06 PM

Java-Fehler: Hadoop-Fehler, wie man damit umgeht und sie vermeidet Wenn Sie Hadoop zur Verarbeitung großer Datenmengen verwenden, stoßen Sie häufig auf einige Java-Ausnahmefehler, die sich auf die Ausführung von Aufgaben auswirken und zum Scheitern der Datenverarbeitung führen können. In diesem Artikel werden einige häufige Hadoop-Fehler vorgestellt und Möglichkeiten aufgezeigt, mit ihnen umzugehen und sie zu vermeiden. Java.lang.OutOfMemoryErrorOutOfMemoryError ist ein Fehler, der durch unzureichenden Speicher der Java Virtual Machine verursacht wird. Wenn Hadoop ist

Neues Werk von Yan Shuicheng/Cheng Mingming! DiT-Training, die Kernkomponente von Sora, wird um das Zehnfache beschleunigt und Masked Diffusion Transformer V2 ist Open Source Mar 13, 2024 pm 05:58 PM

Als eine der überzeugenden Kerntechnologien von Sora nutzt DiT DiffusionTransformer, um das generative Modell auf einen größeren Maßstab zu erweitern und so hervorragende Bilderzeugungseffekte zu erzielen. Größere Modellgrößen führen jedoch zu einem sprunghaften Anstieg der Schulungskosten. Das Forschungsteam von Yan Shuicheng und Cheng Mingming von SeaAILab, der Nankai University und dem Kunlun Wanwei 2050 Research Institute schlug auf der ICCV2023-Konferenz ein neues Modell namens MaskedDiffusionTransformer vor. Dieses Modell verwendet die Maskenmodellierungstechnologie, um das Training von DiffusionTransfomer durch das Erlernen semantischer Darstellungsinformationen zu beschleunigen und SoTA-Ergebnisse im Bereich der Bilderzeugung zu erzielen. Dieses hier

Verwendung von Hadoop und HBase in Beego für die Speicherung und Abfrage großer Datenmengen Jun 22, 2023 am 10:21 AM

Mit dem Aufkommen des Big-Data-Zeitalters sind Datenverarbeitung und -speicherung immer wichtiger geworden und die effiziente Verwaltung und Analyse großer Datenmengen ist für Unternehmen zu einer Herausforderung geworden. Hadoop und HBase, zwei Projekte der Apache Foundation, bieten eine Lösung für die Speicherung und Analyse großer Datenmengen. In diesem Artikel wird erläutert, wie Sie Hadoop und HBase in Beego für die Speicherung und Abfrage großer Datenmengen verwenden. 1. Einführung in Hadoop und HBase Hadoop ist ein verteiltes Open-Source-Speicher- und Computersystem, das dies kann

Wie man PHP und Hadoop für die Big-Data-Verarbeitung verwendet Jun 19, 2023 pm 02:24 PM

Da die Datenmenge weiter zunimmt, sind herkömmliche Datenverarbeitungsmethoden den Herausforderungen des Big-Data-Zeitalters nicht mehr gewachsen. Hadoop ist ein Open-Source-Framework für verteiltes Computing, das das Leistungsengpassproblem löst, das durch Einzelknotenserver bei der Verarbeitung großer Datenmengen verursacht wird, indem große Datenmengen verteilt gespeichert und verarbeitet werden. PHP ist eine Skriptsprache, die in der Webentwicklung weit verbreitet ist und die Vorteile einer schnellen Entwicklung und einfachen Wartung bietet. In diesem Artikel wird die Verwendung von PHP und Hadoop für die Verarbeitung großer Datenmengen vorgestellt. Was ist HadoopHadoop ist

Umfassende Analyse der Kernkomponenten und Funktionen der Java-Technologieplattform Jan 09, 2024 pm 08:01 PM

Eine eingehende Analyse der Kernkomponenten und Funktionen der Java-Technologieplattform. Java-Technologie ist in vielen Bereichen weit verbreitet und hat sich zu einer gängigen Programmiersprache und Entwicklungsplattform entwickelt. Die Java-Technologieplattform besteht aus einer Reihe von Kernkomponenten und -funktionen, die Entwicklern eine Fülle von Tools und Ressourcen zur Verfügung stellen und so die Java-Entwicklung effizienter und komfortabler machen. In diesem Artikel werden die Kernkomponenten und -funktionen der Java-Technologieplattform eingehend analysiert und ihre Bedeutung und Anwendungsszenarien in der Softwareentwicklung untersucht. Erstens ist die Java Virtual Machine (JVM) Java

Entdecken Sie die Anwendung von Java im Bereich Big Data: Verständnis von Hadoop, Spark, Kafka und anderen Technologie-Stacks Dec 26, 2023 pm 02:57 PM

Java-Big-Data-Technologie-Stack: Verstehen Sie die Anwendung von Java im Bereich Big Data wie Hadoop, Spark, Kafka usw. Da die Datenmenge weiter zunimmt, ist die Big-Data-Technologie im heutigen Internetzeitalter zu einem heißen Thema geworden. Im Bereich Big Data hören wir oft die Namen Hadoop, Spark, Kafka und andere Technologien. Diese Technologien spielen eine entscheidende Rolle, und Java spielt als weit verbreitete Programmiersprache auch im Bereich Big Data eine große Rolle. Dieser Artikel konzentriert sich auf die Anwendung von Java im Großen und Ganzen

So installieren Sie Hadoop unter Linux May 18, 2023 pm 08:19 PM

1: Installieren Sie JDK1. Führen Sie den folgenden Befehl aus, um das JDK1.8-Installationspaket herunterzuladen. wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2. Führen Sie den folgenden Befehl aus, um das heruntergeladene JDK1.8-Installationspaket zu dekomprimieren . tar-zxvfjdk-8u151-linux-x64.tar.gz3. Verschieben Sie das JDK-Paket und benennen Sie es um. mvjdk1.8.0_151//usr/java84. Konfigurieren Sie Java-Umgebungsvariablen. Echo'

Verwenden Sie PHP, um eine groß angelegte Datenverarbeitung zu erreichen: Hadoop, Spark, Flink usw. May 11, 2023 pm 04:13 PM

Da die Datenmenge weiter zunimmt, ist die Datenverarbeitung in großem Maßstab zu einem Problem geworden, dem sich Unternehmen stellen und das sie lösen müssen. Herkömmliche relationale Datenbanken können diesen Bedarf nicht mehr decken. Für die Speicherung und Analyse großer Datenmengen sind verteilte Computerplattformen wie Hadoop, Spark und Flink die beste Wahl. Im Auswahlprozess von Datenverarbeitungstools erfreut sich PHP als einfach zu entwickelnde und zu wartende Sprache bei Entwicklern immer größerer Beliebtheit. In diesem Artikel werden wir untersuchen, wie und wie PHP für die Verarbeitung großer Datenmengen genutzt werden kann