Was sind die drei Kernkomponenten von HADOOP?
Die drei Kernkomponenten von HADOOP sind HDFS, MapReduce und YARN. Detaillierte Einführung: 1. HDFS: Verteiltes Dateisystem, das zum Speichern großer Datenmengen in Hadoop-Clustern verwendet wird. Es verfügt über eine hohe Fehlertoleranz, kann Daten über mehrere Datenknoten hinweg speichern und bietet einen Datenzugriff mit hohem Durchsatz. 2. MapReduce: wird für die parallele Verarbeitung großer Datensätze verwendet. Es zerlegt Big-Data-Aufgaben in mehrere kleine Aufgaben, verarbeitet sie parallel auf mehreren Knoten und fasst schließlich die Ergebnisse zusammen. 3. YARN: Verantwortlich für die Zuweisung und Verwaltung von Clusterressourcen.
Die drei Kernkomponenten von Hadoop sind HDFS (verteilter Dateispeicher), MapReduce (verteiltes Computing) und YARN (Ressourcenplanung).
1. HDFS: HADOOP Distributed File System
HDFS (Hadoop Distributed File System) ist hauptsächlich für die Speicherung und das Lesen von Clusterdaten verantwortlich. Slave-Architektur (Master/Slave) für verteilte Dateisysteme. HDFS unterstützt eine traditionelle hierarchische Dateiorganisationsstruktur, bei der Benutzer oder Anwendungen Verzeichnisse erstellen und dann Dateien in diesen Verzeichnissen speichern können. Die hierarchische Struktur des Dateisystem-Namespace ähnelt der der meisten vorhandenen Dateisysteme. Dateien können über Dateipfade erstellt, gelesen, aktualisiert und gelöscht werden. Aufgrund der Natur des verteilten Speichers unterscheidet er sich jedoch offensichtlich von herkömmlichen Dateisystemen.
HDFS-Vorteile:
- Hohe Fehlertoleranz. Die von HDFS hochgeladenen Daten speichern automatisch mehrere Kopien und ihre Fehlertoleranz kann durch Hinzufügen von Daten in den Kopien erhöht werden. Wenn ein Replikat verloren geht, repliziert HDFS das Replikat auf dem anderen Computer, und wir müssen uns nicht um die Implementierung kümmern.
- Geeignet für die Verarbeitung großer Datenmengen. HDFS ist in der Lage, Gigabytes, Terabytes und sogar Petabytes an Daten zu verarbeiten, deren Größe bis zu Millionen reicht, was sehr groß ist. (1PB=1024TB, 1TB=1014GB)
- Streaming-Datenzugriff. HDFS verwendet ein Streaming-Datenzugriffsmodell, um sehr große Dateien zu speichern, einmal zu schreiben und mehrmals zu lesen. Das heißt, sobald eine Datei geschrieben wurde, kann sie nicht mehr geändert, sondern nur hinzugefügt werden. Dadurch bleibt die Datenkonsistenz erhalten.
2. MapReduce: Datenverarbeitung im großen Maßstab ) und Reduzieren (Reduktion).
Wenn eine MapReduce-Aufgabe gestartet wird, liest die Map-Seite die Daten auf HDFS, ordnet die Daten dem erforderlichen Schlüssel-Wert-Paartyp zu und überträgt sie an die Reduce-Seite. Die Reduce-Seite empfängt die von der Map-Seite übergebenen Schlüssel-Wert-Paar-Daten, gruppiert sie nach verschiedenen Schlüsseln, verarbeitet jede Datengruppe mit demselben Schlüssel, erhält neue Schlüssel-Wert-Paare und gibt sie an HDFS aus. Dies ist der Kern Idee von MapReduce. Ein vollständiger MapReduce-Prozess umfasst Dateneingabe und Sharding, Datenverarbeitung in der Kartenphase, Datenverarbeitung in der Reduzierphase, Datenausgabe und andere Phasen:Eingabedaten lesen. Daten im MapReduce-Prozess werden aus dem verteilten HDFS-Dateisystem gelesen. Wenn eine Datei auf HDFS hochgeladen wird, wird sie im Allgemeinen entsprechend 128 MB in mehrere Datenblöcke unterteilt. Wenn Sie also das MapReduce-Programm ausführen, generiert jeder Datenblock eine Karte. Sie können die Anzahl der Karten jedoch auch anpassen, indem Sie die Dateifragmentgröße zurücksetzen . Beim Ausführen von MapReduce wird die Datei entsprechend der eingestellten Fragmentgröße neu aufgeteilt (Split), und ein Datenblock der Fragmentgröße entspricht einer Map.
- Kartenbühne. Das Programm verfügt über eine oder mehrere Maps, die durch die Standardanzahl an Speicher oder Shards bestimmt werden. Für die Map-Phase werden Daten in Form von Schlüssel-Wert-Paaren gelesen. Der Wert des Schlüssels ist im Allgemeinen der Versatz zwischen dem ersten Zeichen jeder Zeile und der Anfangsposition der Datei, also der Anzahl der Zeichen dazwischen , und der Wert ist der Datensatz dieser Zeile. Verarbeiten Sie Schlüssel-Wert-Paare gemäß den Anforderungen, ordnen Sie sie neuen Schlüssel-Wert-Paaren zu und übergeben Sie die neuen Schlüssel-Wert-Paare an die Seite „Reduzieren“.
- Shuffle/Sort-Phase: Diese Phase bezieht sich auf den Prozess, bei dem mit der Kartenausgabe begonnen und die Kartenausgabe als Eingabe an Reduce übertragen wird. Bei diesem Prozess werden zunächst die Ausgabedaten mit demselben Schlüssel in derselben Karte integriert, um die übertragene Datenmenge zu reduzieren. Anschließend werden die Daten nach der Integration nach dem Schlüssel sortiert.
- Reduzierungsstufe: Es kann auch mehrere Reduzierungsaufgaben geben, die entsprechend der in der Kartenstufe festgelegten Datenpartition bestimmt werden. Eine Partitionsdaten werden von einer Reduzierung verarbeitet. Für jede Reduce-Aufgabe empfängt Reduce Daten von verschiedenen Map-Aufgaben, und die Daten von jeder Map sind in Ordnung. Bei jeder Verarbeitung in einer Reduzieraufgabe werden die Daten für alle Daten mit demselben Schlüssel reduziert und als neues Schlüssel-Wert-Paar an HDFS ausgegeben.
- 3. Yarn: Ressourcenmanager
Hadoops MapReduce-Architektur heißt YARN (Yet Another Resource Negotiator, ein weiterer Ressourcenkoordinator) und ist der Kern eines effizienteren Ressourcenmanagements.
YARN besteht hauptsächlich aus drei Modulen: Resource Manager (RM), Node Manager (NM) und Application Master (AM):Resource Manager ist für die Überwachung, Zuweisung und Verwaltung aller Ressourcen verantwortlich;
- Application Master ist für die jeweilige Planung und Koordination der Anwendungen verantwortlich;
- Node Manager ist für die Wartung jedes Knotens verantwortlich.
Das obige ist der detaillierte Inhalt vonWas sind die drei Kernkomponenten von HADOOP?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Java-Fehler: Hadoop-Fehler, wie man damit umgeht und sie vermeidet Wenn Sie Hadoop zur Verarbeitung großer Datenmengen verwenden, stoßen Sie häufig auf einige Java-Ausnahmefehler, die sich auf die Ausführung von Aufgaben auswirken und zum Scheitern der Datenverarbeitung führen können. In diesem Artikel werden einige häufige Hadoop-Fehler vorgestellt und Möglichkeiten aufgezeigt, mit ihnen umzugehen und sie zu vermeiden. Java.lang.OutOfMemoryErrorOutOfMemoryError ist ein Fehler, der durch unzureichenden Speicher der Java Virtual Machine verursacht wird. Wenn Hadoop ist

Als eine der überzeugenden Kerntechnologien von Sora nutzt DiT DiffusionTransformer, um das generative Modell auf einen größeren Maßstab zu erweitern und so hervorragende Bilderzeugungseffekte zu erzielen. Größere Modellgrößen führen jedoch zu einem sprunghaften Anstieg der Schulungskosten. Das Forschungsteam von Yan Shuicheng und Cheng Mingming von SeaAILab, der Nankai University und dem Kunlun Wanwei 2050 Research Institute schlug auf der ICCV2023-Konferenz ein neues Modell namens MaskedDiffusionTransformer vor. Dieses Modell verwendet die Maskenmodellierungstechnologie, um das Training von DiffusionTransfomer durch das Erlernen semantischer Darstellungsinformationen zu beschleunigen und SoTA-Ergebnisse im Bereich der Bilderzeugung zu erzielen. Dieses hier

Mit dem Aufkommen des Big-Data-Zeitalters sind Datenverarbeitung und -speicherung immer wichtiger geworden und die effiziente Verwaltung und Analyse großer Datenmengen ist für Unternehmen zu einer Herausforderung geworden. Hadoop und HBase, zwei Projekte der Apache Foundation, bieten eine Lösung für die Speicherung und Analyse großer Datenmengen. In diesem Artikel wird erläutert, wie Sie Hadoop und HBase in Beego für die Speicherung und Abfrage großer Datenmengen verwenden. 1. Einführung in Hadoop und HBase Hadoop ist ein verteiltes Open-Source-Speicher- und Computersystem, das dies kann

Da die Datenmenge weiter zunimmt, sind herkömmliche Datenverarbeitungsmethoden den Herausforderungen des Big-Data-Zeitalters nicht mehr gewachsen. Hadoop ist ein Open-Source-Framework für verteiltes Computing, das das Leistungsengpassproblem löst, das durch Einzelknotenserver bei der Verarbeitung großer Datenmengen verursacht wird, indem große Datenmengen verteilt gespeichert und verarbeitet werden. PHP ist eine Skriptsprache, die in der Webentwicklung weit verbreitet ist und die Vorteile einer schnellen Entwicklung und einfachen Wartung bietet. In diesem Artikel wird die Verwendung von PHP und Hadoop für die Verarbeitung großer Datenmengen vorgestellt. Was ist HadoopHadoop ist

Eine eingehende Analyse der Kernkomponenten und Funktionen der Java-Technologieplattform. Java-Technologie ist in vielen Bereichen weit verbreitet und hat sich zu einer gängigen Programmiersprache und Entwicklungsplattform entwickelt. Die Java-Technologieplattform besteht aus einer Reihe von Kernkomponenten und -funktionen, die Entwicklern eine Fülle von Tools und Ressourcen zur Verfügung stellen und so die Java-Entwicklung effizienter und komfortabler machen. In diesem Artikel werden die Kernkomponenten und -funktionen der Java-Technologieplattform eingehend analysiert und ihre Bedeutung und Anwendungsszenarien in der Softwareentwicklung untersucht. Erstens ist die Java Virtual Machine (JVM) Java

Java-Big-Data-Technologie-Stack: Verstehen Sie die Anwendung von Java im Bereich Big Data wie Hadoop, Spark, Kafka usw. Da die Datenmenge weiter zunimmt, ist die Big-Data-Technologie im heutigen Internetzeitalter zu einem heißen Thema geworden. Im Bereich Big Data hören wir oft die Namen Hadoop, Spark, Kafka und andere Technologien. Diese Technologien spielen eine entscheidende Rolle, und Java spielt als weit verbreitete Programmiersprache auch im Bereich Big Data eine große Rolle. Dieser Artikel konzentriert sich auf die Anwendung von Java im Großen und Ganzen

1: Installieren Sie JDK1. Führen Sie den folgenden Befehl aus, um das JDK1.8-Installationspaket herunterzuladen. wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2. Führen Sie den folgenden Befehl aus, um das heruntergeladene JDK1.8-Installationspaket zu dekomprimieren . tar-zxvfjdk-8u151-linux-x64.tar.gz3. Verschieben Sie das JDK-Paket und benennen Sie es um. mvjdk1.8.0_151//usr/java84. Konfigurieren Sie Java-Umgebungsvariablen. Echo'

Da die Datenmenge weiter zunimmt, ist die Datenverarbeitung in großem Maßstab zu einem Problem geworden, dem sich Unternehmen stellen und das sie lösen müssen. Herkömmliche relationale Datenbanken können diesen Bedarf nicht mehr decken. Für die Speicherung und Analyse großer Datenmengen sind verteilte Computerplattformen wie Hadoop, Spark und Flink die beste Wahl. Im Auswahlprozess von Datenverarbeitungstools erfreut sich PHP als einfach zu entwickelnde und zu wartende Sprache bei Entwicklern immer größerer Beliebtheit. In diesem Artikel werden wir untersuchen, wie und wie PHP für die Verarbeitung großer Datenmengen genutzt werden kann