Heim Web-Frontend HTML-Tutorial Eine kurze Diskussion darüber, was Hadoop ist und welchen Lernweg es bietet

Eine kurze Diskussion darüber, was Hadoop ist und welchen Lernweg es bietet

Mar 14, 2017 am 09:46 AM

Hadoop implementiert ein verteiltes Dateisystem(HadoopDistributedFileSystem). ), genannt HDFS, verfügt über eine hohe Fehlertoleranz und ist für den Einsatz auf kostengünstiger Hardware konzipiert. Es bietet einen hohen Durchsatz für den Zugriff auf Anwendungsdaten, was für Anwendungen mit großen Datensätzen geeignet ist. .HDFS lockert die POSIX-Anforderungen und ermöglicht den Zugriff auf Daten im Dateisystem in Form von Das Kerndesign von HDFS und
MapReduzierung Daten, und MapReduce bietet Rechenleistung für große Datenmengen. 🎜> Der Name Hadoop ist keine Abkürzung, sondern ein fiktiver Name : „Der Name wurde von meinem Kind einem braunen Elefantenspielzeug gegeben. Hadoop ist eine verteilte Computerplattform, mit der Benutzer sie einfach strukturieren und verwenden können. Benutzer können auf Hadoop problemlos Anwendungen entwickeln und ausführen, die riesige Datenmengen verarbeiten. Es bietet vor allem die folgenden Vorteile:
1. Hohe Zuverlässigkeit Die Fähigkeit von Hadoop, Daten Stück für Stück zu speichern und zu verarbeiten, verdient das Vertrauen der Menschen.
2. Hochskalierbares Hadoop verteilt Daten und erledigt Rechenaufgaben auf verfügbare Computercluster. Diese Cluster können problemlos auf Tausende von Knoten erweitert werden. 3. Effizienz Hadoop kann Daten dynamisch zwischen Knoten verschieben und das dynamische Gleichgewicht jedes Knotens sicherstellen, sodass die Verarbeitungsgeschwindigkeit sehr hoch ist. 4. Hochgradig fehlertolerantes Hadoop kann automatisch mehrere Kopien von Daten speichern und fehlgeschlagene Aufgaben automatisch neu verteilen.
5. Niedrige Kosten Im Vergleich zu All-in-One-Computern, kommerziellen Data Warehouses und Data Marts wie QlikView und YonghongZ-Suite ist Hadoop Open Source, sodass die Softwarekosten des Projekts erheblich reduziert werden.
Hadoop wird mit einem in Java geschriebenen Framework geliefert und ist daher ideal für die Ausführung auf
Linux
Produktionsplattformen. Anwendungen auf Hadoop können auch in anderen Sprachen, beispielsweise C++, geschrieben werden.
Die Bedeutung der Hadoop-Big-Data-Verarbeitung
Hadoops breite Anwendung in Big-Data-Verarbeitungsanwendungen profitiert von seinen natürlichen Vorteilen bei der Datenextraktion, -transformation und -ladung (ETL). Die verteilte Architektur von Hadoop platziert die Big-Data-Verarbeitungs-Engine so nah wie möglich am Speicher, was für Stapelverarbeitungsvorgänge wie ETL relativ geeignet ist, da die Stapelverarbeitungsergebnisse solcher Vorgänge direkt in den Speicher gelangen können. Die MapReduce-Funktion von Hadoop zerlegt eine einzelne Aufgabe in Teile, sendet die fragmentierten Aufgaben (Map) an mehrere Knoten und lädt (Reduce) sie dann in Form eines einzelnen Datensatzes in das Data Warehouse. Informationen zur Hadoop-Lernroute auf der chinesischen PHP-Website: 1. HadoopCommon: Ein Modul am unteren Rand des Hadoop-Systems, das verschiedene Tools für Hadoop-Unterprojekte bereitstellt, z. B.:
Konfigurationsdateien
und Protokoll Operationen usw. .
2. HDFS: Verteiltes Dateisystem, das externen Clients den Zugriff auf Anwendungsdaten mit hohem Durchsatz ermöglicht. HDFS ähnelt einem herkömmlichen hierarchischen Dateisystem. Dateien können erstellt,
gelöscht, verschoben oder umbenannt werden und vieles mehr. Die Architektur von HDFS basiert jedoch auf einem bestimmten Satz von Knoten (siehe Abbildung 1), der durch seine eigenen Eigenschaften bestimmt wird. Zu diesen Knoten gehört NameNode (nur einer), der Metadatendienste innerhalb von HDFS bereitstellt; DataNode, der Speicherblöcke für HDFS bereitstellt. Dies ist ein Nachteil (Single Point of Failure) von HDFS, da nur ein NameNode vorhanden ist. In HDFS gespeicherte Dateien werden in Blöcke unterteilt und diese Blöcke werden dann auf mehrere Computer kopiert (DataNode). Dies unterscheidet sich stark von der herkömmlichen RAID-Architektur. Die Blockgröße (normalerweise 64 MB) und die Anzahl der kopierten Blöcke werden vom Client beim Erstellen der Datei festgelegt. NameNode kann alle Dateivorgänge steuern. Die gesamte Kommunikation innerhalb von HDFS basiert auf dem Standardprotokoll
TCP/IP. 3. MapReduce: ein Software-Framework für verteilte Massendatenverarbeitungs-Computing-Cluster.
4. Avro: RPC-Projekt, gehostet von Dougcutting, hauptsächlich verantwortlich für die Datenserialisierung . Etwas ähnlich zu Googles Protobuf und Facebooks Thr
if
t. avro wird künftig für Hadoops RPC verwendet, wodurch die RPC-Modulkommunikation von Hadoop schneller und die Datenstruktur kompakter wird. 5. Hive: Ähnlich wie CloudBase handelt es sich auch um eine Reihe von Software, die auf der verteilten Hadoop-Computing-Plattform basiert und die SQL-Funktion von Datawarehouse bereitstellt. Es vereinfacht die Zusammenfassung und Ad-hoc-Abfrage großer Datenmengen, die in Hadoop gespeichert sind. Hive bietet eine Reihe von QL-Abfragesprachen, die auf SQL basieren und sehr bequem zu verwenden sind.
 6. HBase: Basierend auf HadoopDistributedFileSystem ist es eine Open-Source-, skalierbare verteilte Datenbank , die auf dem Spaltenspeichermodell basiert und die Speicherung strukturierter Daten in großen Tabellen unterstützt.
Pig: Es handelt sich um eine erweiterte Datenflusssprache und ein SQL-ähnliches Ausführungsframework, das auf MapReduce basiert. Es kompiliert einige Operationen in das MapReduce-Modell Benutzer können ihre eigenen Funktionen definieren.
8. ZooKeeper: Eine Open-Source-Implementierung von Googles Chubby. Es ist ein zuverlässiges Koordinationssystem für große verteilte Systeme. Es bietet Funktionen wie Konfigurationswartung, Namensdienst, verteilte Synchronisierung, Gruppendienst usw. Das Ziel von ZooKeeper besteht darin, komplexe und fehleranfällige Schlüsseldienste zu kapseln und Benutzern einfache und benutzerfreundliche Schnittstellen sowie ein System mit effizienter Leistung und stabilen Funktionen bereitzustellen.
9. Chukwa: Ein Datenerfassungssystem zur Verwaltung großer verteilter Systeme, bereitgestellt von Yahoo.
 10. Cassandra: Eine skalierbare Multi-Master-Datenbank ohne Single Point of Failure.
11. Mahout: eine skalierbare Bibliothek für maschinelles Lernen und Data Mining.
Die ursprünglichen Designziele von Hadoop waren hohe Zuverlässigkeit, hohe Skalierbarkeit, hohe Fehlertoleranz und hohe Effizienz. Es sind diese inhärenten Designvorteile, die Hadoop von Anfang an bei vielen großen Unternehmen beliebt gemacht und auch weit verbreitet gemacht haben Aufmerksamkeit seitens der Forschungsgemeinschaft. Bisher ist die Hadoop-Technologie im Internetbereich weit verbreitet.
Das Obige ist eine detaillierte Einführung in Hadoop und den Hadoop-Lernweg. Wenn Sie weitere Neuigkeiten und Informationen über Hadoop erfahren möchten, schauen Sie sich bitte die offizielle Website der Plattform, WeChat und andere Plattformen an Die Karriere-Online-Lern- und Bildungsplattform bietet Ihnen Autorität. Der Big-Data-Hadoop-Schulungskurs und das Video-Tutorialsystem sind das erste adaptive Hadoop-Online-Videokurssystem, das online von einem Dozenten mit Goldmedaille auf der großen Plattform aufgezeichnet wurde um schnell die praktischen Fähigkeiten von Hadoop zu beherrschen, vom Einstieg bis zur Beherrschung der Big-Data-Entwicklung.

Das obige ist der detaillierte Inhalt vonEine kurze Diskussion darüber, was Hadoop ist und welchen Lernweg es bietet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Java-Fehler: Hadoop-Fehler, wie man damit umgeht und sie vermeidet Java-Fehler: Hadoop-Fehler, wie man damit umgeht und sie vermeidet Jun 24, 2023 pm 01:06 PM

Java-Fehler: Hadoop-Fehler, wie man damit umgeht und sie vermeidet Wenn Sie Hadoop zur Verarbeitung großer Datenmengen verwenden, stoßen Sie häufig auf einige Java-Ausnahmefehler, die sich auf die Ausführung von Aufgaben auswirken und zum Scheitern der Datenverarbeitung führen können. In diesem Artikel werden einige häufige Hadoop-Fehler vorgestellt und Möglichkeiten aufgezeigt, mit ihnen umzugehen und sie zu vermeiden. Java.lang.OutOfMemoryErrorOutOfMemoryError ist ein Fehler, der durch unzureichenden Speicher der Java Virtual Machine verursacht wird. Wenn Hadoop ist

Wie lerne ich die PHP-Entwicklung? Wie lerne ich die PHP-Entwicklung? Jun 12, 2023 am 08:09 AM

Mit der Entwicklung des Internets steigt die Nachfrage nach dynamischen Webseiten. Als gängige Programmiersprache wird PHP häufig in der Webentwicklung verwendet. Wie lernt man als Anfänger die PHP-Entwicklung? 1. Verstehen Sie die Grundkenntnisse von PHP. PHP ist eine Skriptsprache, die direkt in HTML-Code eingebettet und über einen Webserver analysiert und ausgeführt werden kann. Bevor Sie PHP lernen, sollten Sie sich daher zunächst mit den Grundlagen von Front-End-Technologien wie HTML, CSS und JavaScript vertraut machen, um besser zu verstehen, wie PHP funktioniert.

Verwendung von Hadoop und HBase in Beego für die Speicherung und Abfrage großer Datenmengen Verwendung von Hadoop und HBase in Beego für die Speicherung und Abfrage großer Datenmengen Jun 22, 2023 am 10:21 AM

Mit dem Aufkommen des Big-Data-Zeitalters sind Datenverarbeitung und -speicherung immer wichtiger geworden und die effiziente Verwaltung und Analyse großer Datenmengen ist für Unternehmen zu einer Herausforderung geworden. Hadoop und HBase, zwei Projekte der Apache Foundation, bieten eine Lösung für die Speicherung und Analyse großer Datenmengen. In diesem Artikel wird erläutert, wie Sie Hadoop und HBase in Beego für die Speicherung und Abfrage großer Datenmengen verwenden. 1. Einführung in Hadoop und HBase Hadoop ist ein verteiltes Open-Source-Speicher- und Computersystem, das dies kann

Wie man PHP und Hadoop für die Big-Data-Verarbeitung verwendet Wie man PHP und Hadoop für die Big-Data-Verarbeitung verwendet Jun 19, 2023 pm 02:24 PM

Da die Datenmenge weiter zunimmt, sind herkömmliche Datenverarbeitungsmethoden den Herausforderungen des Big-Data-Zeitalters nicht mehr gewachsen. Hadoop ist ein Open-Source-Framework für verteiltes Computing, das das Leistungsengpassproblem löst, das durch Einzelknotenserver bei der Verarbeitung großer Datenmengen verursacht wird, indem große Datenmengen verteilt gespeichert und verarbeitet werden. PHP ist eine Skriptsprache, die in der Webentwicklung weit verbreitet ist und die Vorteile einer schnellen Entwicklung und einfachen Wartung bietet. In diesem Artikel wird die Verwendung von PHP und Hadoop für die Verarbeitung großer Datenmengen vorgestellt. Was ist HadoopHadoop ist

Entdecken Sie die Anwendung von Java im Bereich Big Data: Verständnis von Hadoop, Spark, Kafka und anderen Technologie-Stacks Entdecken Sie die Anwendung von Java im Bereich Big Data: Verständnis von Hadoop, Spark, Kafka und anderen Technologie-Stacks Dec 26, 2023 pm 02:57 PM

Java-Big-Data-Technologie-Stack: Verstehen Sie die Anwendung von Java im Bereich Big Data wie Hadoop, Spark, Kafka usw. Da die Datenmenge weiter zunimmt, ist die Big-Data-Technologie im heutigen Internetzeitalter zu einem heißen Thema geworden. Im Bereich Big Data hören wir oft die Namen Hadoop, Spark, Kafka und andere Technologien. Diese Technologien spielen eine entscheidende Rolle, und Java spielt als weit verbreitete Programmiersprache auch im Bereich Big Data eine große Rolle. Dieser Artikel konzentriert sich auf die Anwendung von Java im Großen und Ganzen

So installieren Sie Hadoop unter Linux So installieren Sie Hadoop unter Linux May 18, 2023 pm 08:19 PM

1: Installieren Sie JDK1. Führen Sie den folgenden Befehl aus, um das JDK1.8-Installationspaket herunterzuladen. wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2. Führen Sie den folgenden Befehl aus, um das heruntergeladene JDK1.8-Installationspaket zu dekomprimieren . tar-zxvfjdk-8u151-linux-x64.tar.gz3. Verschieben Sie das JDK-Paket und benennen Sie es um. mvjdk1.8.0_151//usr/java84. Konfigurieren Sie Java-Umgebungsvariablen. Echo'

Verwenden Sie PHP, um eine groß angelegte Datenverarbeitung zu erreichen: Hadoop, Spark, Flink usw. Verwenden Sie PHP, um eine groß angelegte Datenverarbeitung zu erreichen: Hadoop, Spark, Flink usw. May 11, 2023 pm 04:13 PM

Da die Datenmenge weiter zunimmt, ist die Datenverarbeitung in großem Maßstab zu einem Problem geworden, dem sich Unternehmen stellen und das sie lösen müssen. Herkömmliche relationale Datenbanken können diesen Bedarf nicht mehr decken. Für die Speicherung und Analyse großer Datenmengen sind verteilte Computerplattformen wie Hadoop, Spark und Flink die beste Wahl. Im Auswahlprozess von Datenverarbeitungstools erfreut sich PHP als einfach zu entwickelnde und zu wartende Sprache bei Entwicklern immer größerer Beliebtheit. In diesem Artikel werden wir untersuchen, wie und wie PHP für die Verarbeitung großer Datenmengen genutzt werden kann

Detaillierte Erläuterung der Python-Lernroute für Fortgeschrittene Detaillierte Erläuterung der Python-Lernroute für Fortgeschrittene Jun 10, 2023 am 10:46 AM

Python ist eine leistungsstarke Programmiersprache, die in vielen Bereichen zu einer der beliebtesten Sprachen geworden ist. Von einfacher Skripterstellung bis hin zu komplexen Webanwendungen und wissenschaftlichen Berechnungen kann Python alles. In diesem Artikel wird der fortgeschrittene Lernweg von Python vorgestellt und ein klarer Lernpfad bereitgestellt, der Ihnen hilft, die fortgeschrittenen Fähigkeiten der Python-Programmierung zu erlernen. Verbesserung der Grundkenntnisse Bevor wir mit dem fortgeschrittenen Erlernen von Python beginnen, müssen wir die Grundkenntnisse von Python überprüfen. Dazu gehören Python-Syntax und Daten

See all articles