Hadoop implementiert ein verteiltes Dateisystem(HadoopDistributedFileSystem). ), genannt HDFS, verfügt über eine hohe Fehlertoleranz und ist für den Einsatz auf kostengünstiger Hardware konzipiert. Es bietet einen hohen Durchsatz für den Zugriff auf Anwendungsdaten, was für Anwendungen mit großen Datensätzen geeignet ist. .HDFS lockert die POSIX-Anforderungen und ermöglicht den Zugriff auf Daten im Dateisystem in Form von Das Kerndesign von HDFS und
MapReduzierung Daten, und MapReduce bietet Rechenleistung für große Datenmengen. 🎜> Der Name Hadoop ist keine Abkürzung, sondern ein fiktiver Name : „Der Name wurde von meinem Kind einem braunen Elefantenspielzeug gegeben. Hadoop ist eine verteilte Computerplattform, mit der Benutzer sie einfach strukturieren und verwenden können. Benutzer können auf Hadoop problemlos Anwendungen entwickeln und ausführen, die riesige Datenmengen verarbeiten. Es bietet vor allem die folgenden Vorteile:
1. Hohe Zuverlässigkeit Die Fähigkeit von Hadoop, Daten Stück für Stück zu speichern und zu verarbeiten, verdient das Vertrauen der Menschen.
2. Hochskalierbares Hadoop verteilt Daten und erledigt Rechenaufgaben auf verfügbare Computercluster. Diese Cluster können problemlos auf Tausende von Knoten erweitert werden. 3. Effizienz Hadoop kann Daten dynamisch zwischen Knoten verschieben und das dynamische Gleichgewicht jedes Knotens sicherstellen, sodass die Verarbeitungsgeschwindigkeit sehr hoch ist. 4. Hochgradig fehlertolerantes Hadoop kann automatisch mehrere Kopien von Daten speichern und fehlgeschlagene Aufgaben automatisch neu verteilen.
5. Niedrige Kosten Im Vergleich zu All-in-One-Computern, kommerziellen Data Warehouses und Data Marts wie QlikView und YonghongZ-Suite ist Hadoop Open Source, sodass die Softwarekosten des Projekts erheblich reduziert werden.
Hadoop wird mit einem in Java geschriebenen Framework geliefert und ist daher ideal für die Ausführung auf
Linux
Produktionsplattformen. Anwendungen auf Hadoop können auch in anderen Sprachen, beispielsweise C++, geschrieben werden.
Die Bedeutung der Hadoop-Big-Data-Verarbeitung
Hadoops breite Anwendung in Big-Data-Verarbeitungsanwendungen profitiert von seinen natürlichen Vorteilen bei der Datenextraktion, -transformation und -ladung (ETL). Die verteilte Architektur von Hadoop platziert die Big-Data-Verarbeitungs-Engine so nah wie möglich am Speicher, was für Stapelverarbeitungsvorgänge wie ETL relativ geeignet ist, da die Stapelverarbeitungsergebnisse solcher Vorgänge direkt in den Speicher gelangen können. Die MapReduce-Funktion von Hadoop zerlegt eine einzelne Aufgabe in Teile, sendet die fragmentierten Aufgaben (Map) an mehrere Knoten und lädt (Reduce) sie dann in Form eines einzelnen Datensatzes in das Data Warehouse. Informationen zur Hadoop-Lernroute auf der chinesischen PHP-Website: 1. HadoopCommon: Ein Modul am unteren Rand des Hadoop-Systems, das verschiedene Tools für Hadoop-Unterprojekte bereitstellt, z. B.:
Konfigurationsdateien
und Protokoll Operationen usw. .
2. HDFS: Verteiltes Dateisystem, das externen Clients den Zugriff auf Anwendungsdaten mit hohem Durchsatz ermöglicht. HDFS ähnelt einem herkömmlichen hierarchischen Dateisystem. Dateien können erstellt,
gelöscht, verschoben oder umbenannt werden und vieles mehr. Die Architektur von HDFS basiert jedoch auf einem bestimmten Satz von Knoten (siehe Abbildung 1), der durch seine eigenen Eigenschaften bestimmt wird. Zu diesen Knoten gehört NameNode (nur einer), der Metadatendienste innerhalb von HDFS bereitstellt; DataNode, der Speicherblöcke für HDFS bereitstellt. Dies ist ein Nachteil (Single Point of Failure) von HDFS, da nur ein NameNode vorhanden ist. In HDFS gespeicherte Dateien werden in Blöcke unterteilt und diese Blöcke werden dann auf mehrere Computer kopiert (DataNode). Dies unterscheidet sich stark von der herkömmlichen RAID-Architektur. Die Blockgröße (normalerweise 64 MB) und die Anzahl der kopierten Blöcke werden vom Client beim Erstellen der Datei festgelegt. NameNode kann alle Dateivorgänge steuern. Die gesamte Kommunikation innerhalb von HDFS basiert auf dem Standardprotokoll
TCP/IP. 3. MapReduce: ein Software-Framework für verteilte Massendatenverarbeitungs-Computing-Cluster.
4. Avro: RPC-Projekt, gehostet von Dougcutting, hauptsächlich verantwortlich für die Datenserialisierung . Etwas ähnlich zu Googles Protobuf und Facebooks Thr
if
t. avro wird künftig für Hadoops RPC verwendet, wodurch die RPC-Modulkommunikation von Hadoop schneller und die Datenstruktur kompakter wird. 5. Hive: Ähnlich wie CloudBase handelt es sich auch um eine Reihe von Software, die auf der verteilten Hadoop-Computing-Plattform basiert und die SQL-Funktion von Datawarehouse bereitstellt. Es vereinfacht die Zusammenfassung und Ad-hoc-Abfrage großer Datenmengen, die in Hadoop gespeichert sind. Hive bietet eine Reihe von QL-Abfragesprachen, die auf SQL basieren und sehr bequem zu verwenden sind.
6. HBase: Basierend auf HadoopDistributedFileSystem ist es eine Open-Source-, skalierbare verteilte Datenbank , die auf dem Spaltenspeichermodell basiert und die Speicherung strukturierter Daten in großen Tabellen unterstützt.
Pig: Es handelt sich um eine erweiterte Datenflusssprache und ein SQL-ähnliches Ausführungsframework, das auf MapReduce basiert. Es kompiliert einige Operationen in das MapReduce-Modell Benutzer können ihre eigenen Funktionen definieren.
8. ZooKeeper: Eine Open-Source-Implementierung von Googles Chubby. Es ist ein zuverlässiges Koordinationssystem für große verteilte Systeme. Es bietet Funktionen wie Konfigurationswartung, Namensdienst, verteilte Synchronisierung, Gruppendienst usw. Das Ziel von ZooKeeper besteht darin, komplexe und fehleranfällige Schlüsseldienste zu kapseln und Benutzern einfache und benutzerfreundliche Schnittstellen sowie ein System mit effizienter Leistung und stabilen Funktionen bereitzustellen.
9. Chukwa: Ein Datenerfassungssystem zur Verwaltung großer verteilter Systeme, bereitgestellt von Yahoo.
10. Cassandra: Eine skalierbare Multi-Master-Datenbank ohne Single Point of Failure.
11. Mahout: eine skalierbare Bibliothek für maschinelles Lernen und Data Mining.
Die ursprünglichen Designziele von Hadoop waren hohe Zuverlässigkeit, hohe Skalierbarkeit, hohe Fehlertoleranz und hohe Effizienz. Es sind diese inhärenten Designvorteile, die Hadoop von Anfang an bei vielen großen Unternehmen beliebt gemacht und auch weit verbreitet gemacht haben Aufmerksamkeit seitens der Forschungsgemeinschaft. Bisher ist die Hadoop-Technologie im Internetbereich weit verbreitet.
Das Obige ist eine detaillierte Einführung in Hadoop und den Hadoop-Lernweg. Wenn Sie weitere Neuigkeiten und Informationen über Hadoop erfahren möchten, schauen Sie sich bitte die offizielle Website der Plattform, WeChat und andere Plattformen an Die Karriere-Online-Lern- und Bildungsplattform bietet Ihnen Autorität. Der Big-Data-Hadoop-Schulungskurs und das Video-Tutorialsystem sind das erste adaptive Hadoop-Online-Videokurssystem, das online von einem Dozenten mit Goldmedaille auf der großen Plattform aufgezeichnet wurde um schnell die praktischen Fähigkeiten von Hadoop zu beherrschen, vom Einstieg bis zur Beherrschung der Big-Data-Entwicklung.
Das obige ist der detaillierte Inhalt vonEine kurze Diskussion darüber, was Hadoop ist und welchen Lernweg es bietet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!