Was ist Hadoop?
(1)Hadoop ist ein Open-Source-Framework, das verteilte Anwendungen schreiben und ausführen kann, um große Datenmengen zu verarbeiten Datenanalyse Das Design ist nicht für den Online-Transaktionsverarbeitungsmodus geeignet, bei dem mehrere Datensätze zufällig gelesen und geschrieben werden. (Empfohlenes Lernen: Web-Front-End-Video-Tutorial)
Hadoop=HDFS (Dateisystem, Datenspeichertechnologie bezogen) + Mapreduce (Datenverarbeitung), die Datenquelle von Hadoop kann sein Jede Form bietet im Vergleich zu relationalen Datenbanken eine bessere Leistung bei der Verarbeitung halbstrukturierter und unstrukturierter Daten und flexiblere Verarbeitungsmöglichkeiten. Unabhängig von der Datenform werden sie letztendlich in Schlüssel/Werte umgewandelt Grunddaten.
Verwenden Sie funktionale Ausdrücke in Mapreduce anstelle von SQL, während Mapreduce für relationale Datenbanken stattdessen das Open-Source-Tool Hive verwendet.
(2)Hadoop ist eine verteilte Computerlösung.
Was kann Hadoop?
Hadoop ist gut in der Protokollanalyse und Facebook verwendet Hive für die Protokollanalyse. Im Jahr 2009 verwendeten 30 % der Nicht-Programmierer bei Facebook HiveQL für die Datenanalyse; wird auch für die benutzerdefinierte Filterung bei Suchanfragen verwendet; Pig kann auch für die erweiterte Datenverarbeitung verwendet werden, einschließlich der Entdeckung von Personen, die Sie möglicherweise auf Twitter und LinkedIn kennen, wodurch ein Empfehlungseffekt ähnlich der kollaborativen Filterung von Amazon.com erzielt werden kann.
Die Produktempfehlungen von Taobao sind ebenfalls verfügbar! Bei Yahoo! 40 % der Hadoop-Jobs werden mit Pig ausgeführt, einschließlich Spam-Identifizierung und -Filterung sowie Modellierung von Benutzerfunktionen.
Unten befindet sich das Hadoop Distributed File System (HDFS), das Dateien auf allen Speicherknoten im Hadoop-Cluster speichert.
Die obere Schicht von HDFS ist die MapReduce-Engine, die aus JobTrackern und TaskTrackern besteht. Durch die Einführung des verteilten Kerndateisystems HDFS und der MapReduce-Verarbeitung der verteilten Hadoop-Computing-Plattform sowie des Data-Warehouse-Tools Hive und der verteilten Datenbank Hbase deckt es im Wesentlichen den gesamten technischen Kern der verteilten Hadoop-Plattform ab.
Das obige ist der detaillierte Inhalt vonHadoop wird für verteiltes Rechnen verwendet, was ist das?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!