Was ist der Big-Data-Lernweg?-häufiges Problem-php.cn

Heim

häufiges Problem

Was ist der Big-Data-Lernweg?

爱喝马黛茶的安东尼

Jul 25, 2019 pm 05:34 PM

大数据学习路线

Big-Data-Lernroute

Java(Java se,javaweb)

Linux(Shell , Architektur mit hoher Parallelität, Lucene, Solr)

Hadoop (Hadoop, HDFS, Mapreduce, Yarn, Hive, Hbase, Sqoop, Zookeeper, Flume)

Maschinelles Lernen (R, Mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)

Cloud-Computing-Plattform (Docker, KVM, OpenStack)

Begriffserklärung:

1. Linux

lucene: Volltextsuchmaschinenarchitektur

solr: Ein auf Lucene basierender Volltextsuchserver, der konfigurierbar und skalierbar ist, die Abfrageleistung optimiert und eine vollständige Funktionsverwaltungsschnittstelle bietet.

2. Hadoop

HDFS: Verteiltes Speichersystem, einschließlich NameNode, DataNode. NameNode: Metadaten, DataNode. DataNode: speichert Daten.

Garn: Es kann als Koordinationsmechanismus von MapReduce verstanden werden, bei dem es sich im Wesentlichen um den Verarbeitungs- und Analysemechanismus von Hadoop handelt, der in ResourceManager und NodeManager unterteilt ist.

MapReduce: Software-Framework zum Schreiben von Programmen.

Hive: Data Warehouse kann mit SQL abgefragt werden und kann Map/Reduce-Programme ausführen. Wird zur Berechnung von Trends oder Website-Protokollen verwendet und sollte nicht für Echtzeitabfragen verwendet werden, da die Rückgabe von Ergebnissen lange dauert.

HBase: Datenbank. Es eignet sich sehr gut für die Echtzeitabfrage großer Datenmengen. Facebook verwendet Hbase, um Nachrichtendaten zu speichern und Echtzeitanalysen von Nachrichten durchzuführen

ZooKeeper: Ein zuverlässiges Koordinationssystem für die Verteilung in großem Maßstab. Die verteilte Synchronisierung von Hadoop wird von Zookeeper implementiert, z. B. mehrere NameNodes und aktives Standby-Switching.

Sqoop: Datenbanken untereinander, relationale Datenbanken und HDFS untereinander übertragen

Mahout: Skalierbare Bibliothek für maschinelles Lernen und Data Mining. Wird für Empfehlungs-Mining, Aggregation, Klassifizierung und häufiges Item-Set-Mining verwendet.

Chukwa: Ein Open-Source-Sammlungssystem, das große verteilte Systeme überwacht, basierend auf HDFS- und Map/Reduce-Frameworks. Ergebnisse anzeigen, überwachen und analysieren.

Ambari: Wird zur Konfiguration, Verwaltung und Überwachung von Hadoop-Clustern verwendet, webbasiert und benutzerfreundlich.

Verwandte Empfehlungen: „FAQ“

3. Cloudera

Cloudera Manager: Managementüberwachung und Diagnoseintegration

Cloudera CDH: (Clouderas Distribution, einschließlich Apache Hadoop) Cloudera hat entsprechende Änderungen an Hadoop vorgenommen, und die Distributionsversion heißt CDH.

Cloudera Flume: Das Protokollerfassungssystem unterstützt die Anpassung verschiedener Datensender im Protokollsystem zur Datenerfassung.

Cloudera Impala: Bietet direkte Abfrage und interaktives SQL für Daten, die in HDFS und HBase von Apache Hadoop gespeichert sind.

Cloudera hue: Webmanager, einschließlich hue ui, hui server, hui db. Hue bietet Shell-Schnittstellenschnittstellen für alle CDH-Komponenten und mr kann in Hue geschrieben werden.

4. Maschinelles Lernen/R

R: Sprache und Betriebsumgebung für statistische Analysen und Grafiken.

mahout: Bietet eine skalierbare Implementierung klassischer Algorithmen im Bereich des maschinellen Lernens, einschließlich Clustering, Klassifizierung, Empfehlungsfilterung, häufiges Sub-Item-Mining usw., und kann über Hadoop auf die Cloud erweitert werden.

5. Storm

Storm: ein verteiltes, fehlertolerantes Echtzeit-Streaming-Computing-System, das für Echtzeitanalysen, maschinelles Online-Lernen und Informationen verwendet werden kann Flussverarbeitung und Kontinuität. Berechnen Sie, verteilen Sie RPC, verarbeiten Sie Nachrichten in Echtzeit und aktualisieren Sie die Datenbank.

Kafka: Ein verteiltes Publish-Subscribe-Messagingsystem mit hohem Durchsatz, das alle Aktions-Streaming-Daten (Browsing, Suche usw.) auf Websites im Verbrauchermaßstab verarbeiten kann. Im Vergleich zu den Protokolldaten und der Offline-Analyse von Hadoop kann eine Echtzeitverarbeitung erreicht werden. Derzeit wird der parallele Lademechanismus von Hadoop verwendet, um die Online- und Offline-Nachrichtenverarbeitung zu vereinheitlichen

Redis: In C-Sprache geschrieben, unterstützt es das Netzwerk, ist eine Protokolltyp-Schlüsselwertdatenbank, die speicherbasiert sein kann und hartnäckig.

5. Spark

Scala: Eine vollständig objektorientierte Programmiersprache ähnlich wie Java.

jblas: Eine schnelle lineare Algebra-Bibliothek (JAVA). Die ATLAS ART-Implementierung basiert auf BLAS und LAPACK, dem De-facto-Industriestandard für Matrixberechnungen, und nutzt eine fortschrittliche Infrastruktur für alle Berechnungsverfahren, was sie sehr schnell macht.

Spark: Spark ist ein allgemeines paralleles Framework, das in der Scala-Sprache implementiert ist. Zusätzlich zu den Vorteilen von Hadoop MapReduce unterscheidet es sich von MapReduce dadurch, dass die Zwischenausgabeergebnisse von Jobs im Speicher gespeichert werden können Daher ist es nicht erforderlich, HDFS zu lesen oder zu schreiben, sodass Spark besser für MapReduce-Algorithmen geeignet ist, die eine Iteration erfordern, wie z. B. Data Mining und maschinelles Lernen. Es kann parallel zum Hadoop-Dateisystem betrieben werden. Cluster-Frameworks von Drittanbietern, die Mesos verwenden, können dieses Verhalten unterstützen.

Spark SQL: Als Teil des Apache Spark Big Data Frameworks kann es für die strukturierte Datenverarbeitung verwendet werden und SQL-ähnliche Spark-Datenabfragen durchführen

Spark Streaming: Ein Echtzeitserver Das auf Spark basierende Computing-Framework erweitert die Fähigkeit von Spark, Big-Data-Streaming-Daten zu verarbeiten.

Spark MLlib: MLlib ist die Implementierungsbibliothek von Spark für häufig verwendete Algorithmen für maschinelles Lernen. Derzeit (2014.05) unterstützt sie binäre Klassifizierung, Regression, Clustering und kollaborative Filterung. Es enthält auch einen grundlegenden Algorithmus zur Optimierung des Gradientenabstiegs auf niedriger Ebene. MLlib basiert auf der linearen Algebra-Bibliothek jblas und jblas selbst basiert auf dem Remote-Fortran-Programm.

Spark GraphX: GraphX ist eine API für Diagramme und paralleles Diagrammrechnen in Spark. Sie kann eine Datenlösung aus einer Hand zusätzlich zu Spark bereitstellen und einen vollständigen Satz von Pipeline-Operationen für das Diagrammrechnen ausführen bequem und effizient.

Fortran: Die früheste High-Level-Computerprogrammiersprache, die in wissenschaftlichen und technischen Informatikbereichen weit verbreitet ist.

BLAS: Grundlegende Unterprogrammbibliothek für lineare Algebra mit einer großen Anzahl bereits geschriebener Programme für lineare Algebraoperationen.

LAPACK: Bekannte offene Software, einschließlich der Lösung der häufigsten Probleme der numerischen linearen Algebra in wissenschaftlichen und technischen Berechnungen, wie z. B. der Lösung linearer Gleichungen, linearer Probleme der kleinsten Quadrate, Eigenwertproblemen und Singularwertproblemen usw.

ATLAS: Eine optimierte Version der BLAS-Bibliothek für lineare Algorithmen.

Spark Python: Spark ist in der Scala-Sprache geschrieben, aber zur Förderung und Kompatibilität werden Java- und Python-Schnittstellen bereitgestellt.

6. Python

Python: eine objektorientierte, interpretierte Computerprogrammiersprache.

7. Cloud-Computing-Plattform

Docker: Open-Source-Anwendungscontainer-Engine

kvm: (Tastatur-Video-Maus)

openstack : Open-Source-Cloud-Computing-Management-Plattform-Projekt

Das obige ist der detaillierte Inhalt vonWas ist der Big-Data-Lernweg?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7529

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

PHPs Fähigkeiten zur Verarbeitung von Big-Data-Strukturen May 08, 2024 am 10:24 AM

Fähigkeiten zur Verarbeitung von Big-Data-Strukturen: Chunking: Teilen Sie den Datensatz auf und verarbeiten Sie ihn in Blöcken, um den Speicherverbrauch zu reduzieren. Generator: Generieren Sie Datenelemente einzeln, ohne den gesamten Datensatz zu laden, geeignet für unbegrenzte Datensätze. Streaming: Lesen Sie Dateien oder fragen Sie Ergebnisse Zeile für Zeile ab, geeignet für große Dateien oder Remote-Daten. Externer Speicher: Speichern Sie die Daten bei sehr großen Datensätzen in einer Datenbank oder NoSQL.

Erfahrungsaustausch in der C++-Entwicklung: praktische Erfahrung in der C++-Big-Data-Programmierung Nov 22, 2023 am 09:14 AM

Im Internetzeitalter ist Big Data zu einer neuen Ressource geworden. Mit der kontinuierlichen Verbesserung der Big-Data-Analysetechnologie ist die Nachfrage nach Big-Data-Programmierung immer dringlicher geworden. Als weit verbreitete Programmiersprache sind die einzigartigen Vorteile von C++ bei der Big-Data-Programmierung immer deutlicher hervorgetreten. Im Folgenden werde ich meine praktischen Erfahrungen in der C++-Big-Data-Programmierung teilen. 1. Auswahl der geeigneten Datenstruktur Die Auswahl der geeigneten Datenstruktur ist ein wichtiger Bestandteil beim Schreiben effizienter Big-Data-Programme. In C++ gibt es eine Vielzahl von Datenstrukturen, die wir verwenden können, z. B. Arrays, verknüpfte Listen, Bäume, Hash-Tabellen usw.

Fünf große Entwicklungstrends in der AEC/O-Branche im Jahr 2024 Apr 19, 2024 pm 02:50 PM

AEC/O (Architecture, Engineering & Construction/Operation) bezieht sich auf die umfassenden Dienstleistungen, die Architekturdesign, Ingenieurdesign, Bau und Betrieb in der Bauindustrie anbieten. Im Jahr 2024 steht die AEC/O-Branche angesichts des technologischen Fortschritts vor sich ändernden Herausforderungen. In diesem Jahr wird voraussichtlich die Integration fortschrittlicher Technologien stattfinden, was einen Paradigmenwechsel in Design, Bau und Betrieb einläuten wird. Als Reaktion auf diese Veränderungen definieren Branchen Arbeitsprozesse neu, passen Prioritäten an und verbessern die Zusammenarbeit, um sich an die Bedürfnisse einer sich schnell verändernden Welt anzupassen. Die folgenden fünf großen Trends in der AEC/O-Branche werden im Jahr 2024 zu Schlüsselthemen und empfehlen den Weg in eine stärker integrierte, reaktionsfähigere und nachhaltigere Zukunft: integrierte Lieferkette, intelligente Fertigung

Anwendung von Algorithmen beim Aufbau einer 58-Porträt-Plattform May 09, 2024 am 09:01 AM

1. Hintergrund des Baus der 58-Portrait-Plattform Zunächst möchte ich Ihnen den Hintergrund des Baus der 58-Portrait-Plattform mitteilen. 1. Das traditionelle Denken der traditionellen Profiling-Plattform reicht nicht mehr aus. Der Aufbau einer Benutzer-Profiling-Plattform basiert auf Data-Warehouse-Modellierungsfunktionen, um Daten aus mehreren Geschäftsbereichen zu integrieren, um genaue Benutzerporträts zu erstellen Und schließlich muss es über Datenplattformfunktionen verfügen, um Benutzerprofildaten effizient zu speichern, abzufragen und zu teilen sowie Profildienste bereitzustellen. Der Hauptunterschied zwischen einer selbst erstellten Business-Profiling-Plattform und einer Middle-Office-Profiling-Plattform besteht darin, dass die selbst erstellte Profiling-Plattform einen einzelnen Geschäftsbereich bedient und bei Bedarf angepasst werden kann. Die Mid-Office-Plattform bedient mehrere Geschäftsbereiche und ist komplex Modellierung und bietet allgemeinere Funktionen. 2.58 Benutzerporträts vom Hintergrund der Porträtkonstruktion im Mittelbahnsteig 58

Diskussion über die Gründe und Lösungen für das Fehlen eines Big-Data-Frameworks in der Go-Sprache Mar 29, 2024 pm 12:24 PM

Im heutigen Big-Data-Zeitalter sind Datenverarbeitung und -analyse zu einer wichtigen Unterstützung für die Entwicklung verschiedener Branchen geworden. Als Programmiersprache mit hoher Entwicklungseffizienz und überlegener Leistung hat die Go-Sprache im Bereich Big Data nach und nach Aufmerksamkeit erregt. Im Vergleich zu anderen Sprachen wie Java, Python usw. verfügt die Go-Sprache jedoch über eine relativ unzureichende Unterstützung für Big-Data-Frameworks, was einigen Entwicklern Probleme bereitet hat. In diesem Artikel werden die Hauptgründe für das Fehlen eines Big-Data-Frameworks in der Go-Sprache untersucht, entsprechende Lösungen vorgeschlagen und anhand spezifischer Codebeispiele veranschaulicht. 1. Gehen Sie zur Sprache

KI, digitale Zwillinge, Visualisierung ... Höhepunkte der Yizhiwei-Herbst-Produkteinführungskonferenz 2023! Nov 14, 2023 pm 05:29 PM

Die Produkteinführung im Herbst 2023 von Yizhiwei ist erfolgreich abgeschlossen! Lassen Sie uns gemeinsam die Highlights der Konferenz Revue passieren lassen! 1. Intelligente, integrative Offenheit, die es digitalen Zwillingen ermöglicht, produktiv zu werden. Ning Haiyuan, Mitbegründer von Kangaroo Cloud und CEO von Yizhiwei, sagte in seiner Eröffnungsrede: Beim diesjährigen strategischen Treffen des Unternehmens haben wir die Hauptrichtung der Produktforschung und -entwicklung als festgelegt „Intelligente inklusive Offenheit“ „Drei Kernfähigkeiten“, wobei wir uns auf die drei Kernschlüsselwörter „intelligente inklusive Offenheit“ konzentrieren, schlagen wir außerdem das Entwicklungsziel vor, „digitale Zwillinge zu einer Produktivkraft zu machen“. 2. EasyTwin: Entdecken Sie eine neue Digital-Twin-Engine, die einfacher zu verwenden ist 1. Erkunden Sie von 0.1 bis 1.0 weiterhin die Digital-Twin-Fusion-Rendering-Engine, um bessere Lösungen mit ausgereiftem 3D-Bearbeitungsmodus, praktischen interaktiven Blaupausen und umfangreichen Modellressourcen zu erhalten

Erste Schritte: Verwendung der Go-Sprache zur Verarbeitung großer Datenmengen Feb 25, 2024 pm 09:51 PM

Als Open-Source-Programmiersprache hat die Go-Sprache in den letzten Jahren nach und nach große Aufmerksamkeit und Verwendung gefunden. Es wird von Programmierern wegen seiner Einfachheit, Effizienz und leistungsstarken Funktionen zur gleichzeitigen Verarbeitung bevorzugt. Auch im Bereich der Big-Data-Verarbeitung verfügt die Go-Sprache über großes Potenzial. Sie kann zur Verarbeitung großer Datenmengen, zur Leistungsoptimierung und zur guten Integration in verschiedene Big-Data-Verarbeitungstools und Frameworks eingesetzt werden. In diesem Artikel stellen wir einige grundlegende Konzepte und Techniken der Big-Data-Verarbeitung in der Go-Sprache vor und zeigen anhand spezifischer Codebeispiele, wie die Go-Sprache verwendet wird.

Big-Data-Verarbeitung in C++-Technologie: Wie nutzt man In-Memory-Datenbanken, um die Big-Data-Leistung zu optimieren? May 31, 2024 pm 07:34 PM

Bei der Verarbeitung großer Datenmengen kann die Verwendung einer In-Memory-Datenbank (z. B. Aerospike) die Leistung von C++-Anwendungen verbessern, da sie Daten im Computerspeicher speichert, wodurch Festplatten-E/A-Engpässe vermieden und die Datenzugriffsgeschwindigkeiten erheblich erhöht werden. Praxisbeispiele zeigen, dass die Abfragegeschwindigkeit bei Verwendung einer In-Memory-Datenbank um mehrere Größenordnungen schneller ist als bei Verwendung einer Festplattendatenbank.