Heim > häufiges Problem > Was sind die vier Hauptkomponenten von Spark?

Was sind die vier Hauptkomponenten von Spark?

青灯夜游
Freigeben: 2020-12-14 14:34:18
Original
22242 Leute haben es durchsucht

Die vier Hauptkomponenten von Spark sind: 1. SparkStreaming, eine Komponente zum Streamen von Daten in Echtzeit; 2. SparkSQL, eine Komponente zum Bearbeiten strukturierter Daten; 3. GraphX, die von Spark bereitgestellte Framework- und Algorithmusbibliothek; 4. MLlib, eine Algorithmenbibliothek für maschinelles Lernen.

Was sind die vier Hauptkomponenten von Spark?

Verwandte Empfehlungen: „Programmiervideokurs

Vier Hauptkomponenten von Spark

1. In vielen Anwendungsbereichen besteht eine starke Nachfrage nach Streaming-Computing von Echtzeitdaten. B. Webserverprotokolle in einer Netzwerkumgebung oder Nachrichtenwarteschlangen, die aus von Benutzern übermittelten Statusaktualisierungen bestehen, sind allesamt Echtzeit-Datenströme. Spark Streaming ist eine Komponente auf der Spark-Plattform, die Streaming-Computing für Echtzeitdaten durchführt und eine umfangreiche API für die Verarbeitung von Datenströmen bereitstellt. Da diese APIs den grundlegenden Vorgängen in Spark Core entsprechen, können Entwickler Spark-Streaming-Anwendungen besser schreiben, wenn sie mit den Kernkonzepten und Programmiermethoden von Spark vertraut sind. Aufgrund des zugrunde liegenden Designs unterstützt Spark Streaming das gleiche Maß an Fehlertoleranz, Durchsatz und Skalierbarkeit wie Spark Core.

2. SparkSQL:

Spark SQL ist die Komponente, die Spark zum Betrieb strukturierter Daten verwendet. Über Spark SQL können Benutzer Daten mit SQL oder der Apache Hive-Version des SQL-Dialekts (HQL) abfragen. Spark SQL unterstützt mehrere Datenquellentypen, z. B. Hive-Tabellen, Parquet und JSON. Spark SQL bietet nicht nur eine SQL-Schnittstelle für Spark, sondern unterstützt Entwickler auch bei der Integration von SQL-Anweisungen in den Spark-Anwendungsentwicklungsprozess. Unabhängig davon, ob Python, Java oder Scala verwendet werden, können Benutzer SQL-Abfragen und komplexe Abfragen gleichzeitig in einer einzigen Anwendung ausführen . Datenanalyse. Spark SQL hebt sich von anderen Open-Source-Data-Warehouse-Tools durch seine enge Integration in die von Spark bereitgestellte Rich-Computing-Umgebung ab. Spark SQL wurde erstmals in Spark l.0 eingeführt. Vor Spark SQL versuchte die University of California, Berkeley, Apache Hive so zu modifizieren, dass es auf Spark läuft, und schlug dann die Komponente Shark vor. Mit der Einführung und Entwicklung von Spark SQL wurde es jedoch enger in die Spark-Engine und -API integriert, sodass Shark durch Spark SQL ersetzt wurde.

3. GraphX:

GraphX ​​​​ist eine von Spark bereitgestellte Framework- und Algorithmusbibliothek für Graph Computing. GraphX ​​​​schlägt das Konzept eines elastischen Diagramms mit verteilten Attributen vor und realisiert auf dieser Grundlage die organische Kombination und Vereinheitlichung der Diagrammansicht und der Tabellenansicht. Gleichzeitig bietet es umfangreiche Operationen für die Diagrammdatenverarbeitung, z. B. Untergraphenoperationen und Untergraphenoperationen und Scheitelpunktattribute, Betreiben von MapVertices, Betreiben von MapEdges für Kantenattribute usw. GraphX ​​​​realisiert auch die Integration mit Pregel, das einige gängige Diagrammalgorithmen wie PageRank, Dreieckszählung usw. direkt verwenden kann.

4. MLlib:

MLlib ist eine von Spark bereitgestellte Algorithmenbibliothek für maschinelles Lernen, die eine Vielzahl klassischer und gängiger Algorithmen für maschinelles Lernen enthält, hauptsächlich Klassifizierung, Regression, Clustering, kollaborative Filterung usw. MLlib bietet nicht nur zusätzliche Funktionen wie Modellbewertung und Datenimport, sondern auch einige Grundelemente für maschinelles Lernen auf niedrigerer Ebene, einschließlich eines allgemeinen Basisalgorithmus zur Gradientenabstiegsoptimierung. Alle diese Ansätze sind als Architekturen konzipiert, die sich problemlos auf einem Cluster skalieren lassen.

Weitere verwandte Artikel finden Sie auf der

Chinesischen PHP-Website

! !

Das obige ist der detaillierte Inhalt vonWas sind die vier Hauptkomponenten von Spark?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage