Die vier Hauptkomponenten von Spark sind: 1. SparkStreaming, eine Komponente zum Streamen von Daten in Echtzeit; 2. SparkSQL, eine Komponente zum Bearbeiten strukturierter Daten; 3. GraphX, die von Spark bereitgestellte Framework- und Algorithmusbibliothek; 4. MLlib, eine Algorithmenbibliothek für maschinelles Lernen.
Verwandte Empfehlungen: „Programmiervideokurs“
Vier Hauptkomponenten von Spark
1. In vielen Anwendungsbereichen besteht eine starke Nachfrage nach Streaming-Computing von Echtzeitdaten. B. Webserverprotokolle in einer Netzwerkumgebung oder Nachrichtenwarteschlangen, die aus von Benutzern übermittelten Statusaktualisierungen bestehen, sind allesamt Echtzeit-Datenströme. Spark Streaming ist eine Komponente auf der Spark-Plattform, die Streaming-Computing für Echtzeitdaten durchführt und eine umfangreiche API für die Verarbeitung von Datenströmen bereitstellt. Da diese APIs den grundlegenden Vorgängen in Spark Core entsprechen, können Entwickler Spark-Streaming-Anwendungen besser schreiben, wenn sie mit den Kernkonzepten und Programmiermethoden von Spark vertraut sind. Aufgrund des zugrunde liegenden Designs unterstützt Spark Streaming das gleiche Maß an Fehlertoleranz, Durchsatz und Skalierbarkeit wie Spark Core.
2. SparkSQL:
Spark SQL ist die Komponente, die Spark zum Betrieb strukturierter Daten verwendet. Über Spark SQL können Benutzer Daten mit SQL oder der Apache Hive-Version des SQL-Dialekts (HQL) abfragen. Spark SQL unterstützt mehrere Datenquellentypen, z. B. Hive-Tabellen, Parquet und JSON. Spark SQL bietet nicht nur eine SQL-Schnittstelle für Spark, sondern unterstützt Entwickler auch bei der Integration von SQL-Anweisungen in den Spark-Anwendungsentwicklungsprozess. Unabhängig davon, ob Python, Java oder Scala verwendet werden, können Benutzer SQL-Abfragen und komplexe Abfragen gleichzeitig in einer einzigen Anwendung ausführen . Datenanalyse. Spark SQL hebt sich von anderen Open-Source-Data-Warehouse-Tools durch seine enge Integration in die von Spark bereitgestellte Rich-Computing-Umgebung ab. Spark SQL wurde erstmals in Spark l.0 eingeführt. Vor Spark SQL versuchte die University of California, Berkeley, Apache Hive so zu modifizieren, dass es auf Spark läuft, und schlug dann die Komponente Shark vor. Mit der Einführung und Entwicklung von Spark SQL wurde es jedoch enger in die Spark-Engine und -API integriert, sodass Shark durch Spark SQL ersetzt wurde.
3. GraphX:
GraphX ist eine von Spark bereitgestellte Framework- und Algorithmusbibliothek für Graph Computing. GraphX schlägt das Konzept eines elastischen Diagramms mit verteilten Attributen vor und realisiert auf dieser Grundlage die organische Kombination und Vereinheitlichung der Diagrammansicht und der Tabellenansicht. Gleichzeitig bietet es umfangreiche Operationen für die Diagrammdatenverarbeitung, z. B. Untergraphenoperationen und Untergraphenoperationen und Scheitelpunktattribute, Betreiben von MapVertices, Betreiben von MapEdges für Kantenattribute usw. GraphX realisiert auch die Integration mit Pregel, das einige gängige Diagrammalgorithmen wie PageRank, Dreieckszählung usw. direkt verwenden kann.
4. MLlib:
MLlib ist eine von Spark bereitgestellte Algorithmenbibliothek für maschinelles Lernen, die eine Vielzahl klassischer und gängiger Algorithmen für maschinelles Lernen enthält, hauptsächlich Klassifizierung, Regression, Clustering, kollaborative Filterung usw. MLlib bietet nicht nur zusätzliche Funktionen wie Modellbewertung und Datenimport, sondern auch einige Grundelemente für maschinelles Lernen auf niedrigerer Ebene, einschließlich eines allgemeinen Basisalgorithmus zur Gradientenabstiegsoptimierung. Alle diese Ansätze sind als Architekturen konzipiert, die sich problemlos auf einem Cluster skalieren lassen.
Weitere verwandte Artikel finden Sie auf der
Chinesischen PHP-WebsiteDas obige ist der detaillierte Inhalt vonWas sind die vier Hauptkomponenten von Spark?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!