Was bedeutet Apache Spark?
Apache Spark ist ein Open-Source-Cluster-Computing-System, das auf Memory Computing basiert und darauf abzielt, die Datenanalyse schneller zu machen. Spark ist sehr klein und exquisit und wurde von einem kleinen Team unter der Leitung von Matei vom AMP Laboratory der University of California, Berkeley, entwickelt. Die verwendete Sprache ist Scala, und der Code für den Kernteil des Projekts umfasst nur 63 Scala-Dateien, was sehr kurz und prägnant ist.
5 Hauptvorteile von Apache Spark:
1. Höhere Leistung, da die Daten in den verteilten Speicher des Cluster-Hosts geladen werden. Daten können für spätere häufige Zugriffsanforderungen schnell iteriert und zwischengespeichert werden. Viele Freunde, die sich für Spark interessieren, haben möglicherweise diesen Satz gehört: Wenn alle Daten in den Speicher geladen werden, kann Spark 100-mal schneller sein als Hadoop, und wenn der Speicher nicht ausreicht, um alle Daten zu speichern, kann Spark 10-mal schneller sein schneller als Hadoop.
2. Durch in Java, Scala, Python und SQL etablierte Standard-APIs (für interaktive Abfragen) ist es praktisch für den Einsatz in allen Lebensbereichen. Es enthält auch eine große Anzahl von Bibliotheken für maschinelles Lernen, die dies können sofort einsatzbereit sein.
3. Kompatibel mit dem bestehenden Hadoop v1 (SIMR) und 2.x (YARN) Ökosystem, sodass Organisationen nahtlos migrieren können.
4. Einfach herunterzuladen und zu installieren. Die praktische Shell (REPL: Read-Eval-Print-Loop) ermöglicht das interaktive Lernen der API.
5. Verbessern Sie die Produktivität mithilfe einer High-Level-Architektur, damit Sie sich auf die Datenverarbeitung konzentrieren können.
Gleichzeitig wird Apache Spark von Scala implementiert und der Code ist sehr prägnant.
Das obige ist der detaillierte Inhalt vonWas bedeutet Apache Spark?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!