Was ist Apache Spark?
Spark ist ein Open-Source-Cluster-Computing-System, das auf Memory Computing basiert und darauf abzielt, die Datenanalyse schneller zu machen. Spark ist sehr klein und exquisit und wurde von einem kleinen Team unter der Leitung von Matei vom AMP Laboratory der University of California, Berkeley, entwickelt. Die verwendete Sprache ist Scala, und der Code für den Kernteil des Projekts umfasst nur 63 Scala-Dateien, was sehr kurz und prägnant ist.
Spark ist eine Open-Source-Cluster-Computing-Umgebung, die Hadoop ähnelt, aber es gibt einige Unterschiede zwischen den beiden. Diese nützlichen Unterschiede machen Spark bei bestimmten Arbeitslasten überlegen. Mit anderen Worten: Spark ermöglicht verteilte Datensätze im Speicher Optimieren Sie iterative Arbeitslasten und können Sie außerdem interaktive Abfragen bereitstellen.
Spark ist in der Scala-Sprache implementiert und verwendet Scala als Anwendungsframework. Im Gegensatz zu Hadoop sind Spark und Scala eng integriert, wobei Scala es ermöglicht, verteilte Datensätze genauso einfach zu bearbeiten wie lokale Sammlungsobjekte.
Obwohl Spark zur Unterstützung iterativer Jobs auf verteilten Datensätzen entwickelt wurde, ist es tatsächlich eine Ergänzung zu Hadoop und kann parallel auf dem Hadoop-Dateisystem ausgeführt werden. Dieses Verhalten wird durch ein Cluster-Framework eines Drittanbieters namens Mesos unterstützt. Spark wurde vom UC Berkeley AMP Lab (Algorithms, Machines, and People Lab) entwickelt und kann zum Erstellen umfangreicher Datenanalyseanwendungen mit geringer Latenz verwendet werden.
Spark-Cluster-Computing-Architektur
Obwohl Spark Ähnlichkeiten mit Hadoop aufweist, bietet es ein neues Cluster-Computing-Framework mit nützlichen Unterschieden. Erstens ist Spark für eine bestimmte Art von Arbeitslast im Cluster-Computing konzipiert, nämlich solche, die Arbeitsdatensätze (z. B. Algorithmen für maschinelles Lernen) zwischen parallelen Vorgängen wiederverwenden. Um diese Art von Arbeitslasten zu optimieren, führt Spark das Konzept des In-Memory-Cluster-Computing ein, bei dem Datensätze im Speicher zwischengespeichert werden, um die Zugriffslatenz zu reduzieren.
Spark führt außerdem eine Abstraktion namens Resilient Distributed Dataset (RDD) ein. Ein RDD ist eine Sammlung schreibgeschützter Objekte, die über eine Reihe von Knoten verteilt sind. Diese Sammlungen sind belastbar und können wiederhergestellt werden, wenn ein Teil des Datensatzes verloren geht. Der Prozess der Rekonstruktion eines Teildatensatzes basiert auf einem fehlertoleranten Mechanismus, der die „Herkunft“ aufrechterhält (d. h. Informationen, die eine teilweise Rekonstruktion des Datensatzes auf der Grundlage von Datenableitungsprozessen ermöglichen). Ein RDD wird als Scala-Objekt dargestellt, das aus einer Datei erstellt werden kann; eine weitere transformierte Form des RDD, z. B. zwischengespeicherte Anforderungen in Erinnerung.
Anwendungen in Spark werden als Treiber bezeichnet, und diese Treiber implementieren Vorgänge, die auf einem einzelnen Knoten oder parallel auf einer Reihe von Knoten ausgeführt werden. Wie Hadoop unterstützt Spark Ein-Knoten-Cluster oder Multi-Knoten-Cluster. Für den Multi-Node-Betrieb setzt Spark auf den Mesos-Clustermanager. Mesos bietet eine effiziente Plattform für die gemeinsame Nutzung und Isolierung von Ressourcen für verteilte Anwendungen. Dieses Setup ermöglicht die Koexistenz von Spark und Hadoop in einem gemeinsamen Knotenpool.
Weitere technische Artikel zu Apache finden Sie in der Spalte Apache-Tutorial, um mehr darüber zu erfahren!
Das obige ist der detaillierte Inhalt vonWas ist Apache Spark?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Ausführen des H5 -Projekts erfordert die folgenden Schritte: Installation der erforderlichen Tools wie Webserver, Node.js, Entwicklungstools usw. Erstellen Sie eine Entwicklungsumgebung, erstellen Sie Projektordner, initialisieren Sie Projekte und schreiben Sie Code. Starten Sie den Entwicklungsserver und führen Sie den Befehl mit der Befehlszeile aus. Vorschau des Projekts in Ihrem Browser und geben Sie die Entwicklungsserver -URL ein. Veröffentlichen Sie Projekte, optimieren Sie Code, stellen Sie Projekte bereit und richten Sie die Webserverkonfiguration ein.

Viele Website -Entwickler stehen vor dem Problem der Integration von Node.js oder Python Services unter der Lampenarchitektur: Die vorhandene Lampe (Linux Apache MySQL PHP) Architekturwebsite benötigt ...

Der kollaborative Arbeitsmechanismus zwischen Apache oder Nginx und PHP: Vergleich von Mod_Php5, PHP-CGI und PHP-FPM besteht darin, Apache oder Nginx zu verwenden, um einen Webserver zu erstellen und PHP für Backend zu verwenden ...

Es gibt zwei Möglichkeiten, XML in PDF zu exportieren: Verwenden von XSLT und Verwendung von XML -Datenbindungsbibliotheken. XSLT: Erstellen Sie ein XSLT -Stylesheet und geben Sie das PDF -Format an, um XML -Daten mit dem XSLT -Prozessor zu konvertieren. XML -Datenbindungsbibliothek: XML -Datenbindungsbibliothek importieren PDF -Dokumentobjekt Lade XML -Daten Export PDF -Dateien. Welche Methode für PDF -Dateien besser ist, hängt von den Anforderungen ab. XSLT bietet Flexibilität, während die Datenbindungsbibliothek einfach zu implementieren ist. Bei einfachen Conversions ist die Datenbindungsbibliothek besser und für komplexe Conversions ist XSLT besser geeignet.

Debianlinux ist bekannt für seine Stabilität und Sicherheit und wird in Server-, Entwicklungs- und Desktop -Umgebungen häufig verwendet. Während es derzeit einen Mangel an offiziellen Anweisungen zur direkten Kompatibilität mit Debian und Hadoop gibt, wird dieser Artikel Sie dazu veranlassen, Hadoop in Ihrem Debian -System bereitzustellen. Debian -Systemanforderungen: Bevor Sie mit der Hadoop -Konfiguration beginnen, stellen Sie bitte sicher, dass Ihr Debian -System die Mindestanforderungen von Hadoop erfüllt, einschließlich der Installation der erforderlichen Java -Laufzeitumgebung (JRE) und Hadoop -Pakete. Schritte zur Bereitstellung von Hadoop -Bereitstellungen: Download und Unzip Hadoop: Laden Sie die Hadoop -Version von der offiziellen Apachehadoop -Website herunter und lösen Sie sie

Apache -Fehler können durch Anzeigen von Protokolldateien diagnostiziert und behoben werden. 1) Zeigen Sie den Fehler an. Log -Datei, 2) Verwenden Sie den Befehl GREP, um Fehler in bestimmten Domänennamen zu filtern, 3) die Protokolldateien regelmäßig reinigen und die Konfiguration optimieren. Durch diese Schritte können Apache -Fehler effektiv diagnostiziert und gelöst werden.

"DebianStrings" ist kein Standardbegriff und seine spezifische Bedeutung ist noch unklar. Dieser Artikel kann seine Browserkompatibilität nicht direkt kommentieren. Wenn sich jedoch "DebianStrings" auf eine Webanwendung bezieht, die auf einem Debian -System ausgeführt wird, hängt seine Browserkompatibilität von der technischen Architektur der Anwendung selbst ab. Die meisten modernen Webanwendungen sind für die Kompatibilität des Cross-Browsers verpflichtet. Dies beruht auf den folgenden Webstandards und der Verwendung gut kompatibler Front-End-Technologien (wie HTML, CSS, JavaScript) und Back-End-Technologien (wie PHP, Python, Node.js usw.). Um sicherzustellen, dass die Anwendung mit mehreren Browsern kompatibel ist, müssen Entwickler häufig Kreuzbrowser-Tests durchführen und die Reaktionsfähigkeit verwenden

Die Protokolldateien des Debian -Systems sind wertvolle Ressourcen für Systemadministratoren und Entwickler, um Probleme zu diagnostizieren und den Betriebsstatus des Systems zu überwachen. Dieser Artikel konzentriert sich auf einige wichtige Protokollinformationen, die nicht ignoriert werden können. Kernsystemprotokolle (normalerweise in/var/log/syslog oder/var/log/messages) Diese Protokolle erfassen die Kernaktivitäten des Systems, einschließlich: System -Start- und Herunterfahrenereignisse: Protokollkern -Version, Hardwareerkennungsergebnisse usw., um Startfehler zu verfolgen oder Ausnahmen zu stürzen. Hardware -Ausfall -Warnungen: Festplattenfehler, Speicherprobleme usw., um potenzielle Hardwareprobleme unverzüglich zu erkennen. Änderungen des Service -Status: Notieren Sie den Service Start, stoppen und starten Sie Ereignisse neu, um die Überwachung der Gesundheit des Dienstes zu erleichtern. Benutzeranmelde-/Abmeldeverlauf:
