Mit der kontinuierlichen Weiterentwicklung der Computertechnologie ist auch die Menge der erzeugten Daten erheblich gestiegen. Die Verarbeitung und Berechnung dieser riesigen Datenmengen ist zu einer der wichtigsten Herausforderungen in der heutigen Gesellschaft geworden. Google Cloud Dataproc ist ein Big-Data-Verarbeitungsdienst in Google Cloud. Er kann große Datenmengen in einer verteilten Umgebung verarbeiten und analysieren, insbesondere für Unternehmen, die umfangreiche Datenberechnungen und -analysen durchführen müssen. In diesem Artikel wird erläutert, wie Sie mit PHP und Google Cloud Dataproc die Verarbeitung und Berechnung großer Datenmengen implementieren.
1. Einführung in Google Cloud Dataproc
Google Cloud Dataproc ist ein Big-Data-Verarbeitungsdienst auf der Grundlage von Apache Hadoop und Spark. Diese beiden Frameworks können große Datenmengen verarbeiten und auch auf verschiedene Datentypen abzielen . Führen Sie verschiedene Vorgänge wie Datenabfrage, maschinelles Lernen, Diagrammanalyse und mehr durch. Google Cloud Dataproc kann Daten auch in großem Umfang schnell automatisieren und verarbeiten und hilft Nutzern so dabei, die Kosten für Big-Data-Computing und -Analyse erheblich zu senken.
2. Vorteile von Google Cloud Dataproc
1. Schnell – Google Cloud Dataproc kann wichtige Aufgaben wie die Analyse, Verarbeitung, Datenspeicherung und -verwaltung in wenigen Minuten erledigen und eignet sich sehr gut für Unternehmen, die große Datenmengen verarbeiten müssen Datenmengen schnell verarbeiten.
2. Benutzerfreundlichkeit – Google Cloud Dataproc ist wirklich einfach zu verwenden. Benutzer müssen nicht viel Zeit mit der Konfiguration oder Wartung von Software und Hardware verbringen , und Google Cloud Dataproc kann automatisch gestartet und der Cluster gestoppt werden, wodurch eine webbasierte Benutzeroberfläche bereitgestellt wird, mit der Benutzer den Status von Analysen einfach und schnell verwalten und überwachen können.
3. Sicherheit – Google Cloud Dataproc verfügt über einen strengen Sicherheitsmechanismus, um sicherzustellen, dass die Daten der Benutzer nicht illegal abgerufen und gehackt werden, sodass Benutzer sie bedenkenlos verwenden können.
3. Verwenden Sie PHP zum Hochladen und Verarbeiten von Daten.
PHPs einfache Befehlszeilenschnittstelle, Erweiterungen und Module machen es zu einem guten Tool zum Verarbeiten von Daten. In diesem Artikel wird erläutert, wie Sie PHP zum Hochladen und Verarbeiten von Daten verwenden.
1. Daten hochladen
Die Verwendung von PHP kann mit dem Google Cloud Storage SDK zusammenarbeiten, um große Datenmengen schnell in die Google Cloud hochzuladen.
Zunächst müssen Benutzer in der Google Cloud Console einen neuen Bucket erstellen, in dem hochgeladene Dateien gespeichert werden.
Suchen Sie „API und Dienste“ -> „Authentifizierungsinformationen“ -> Erstellen Sie in der Konsole ein Dienstkonto und erstellen Sie einen Schlüssel zur Autorisierung dieses Kontos.
Installieren Sie das Google Cloud Storage SDK über Composer:
composer require google/cloud-storage
Verwenden Sie den folgenden Code im PHP-Programm, um den Speicher-Bucket zu authentifizieren und einzurichten:
use GoogleCloudStorageStorageClient; $storage = new StorageClient([ 'projectId' => 'your-project-id', 'keyFile' => json_decode(file_get_contents('/path/to/keyfile.json'), true) ]); $bucketName = 'my-bucket-name'; $bucket = $storage->bucket($bucketName);
Verwenden Sie den folgenden Code, um lokale Dateien in Google Cloud hochzuladen:
$bucket->upload( fopen('/path/to/your/local/file', 'r'), ['name' => 'your_file_name'] );
Nach dem Wenn der Upload abgeschlossen ist, können Benutzer Spark verwenden, um die Daten zur Analyse und Verarbeitung über Google Cloud Dataproc zu lesen.
2. Verwenden Sie Shell-Befehle zum Verarbeiten von Daten.
Google Cloud Dataproc bietet eine Standard-Befehlszeilenschnittstelle, mit der Benutzer Daten einfach und schnell verarbeiten können. Benutzer können in PHP geschriebene Skripte verwenden, um entsprechende Shell-Skripte aufzurufen, wodurch Benutzer Daten flexibler verwalten können.
Mit PHP können Sie einfach den Spark-Submit-Befehl der Befehlszeilenschnittstelle aufrufen, um die Daten zu analysieren und zu berechnen. Benutzer müssen zunächst eine Skriptdatei erstellen, die den Befehl spark-submit enthält. Dieses Skript ermöglicht es Benutzern, Daten an Spark zu übergeben. Der Inhalt des Skripts lautet wie folgt:
#!/usr/bin/env bash spark-submit --class com.example.myapp.MySparkJob --master yarn --deploy-mode cluster --num-executors 5 --executor-cores 2 --executor-memory 4g /path/to/your/spark/job.jar "inputfile.csv" "outputdir"
Unter anderem ist MySparkJob die Hauptklasse der vom Benutzer geschriebenen Spark-Anwendung und muss entsprechend den spezifischen Anforderungen des Benutzers geschrieben werden. Führen Sie nach dem Hochladen des Jar-Pakets des Spark-Jobs den folgenden Code aus:
exec('bash /path/to/your/shell/script.sh');
Auf diese Weise können Benutzer PHP verwenden, um große Datenmengen in Google Cloud einfach zu verarbeiten und zu analysieren.
4. Verwenden Sie Google Cloud Dataproc, um nutzlose Daten zu bereinigen.
Für Benutzer, die Google Cloud Dataproc zur Datenverarbeitung verwenden, müssen die Analyseergebnisse nach Abschluss der Aufgabe bereinigt werden, um die nachfolgende Datenverarbeitung und -analyse zu erleichtern. Mit PHP können Sie ganz einfach das Google Cloud Storage SDK aufrufen, um die Daten im Bucket zu löschen.
Benutzer können den folgenden Code verwenden, um bestimmte Dateien und Daten aus der hochgeladenen Dateiliste zu löschen:
use GoogleCloudStorageStorageClient; $storage = new StorageClient(); $bucketName = 'my-bucket-name'; $bucket = $storage->bucket($bucketName); // Delete a file $bucket->object('file.txt')->delete(); // Delete all the files in the bucket foreach ($bucket->objects() as $object) { $object->delete(); }
Zusammenfassung
Mit PHP und Google Cloud Dataproc zur Verarbeitung großer Datenmengen können Sie Daten bequem und schnell analysieren und berechnen. Das Google Cloud Storage SDK kann einfach über PHP aufgerufen werden, um Daten schnell in Google Cloud hochzuladen. Gleichzeitig werden nutzlose Daten durch Google Cloud Dataproc bereinigt, um Benutzerdaten klarer und sauberer zu machen. Google Cloud Dataproc ist ein leistungsstarkes Tool, das Benutzern die schnelle Verarbeitung und Analyse von Daten in einer verteilten Umgebung ermöglicht und ihnen gleichzeitig dabei hilft, Zeit und Geld zu sparen.
Das obige ist der detaillierte Inhalt vonBig-Data-Verarbeitung und -Berechnung mit PHP und Google Cloud Dataproc. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!