Cara menggunakan PHP dan Google Cloud Dataflow untuk penstriman pemprosesan dan pengurusan data

王林
Lepaskan: 2023-06-25 08:12:02
asal
996 orang telah melayarinya

Dengan kemunculan era ledakan maklumat, penggunaan dan pemprosesan data menjadi semakin penting. Pemprosesan data penstriman telah menjadi salah satu cara penting untuk memproses data besar-besaran. Sebagai pembangun PHP, anda mesti mempunyai pengalaman dan keperluan dalam memproses data masa nyata. Artikel ini akan memperkenalkan cara menggunakan PHP dan Aliran Data Awan Google untuk pemprosesan dan pengurusan data penstriman.

1. Pengenalan kepada Google Cloud Dataflow

Google Cloud Dataflow ialah perkhidmatan awan yang mengurus tugas pemprosesan data berskala besar dengan berkesan sambil membenarkan pemprosesan kelompok dan pemprosesan strim digabungkan bersama .

Google Cloud Dataflow mempunyai ciri-ciri berikut:

  1. Ia akan berkembang secara automatik apabila memori satu nod tidak mencukupi
  2. Ia boleh menyembunyikan abstraksi asas daripada pengguna, membolehkan pengguna menulis kod dengan lebih mudah
  3. Tidak perlu bina atau urus gugusan pemprosesan data
  4. menyokong berbilang bahasa

2. Buat projek Google Cloud Dataflow dan sediakan persekitaran

  1. Buat projek Google Cloud

Mula-mula anda perlu membuat projek Google Cloud .

  1. Pasang Google Cloud SDK

Anda perlu memasang Google Cloud SDK untuk menggunakan Google Cloud Dataflow. Muat turun pakej pemasangan dan ikut arahan untuk menyelesaikan pemasangan.

  1. Tetapkan pembolehubah persekitaran

Gunakan arahan berikut untuk menetapkan pembolehubah persekitaran kepada projek Google Cloud semasa:

$ gcloud config set project [PROJECT_ID]
Salin selepas log masuk

3. Pasang sambungan PHP yang diperlukan

Untuk menggunakan perkhidmatan Dataflow dalam PHP, anda perlu pasang pelanjutan berikut:

  1. sambungan GRPC 下 Gunakan arahan berikut untuk memasang pengembangan GRPC:
  2. R
    $ pecl install grpc
    Salin selepas log masuk
    E

Peluasan PROTOBUF

  1. Gunakan arahan berikut untuk memasang sambungan Protobuf:
  2. R
    $ pecl install protobuf
    Salin selepas log masuk
    E

Peluasan PROTOBUF

  1. Gunakan arahan berikut untuk memasang sambungan Protobuf:
  2. R
    $ pecl install google-cloud-dataflow-alpha
    Salin selepas log masuk
    E
Gunakan arahan berikut untuk memasang sambungan PHP DataFlow:

Rreee

Empat , Tulis kod pemprosesan aliran data

Berikut adalah contoh, yang boleh menerima mesej daripada topik Pub/Sub dan menghantarnya ke saluran pemprosesan Dataflow Selepas pemprosesan selesai, keputusan ditulis pada jadual BigQuery:

<?php
require __DIR__ . '/vendor/autoload.php';

use GoogleCloudBigQueryBigQueryClient;
use GoogleCloudDataflowDataflowClient;
use GoogleCloudDataflowPubSubPubSubOptions;
use GoogleCloudPubSubPubSubClient;
use GoogleCloudDataflowOptions;

$configs = include __DIR__ . '/config.php';

$inputTopic = $configs['input_topic'];
$outputTable = $configs['output_table'];
$project = $configs['project_id'];
$bucket = $configs['bucket'];
$stagingLocation = $configs['staging_location'];
$tempLocation = $configs['temp_location'];
$jobName = 'test-job';

$options = [
    'project' => $project,
    'stagingLocation' => $stagingLocation,
    'tempLocation' => $tempLocation,
    'jobName' => $jobName,
];

$pubsub = new PubSubClient([
    'projectId' => $project
]);

$pubsub_topic = $pubsub->topic($inputTopic);

$bigquery = new BigQueryClient([
    'projectId' => $project
]);

$dataset = $bigquery->dataset('test_dataset');
$table = $dataset->table($outputTable);

$table->create([
    'schema' => [
        [
            'name' => 'id',
            'type' => 'STRING',
        ],
        [
            'name' => 'timestamp',
            'type' => 'TIMESTAMP',
        ],
        [
            'name' => 'message',
            'type' => 'STRING',
        ],
    ],
]);

$dataflow = new DataflowClient();

$pubsubOptions = PubSubOptions::fromArray([
    'topic' => sprintf('projects/%s/topics/%s', $project, $inputTopic),
]);

$options = [
    Options::PROJECT => $project,
    Options::STAGING_LOCATION => $stagingLocation,
    Options::TEMP_LOCATION => $tempLocation,
    Options::JOB_NAME => $jobName,
];

$job = $dataflow->createJob([
    'projectId' => $project,
    'name' => $jobName,
    'environment' => [
        'tempLocation' => sprintf('gs://%s/temp', $bucket),
    ],
    'steps' => [
        [
            'name' => 'Read messages from Pub/Sub',
            'pubsubio' => (new GoogleCloudDataflowIoPubsubPubsubMessage())
                ->expand($pubsubOptions)
                ->withAttributes(false)
                ->withIdAttribute('unique_id')
                ->withTimestampAttribute('publish_time')
        ],
        [
            'name' => 'Write messages to BigQuery',
            'bigquery' => (new GoogleCloudDataflowIoBigQueryBigQueryWrite())
                ->withJsonSchema(file_get_contents(__DIR__ . '/schema.json'))
                ->withTable($table->tableId())
        ],
    ]
]);

$operation = $job->run();

# Poll the operation until it is complete
$operation->pollUntilComplete();

if (!$operation->isComplete()) {
    exit(1);
}

if ($operation->getError()) {
    print_r($operation->getError());
    exit(1);
}

echo "Job has been launched";
Salin selepas log masuk

5. Jalankan saluran pemprosesan Dataflow

Gunakan arahan berikut untuk menjalankan saluran pemprosesan Dataflow:

$ php dataflow.php
Salin selepas log masuk
6. Pemantauan dan pengurusan saluran paip pemprosesan data

Google Cloud Console menyediakan halaman Dataflow yang boleh digunakan untuk melihat dan mengurus saluran paip pemprosesan data.

7 Ringkasan

Artikel ini memperkenalkan cara menggunakan PHP dan Google Cloud Dataflow untuk pemprosesan dan pengurusan data strim, daripada mencipta projek Google Cloud kepada menyediakan persekitaran, memasang sambungan PHP yang diperlukan, kepada menulis kod pemprosesan aliran data dan menjalankan Saluran Paip pemprosesan Dataflow, serta pemantauan dan pengurusan saluran paip pemprosesan data, memperkenalkan proses dan langkah Dataflow secara terperinci, dengan harapan dapat membantu semua orang.

Atas ialah kandungan terperinci Cara menggunakan PHP dan Google Cloud Dataflow untuk penstriman pemprosesan dan pengurusan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan