Dengan perkembangan berterusan Internet, data telah menjadi sumber penting dalam industri dan bidang penyelidikan. Oleh itu, perangkak web secara beransur-ansur menjadi cara yang penting untuk mendapatkan dan memproses data. Gabungan PHP dan Selenium juga telah terbukti sebagai kit alat pembangunan perangkak web yang sangat berkuasa.
Artikel ini akan memperkenalkan anda cara menggunakan PHP dan Selenium untuk menulis perangkak web dan cara memproses data yang diperolehi. Dalam artikel ini, kami akan menunjukkan cara menggunakan alatan ini melalui contoh praktikal untuk memberi anda pemahaman yang lebih baik tentang pembangunan perangkak web.
Perangkak web ialah program yang direka untuk mengimbas dan merangkak maklumat secara automatik di Internet. Maklumat ini boleh menjadi halaman web, gambar, audio atau video, dsb. Perangkak boleh disediakan mengikut keperluan anda, melawat tapak web satu demi satu, kemudian mendapatkan maklumat yang diperlukan, dan akhirnya mengatur, menyimpan dan menganalisisnya.
PHP ialah bahasa skrip sebelah pelayan yang sangat popular, digunakan untuk menulis halaman web dinamik, memproses data borang dan mengakses pangkalan data, dsb. Oleh kerana kemudahan pembelajaran dan kemudahan penggunaannya, PHP telah menjadi salah satu bahasa pilihan untuk pembangun web.
Walau bagaimanapun, PHP itu sendiri bukanlah bahasa pengaturcaraan perangkak web yang baik. Pada masa ini, Selenium boleh berguna. Selenium ialah alat ujian automatik yang mensimulasikan tingkah laku pengguna dalam penyemak imbas. Ia membolehkan perangkak web anda menyemak imbas tapak web seperti pengguna sebenar, yang akan menjadikan perangkak anda lebih pintar dan lebih cekap.
Langkah 1: Muat turun dan pasang Selenium
Selenium, seperti PHP, juga percuma perisian. Ia boleh dipasang melalui pengurus pakej pihak ketiga Komposer.
$ composer memerlukan php-webdriver/webdriver
Memulakan Selenium memerlukan persekitaran runtime Java, yang boleh dimuat turun dan dipasang dari tapak web rasmi.
Langkah 2: Tulis kod
Mari kita lihat kod perangkak web asas:
<?php require_once('vendor/autoload.php'); use FacebookWebDriverRemoteRemoteWebDriver; use FacebookWebDriverWebDriverBy; $driver = RemoteWebDriver::create( 'http://localhost:4444/wd/hub', array('platform' => 'ANY', 'browserName' => 'firefox', 'version' => '')); $driver->get("http://www.google.com"); echo "title of page: " . $driver->getTitle(); $driver->quit(); ?>
Kod ini membuka penyemak imbas firefox dan kemudian melawat halaman utama Google dan menghasilkan tajuk.
Langkah 3: Jalankan program
Laksanakan dalam baris arahan
$ java -jar selenium-server-standalone-2.53.0.jar
Jalankan pelayan selenium, dan kemudian mulakan fail PHP.
Setelah perangkak web anda memperoleh maklumat, anda perlu memprosesnya dengan lebih lanjut. Sebagai contoh, anda mungkin perlu menyimpan data dalam pangkalan data, atau menukarnya kepada fail Excel atau CSV. Berikut ialah beberapa contoh data pemprosesan PHP:
Menyimpan data dalam pangkalan data MySQL:
$pdo = new PDO('mysql:host=localhost;dbname=testdb', 'username', 'password'); $stmt = $pdo->prepare('INSERT INTO users (name, email) VALUES (:name, :email)'); $stmt->execute(array( ':name' => 'John Smith', ':email' => 'johndoe@example.com' ));
Menyimpan data sebagai fail CSV:
$data = array( array('Name', 'Email', 'Phone'), array('John Smith', 'johndoe@example.com', '555-1234'), array('Jane Doe', 'janedoe@example.com', '555-5678') ); $file = fopen('data.csv', 'w'); foreach ($data as $row) { fputcsv($file, $row); } fclose($file);
Dengan menggunakan PHP dan Selenium, anda boleh menulis alatan merangkak web yang berkuasa. Alat ini secara automatik mengimbas Internet untuk mendapatkan maklumat dan memproses serta mengatur data. Kami berharap artikel ini dapat membantu anda, jika anda ingin mengetahui lebih lanjut tentang pembangunan perangkak web, sila rujuk dokumentasi PHP dan Selenium yang sepadan.
Atas ialah kandungan terperinci Kit alat berkuasa yang terdiri daripada PHP dan Selenium: buku teks praktikal untuk pembangunan perangkak web. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!