Dengan perkembangan Internet, teknologi crawler telah menjadi alat yang sangat diperlukan dalam pemerolehan data, analisis pasaran, penyelidikan produk yang kompetitif dan bidang lain. Antara teknologi perangkak tradisional, Python ialah bahasa pilihan untuk membangunkan alat perangkak Berbanding dengan bahasa lain, Python mempunyai kelebihan kerana mudah dipelajari, ringkas dan kaya dengan perpustakaan perangkak. Tetapi hari ini, kami akan memperkenalkan satu lagi bahasa perangkak yang sangat baik-PHP, dan tekniknya yang cekap dalam kombinasi dengan Selenium.
1. Apakah itu Selenium
Selenium ialah alat yang digunakan secara meluas dalam ujian automasi web. Melalui Selenium, anda boleh mensimulasikan tingkah laku manusia untuk mengendalikan tapak web, dan melaksanakan ujian laman web automatik dan juga pembangunan perangkak. Teras Selenium ialah WebDriver, yang boleh mensimulasikan gelagat penyemak imbas, termasuk mengklik, memasukkan, menukar tetingkap dan semua gelagat lain yang memerlukan operasi manusia. Selenium sangat berguna untuk perangkak dalam senario kompleks yang memerlukan log masuk, pengesahan, dsb.
2. Kelebihan menggunakan Selenium untuk membangunkan perangkak
1 Sesuai untuk merangkak data dalam senario yang kompleks
2 Boleh secara langsung meniru tingkah laku manusia dan mengelakkan masalah dengan IP atau Kuki
3 Java , Python, Ruby dan bahasa lain yang disokong
3. Pemasangan selenium
Selenium boleh dipasang terus dalam PHP Kaedah pemasangan adalah seperti berikut:
1.
curl -sS https://getcomposer.org/installer |. php
2 Cipta fail konfigurasi composer.json dan tambah pakej Selenium WebDriver:
{
"memerlukan" : {
"php-webdriver/webdriver": "dev-master"
}
}
3 Pasang WebDriver melalui komposer:
php composer.phar install
4 ia:
wget https://selenium-release.storage.googleapis.com/2.53/selenium-server-standalone-2.53.1.jar
Empat amalan kod perangkak PHP+Selenium
di bawah Kami akan memanggil Selenium untuk mensimulasikan carian Baidu, mencari kata kunci yang berkaitan dan mengembalikan hasil merangkak.
Pertama sekali, anda perlu mengimport WebDriver dan mulakan penyemak imbas:
require_once('vendor/autoload.php');
use FacebookWebDriverRemoteRemoteWebDriver;
use FacebookDriverByWeb;
$driver = RemoteWebDriver::create($host, array('browserName' => 'firefox'));
$element = $driver- >findElement (WebDriverBy::id('kw'));
$element->submit();
WebDriverExpectedCondition::elementToBeClickable(WebDriverBy::xpath("//a[contains(@class,'n') and contains(@class,'next')]" ))
) ;
$elements = $driver ->findElements(WebDriverBy: :cssSelector('h3 > a'));
foreach ($elemen sebagai $elemen) {
$result[] = array($element->getText(), $element->getAttribute( 'href'));
}
echo json_encode($result) ;
Selenium ialah alat yang sangat diperlukan dalam ujian automatik web dan pembangunan perangkak. Artikel ini memperkenalkan kelebihan teknologi Selenium dan cara menulis perangkak Selenium dalam PHP. Walaupun Python masih menjadi pilihan yang lebih popular dalam pembangunan perangkak, PHP, sebagai bahasa yang sangat baik, digabungkan dengan Selenium, boleh menjadi alat perangkak yang berkuasa, memberikan lebih banyak kemungkinan untuk analisis data, penyelidikan pasaran dan bidang lain.
Atas ialah kandungan terperinci Teknologi pembangunan crawler: Gunakan PHP dan Selenium untuk membina perangkak web kelas pertama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!