Dalam dunia Internet yang luas, terdapat sejumlah besar maklumat yang perlu dilombong. Pada masa ini, perangkak web wujud. Walau bagaimanapun, cara crawler ditulis berbeza-beza. Gabungan bahasa dan alat yang berbeza boleh mempunyai kecekapan yang berbeza dan mempunyai kos pembelajaran yang berbeza. Artikel ini akan memperkenalkan cara menggunakan PHP dan Selenium untuk mencipta perangkak web yang pantas dan cekap.
Selenium ialah alat ujian automatik yang boleh mensimulasikan operasi manusia pada halaman web. Ia menyokong pelbagai bahasa pengaturcaraan seperti Java, Python, C# dan PHP, dsb. Versi semasa ialah Selenium WebDriver Berbanding dengan versi sebelumnya, ia tidak perlu menggunakan Selenium RC sebagai lapisan tengah, tetapi berkomunikasi secara langsung dengan pelayar, yang telah meningkatkan kelajuan dan kestabilan.
Pertama sekali, PHP ialah bahasa pengaturcaraan sebelah pelayan yang popular dengan kebolehbacaan dan kebolehskalaan yang baik. Kedua, Selenium, sebagai alat ujian automatik, boleh memacu pelbagai penyemak imbas, mensimulasikan operasi manusia dengan mudah pada halaman web dan menangkap data akhir yang dikehendaki. Akhir sekali, memandangkan fungsi curl yang digunakan dalam bahasa PHP mungkin disekat oleh tapak web, Selenium boleh mensimulasikan tingkah laku pelayar sebenar dan tidak mudah disekat.
Sebelum memasang Selenium, anda perlu memasang Composer terlebih dahulu Jika anda belum memasang Composer, sila rujuk dokumentasi rasmi untuk memasangnya.
Selepas memasang Komposer, pasang antara muka PHP Selenium melalui Komposer:
composer require facebook/webdriver
Pertama, kami perlu memperkenalkan klien Selenium WebDriver:
rreeeKemudian, kami perlu membuat instantiate WebDriver, pilih penyemak imbas untuk dimulakan dan laluan pemacu yang sepadan:
require_once 'vendor/autoload.php'; use FacebookWebDriverRemoteRemoteWebDriver; use FacebookWebDriverWebDriverBy;
Di sini kami memilih untuk memulakan penyemak imbas Chrome, kami perlu memuat turun ChromeDriver terlebih dahulu dan menetapkan laluan pemacu :
$driver = RemoteWebDriver::create( 'http://localhost:9515', DesiredCapabilities::chrome() );
Kemudian, kita boleh membuka halaman web dan mendapatkan data:
putenv('webdriver.chrome.driver=/usr/local/bin/chromedriver');
Kod di sini membuka halaman example.com, dan kemudian mencari kelas elemen kelas contoh dan cetakan ia keluar.
Berbanding dengan alat perangkak lain, perangkak Selenium adalah lebih perlahan, terutamanya kerana setiap operasi memerlukan memulakan dan menutup penyemak imbas. Untuk mempercepatkan perangkak, kami boleh cache contoh WebDriver.
$driver->get("https://www.example.com"); $elements = $driver->findElements(WebDriverBy::cssSelector(".example-class")); foreach ($elements as $element) { echo $element->getText() . " "; }
Kod di atas ditujukan kepada penyemak imbas Chrome, menyediakan mod Tanpa Kepala dan melaksanakan cache objek WebDriver Fungsi register_shutdown_function() digunakan untuk log keluar operasi objek WebDriver, dengan itu mengelakkan kerap. permulaan pelayar.
Secara umum, menggunakan PHP digabungkan dengan Selenium untuk menulis perangkak web boleh menangkap data yang diperlukan dengan cepat dan cekap. Walau bagaimanapun, perlu diingat bahawa penggunaan perangkak web masih perlu mematuhi undang-undang dan peraturan yang berkaitan, dan tidak boleh melanggar peraturan tapak web atau menangkap maklumat peribadi dan data lain, jika tidak, anda mungkin menghadapi risiko undang-undang yang tidak perlu.
Atas ialah kandungan terperinci Cara mencipta perangkak web yang pantas dan cekap dengan PHP dan Selenium. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!