Rumah pembangunan bahagian belakang tutorial php Cipta perangkak web yang pantas dan cekap: contoh PHP dan Selenium

Cipta perangkak web yang pantas dan cekap: contoh PHP dan Selenium

Jun 15, 2023 pm 04:10 PM
perangkak web pengaturcaraan php Operasi selenium

Dengan perkembangan berterusan Internet, merangkak data telah menjadi kemahiran penting bagi ramai orang. Perangkak web adalah salah satu alat penting untuk merangkak data.

Perangkak web boleh mengakses tapak web secara automatik, mengambil kandungan, menganalisis halaman dan mengekstrak data yang diperlukan. Antaranya, Selenium ialah alat ujian automasi rangkaian yang sangat baik yang boleh mensimulasikan operasi pengguna sebenar dan sangat membantu untuk membina perangkak web.

Artikel ini akan memperkenalkan cara menggunakan PHP dan Selenium untuk mencipta perangkak web yang pantas dan cekap Sebelum melakukan ini, kita perlu memahami beberapa pengetahuan asas.

1. Persekitaran pemasangan

Sebelum anda mula, anda perlu memasang PHP dan Selenium.

1. Pasang PHP

Dalam persekitaran Windows, anda boleh memuat turun dan memasang pakej perisian XAMPP atau WAMP, dan pengguna Mac boleh memasang pakej perisian MAMP.

Dalam persekitaran Linux, anda boleh memasang PHP melalui baris arahan Contohnya, pada sistem Ubuntu, anda boleh memasangnya melalui arahan berikut:

sudo apt-get install php7.0<.>

Perlu diingat bahawa semasa memasang PHP, anda perlu mengesahkan bahawa beberapa sambungan yang diperlukan telah dipasang, seperti: php-curl. Anda boleh mengesahkan sama ada sambungan telah dipasang dengan menjalankan arahan berikut:

php -m | grep curl

Jika tiada sambungan curl, anda perlu memasangnya secara manual.

2. Pasang Selenium

Sebelum memasang Selenium, anda perlu memasang Java Runtime Environment (JRE).

Selenium Server Standalone Edition boleh dimuat turun dari tapak web rasmi Selenium (https://www.selenium.dev/downloads/).

Anda boleh menggunakan arahan berikut untuk memulakan pelayan Selenium:

java -jar selenium-server-standalone-3.xx.x.jar

2 rangkaian menggunakan Selenium dan PHP Crawler

Sebelum anda mula membina perangkak web, anda perlu memahami beberapa konsep asas:

    WebDriver
WebDriver ialah komponen teras dalam Selenium yang boleh Digunakan untuk mengawal tingkah laku pelayar. Menggunakan WebDriver, kami boleh membuka dan menutup pelayar secara automatik dan mensimulasikan gelagat operasi pengguna.

    Locator
Locator digunakan untuk mencari elemen pada halaman HTML. Kaedah penentududukan yang biasa digunakan dalam Selenium termasuk id, nama, kelas, tagname, css, xpath, dsb.

    Tindakan
Tindakan merujuk kepada tindakan pengguna tertentu dalam penyemak imbas, seperti mengklik, memasukkan teks, melayang tetikus, dsb.

Dalam contoh ini, kami akan mencipta perangkak web menggunakan alat ujian automatik Selenium WebDriver dan bahasa pengaturcaraan PHP. Mengambil Baidu (https://www.baidu.com) sebagai contoh, kami akan mencari kata kunci dan merangkak pautan hasil carian.

Pertama, anda perlu menggunakan Composer untuk memasang Selenium WebDriver dan PHP WebDriver dalam projek PHP anda.

    Konfigurasikan Komposer
Sebelum mencipta projek PHP, anda perlu memasang Komposer (https://getcomposer.org/) dan mencipta projek PHP baharu melalui arahan barisan .

Dalam folder projek, anda boleh memasang Selenium WebDriver dan PHP WebDriver menggunakan arahan berikut:

komposer memerlukan facebook/webdriver

    Tulis kod
Buat fail baharu crawl.php dalam folder projek, edit kod seperti berikut:

<?php
require_once('vendor/autoload.php');

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;
use FacebookWebDriverWebDriverBy;
use FacebookWebDriverWebDriverKeys;

// 设置WebDriver
$host = 'http://localhost:4444/wd/hub';
$capabilities = DesiredCapabilities::chrome();
$driver = RemoteWebDriver::create($host, $capabilities, 5000);

// 打开百度
$driver->get('https://www.baidu.com');

// 搜索关键字
$search_box = $driver->findElement(WebDriverBy::id('kw'));
$search_box->sendKeys('Selenium');
$search_box->sendKeys(WebDriverKeys::ENTER);

// 等待页面加载完成
sleep(5);

// 抓取搜索结果链接
$elements = $driver->findElements(WebDriverBy::xpath('//div/h3/a'));
foreach ($elements as $element) {
    echo $element->getAttribute('href')."
";
}

// 关闭浏览器
$driver->quit();
?>
Salin selepas log masuk

Pertama, kita perlu menyediakan pemacu web, termasuk penyemak imbas yang digunakan (pelayar Chrome digunakan di sini ) dan alamat perkhidmatan WebDriver.

Seterusnya, gunakan WebDriver untuk membuka halaman utama Baidu. Kami akan menemui kotak carian Baidu mengikut id, masukkan kata kunci Selenium dan tekan Enter untuk menyerahkan carian. Selepas itu, tunggu halaman dimuatkan dan dapatkan pautan ke semua hasil carian.

Akhir sekali, tutup penyemak imbas.

    Jalankan kod
Laksanakan arahan berikut dalam baris arahan untuk menjalankan crawl.php dan merangkak pautan hasil carian:

php crawl . php

3. Ringkasan

Melalui pengenalan artikel ini, anda boleh mempelajari cara menggunakan PHP dan Selenium untuk membina perangkak web yang ringkas. Selenium WebDriver boleh digunakan untuk mensimulasikan operasi pengguna, dengan itu mencapai hasil rangkak web yang lebih baik. Dalam aplikasi praktikal, kami boleh menggunakan kaedah penentududukan yang berbeza dan menyesuaikan gelagat operasi mengikut keperluan untuk mencapai rangkak data yang lebih tepat dan cekap.

Nota: Contoh ini adalah untuk rujukan pembelajaran sahaja dan dilarang untuk tujuan yang menyalahi undang-undang.

Atas ialah kandungan terperinci Cipta perangkak web yang pantas dan cekap: contoh PHP dan Selenium. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Baris format PHP ke CSV dan tulis penuding fail Baris format PHP ke CSV dan tulis penuding fail Mar 22, 2024 am 09:00 AM

Artikel ini akan menerangkan secara terperinci bagaimana PHP memformat baris ke dalam CSV dan menulis penunjuk fail saya rasa ia agak praktikal, jadi saya berkongsi dengan anda sebagai rujukan saya harap anda boleh memperoleh sesuatu selepas membaca artikel ini. Format baris ke CSV dan tulis ke penuding fail Langkah 1: Buka penuding fail $file=fopen("path/to/file.csv","w"); kepada rentetan CSV. Fungsi ini menerima parameter berikut: $fail: penuding fail $medan: medan CSV sebagai tatasusunan $pembatas: pembatas medan (pilihan) $kepungan: petikan medan (

PHP menukar umask semasa PHP menukar umask semasa Mar 22, 2024 am 08:41 AM

Artikel ini akan menerangkan secara terperinci tentang menukar umask semasa dalam PHP Editor berpendapat ia agak praktikal, jadi saya berkongsi dengan anda sebagai rujukan saya harap anda boleh memperoleh sesuatu selepas membaca artikel ini. Gambaran keseluruhan PHP yang menukar umask semasa umask ialah fungsi php yang digunakan untuk menetapkan kebenaran fail lalai untuk fail dan direktori yang baru dibuat. Ia menerima satu hujah, iaitu nombor perlapanan yang mewakili kebenaran untuk menyekat. Sebagai contoh, untuk menghalang kebenaran menulis pada fail yang baru dibuat, anda akan menggunakan 002. Kaedah menukar umask Terdapat dua cara untuk menukar umask semasa dalam PHP: Menggunakan fungsi umask(): Fungsi umask() menukar secara langsung umask semasa. Sintaksnya ialah: intumas

PHP mencipta fail dengan nama fail yang unik PHP mencipta fail dengan nama fail yang unik Mar 21, 2024 am 11:22 AM

Artikel ini akan menerangkan secara terperinci cara membuat fail dengan nama fail yang unik dalam PHP Editor berpendapat ia agak praktikal, jadi saya berkongsi dengan anda sebagai rujukan saya harap anda boleh memperoleh sesuatu selepas membaca artikel ini. Mencipta fail dengan nama fail unik dalam PHP Pengenalan Mencipta fail dengan nama fail unik dalam PHP adalah penting untuk mengatur dan mengurus sistem fail anda. Nama fail yang unik memastikan bahawa fail sedia ada tidak ditimpa dan menjadikannya lebih mudah untuk mencari dan mendapatkan semula fail tertentu. Panduan ini akan merangkumi beberapa cara untuk menjana nama fail unik dalam PHP. Kaedah 1: Gunakan fungsi uniqid() Fungsi uniqid() menjana rentetan unik berdasarkan masa semasa dan mikrosaat. Rentetan ini boleh digunakan sebagai asas untuk nama fail.

PHP mengira cincangan fail MD5 PHP mengira cincangan fail MD5 Mar 21, 2024 pm 01:42 PM

Artikel ini akan menerangkan secara terperinci tentang PHP mengira cincangan fail MD5. Editor berpendapat ia agak praktikal, jadi saya berkongsi dengan anda sebagai rujukan saya harap anda boleh memperoleh sesuatu selepas membaca artikel ini. PHP mengira cincangan MD5 bagi fail MD5 (MessageDigest5) ialah algoritma penyulitan sehala yang menukarkan mesej dengan panjang sewenang-wenangnya kepada nilai cincang 128-bit panjang tetap. Ia digunakan secara meluas untuk memastikan integriti fail, mengesahkan ketulenan data dan mencipta tandatangan digital. Mengira cincang MD5 fail dalam PHP PHP menyediakan berbilang kaedah untuk mengira cincang MD5 bagi fail: Gunakan fungsi md5_file() Fungsi md5_file() mengira secara langsung nilai cincang MD5 bagi fail dan mengembalikan 32 aksara.

PHP mengembalikan tatasusunan dengan nilai kunci dibalikkan PHP mengembalikan tatasusunan dengan nilai kunci dibalikkan Mar 21, 2024 pm 02:10 PM

Artikel ini akan menerangkan secara terperinci bagaimana PHP mengembalikan tatasusunan selepas membalikkan nilai utama Editor berpendapat ia agak praktikal, jadi saya berkongsi dengan anda sebagai rujukan saya harap anda boleh memperoleh sesuatu selepas membaca artikel ini. PHP key value flip Array key value flip ialah operasi pada tatasusunan yang menukar kunci dan nilai dalam tatasusunan untuk menjana tatasusunan baharu dengan kunci asal sebagai nilai dan nilai asal sebagai kunci. Kaedah pelaksanaan Dalam PHP, anda boleh melakukan pembalik nilai kunci tatasusunan melalui kaedah berikut: fungsi array_flip(): Fungsi array_flip() digunakan khas untuk operasi flip nilai kunci. Ia menerima tatasusunan sebagai hujah dan mengembalikan tatasusunan baharu dengan kunci dan nilai ditukar. $original_array=[

PHP memotong fail kepada panjang tertentu PHP memotong fail kepada panjang tertentu Mar 21, 2024 am 11:42 AM

Artikel ini akan menerangkan secara terperinci bagaimana PHP memotong fail mengikut panjang tertentu Editor berpendapat ia agak praktikal, jadi saya berkongsi dengan anda sebagai rujukan saya harap anda boleh memperoleh sesuatu selepas membaca artikel ini. Pengenalan kepada pemangkasan fail PHP Fungsi file_put_contents() dalam PHP boleh digunakan untuk memotong fail pada panjang yang ditentukan. Pemangkasan bermaksud mengalih keluar sebahagian daripada hujung fail, dengan itu memendekkan panjang fail. Syntax file_put_contents($filename,$data,SEEK_SET,$offset);$filename: laluan fail yang akan dipotong. $data: Rentetan kosong untuk ditulis pada fail. SEEK_SET: ditetapkan sebagai permulaan fail

PHP menentukan sama ada kunci yang ditentukan wujud dalam tatasusunan PHP menentukan sama ada kunci yang ditentukan wujud dalam tatasusunan Mar 21, 2024 pm 09:21 PM

Artikel ini akan menerangkan secara terperinci bagaimana PHP menentukan sama ada kunci yang ditentukan wujud dalam tatasusunan Editor berpendapat ia sangat praktikal, jadi saya berkongsi dengan anda sebagai rujukan saya harap anda boleh memperoleh sesuatu selepas membaca artikel ini. PHP menentukan sama ada kunci yang ditentukan wujud dalam tatasusunan: Dalam PHP, terdapat banyak cara untuk menentukan sama ada kunci yang ditentukan wujud dalam tatasusunan: 1. Gunakan fungsi isset(): isset($array["key"]) Fungsi ini mengembalikan nilai Boolean, benar jika kunci yang ditentukan wujud, palsu sebaliknya. 2. Gunakan fungsi array_key_exists(): array_key_exists("key",$arr

PHP mengembalikan pengekodan berangka mesej ralat dalam operasi MySQL sebelumnya PHP mengembalikan pengekodan berangka mesej ralat dalam operasi MySQL sebelumnya Mar 22, 2024 pm 12:31 PM

Artikel ini akan menerangkan secara terperinci pengekodan digital mesej ralat yang dikembalikan oleh PHP dalam operasi Mysql sebelumnya. Editor berpendapat ia agak praktikal, jadi saya berkongsi dengan anda sebagai rujukan . Menggunakan PHP untuk mengembalikan maklumat ralat MySQL Pengekodan Berangka Pengenalan Semasa memproses pertanyaan mysql, anda mungkin menghadapi ralat. Untuk mengendalikan ralat ini dengan berkesan, adalah penting untuk memahami pengekodan berangka mesej ralat. Artikel ini akan membimbing anda menggunakan php untuk mendapatkan pengekodan berangka mesej ralat Mysql. Kaedah mendapatkan pengekodan berangka maklumat ralat 1. mysqli_errno() Fungsi mysqli_errno() mengembalikan nombor ralat terkini sambungan MySQL semasa. Sintaksnya adalah seperti berikut: $erro

See all articles