Rumah pembangunan bahagian belakang tutorial php PHP dan Selenium: Bagaimana untuk mengikis data dari halaman web yang berbeza?

PHP dan Selenium: Bagaimana untuk mengikis data dari halaman web yang berbeza?

Jun 16, 2023 am 10:01 AM
php Data merangkak selenium

Dengan perkembangan Internet, perangkak web sudah pasti menjadi cara penting untuk mendapatkan maklumat. Apabila kami menghadapi pelbagai laman web yang berbeza dan perlu mengumpul beberapa maklumat, kami perlu memberi tumpuan kepada mengkaji struktur halaman setiap tapak web. Jadi adakah terdapat kaedah umum untuk merangkak data pada tapak web yang berbeza? Jawapannya ya, artikel ini akan memperkenalkan cara menggunakan PHP dan Selenium untuk merangkak data pada halaman web yang berbeza.

Apakah Selenium?

Selenium boleh dikatakan sebagai salah satu piawaian dalam komuniti ujian automasi web Ia boleh mensimulasikan operasi pengguna dalam penyemak imbas, termasuk input, klik, pemilihan kotak lungsur, muat naik fail, dll. Kami boleh menggunakan Selenium untuk melaksanakan ujian automatik halaman web, tetapi di sini, kami akan menggunakan Selenium untuk merangkak data.

Mengapa menggunakan Selenium?

Apabila mengikis data, kami sering menemui beberapa halaman yang boleh diakses melalui permintaan curl atau file_get_contents yang ringkas. Walau bagaimanapun, dengan perkembangan teknologi Web, banyak laman web telah menggunakan rangka kerja bahagian hadapan seperti Ajax, Vue, dan React, dan data halaman diperoleh secara tak segerak melalui JavaScript. Dalam kes ini, kita perlu mensimulasikan operasi penyemak imbas untuk mendapatkan hasil pemaparan halaman yang lengkap. Selain itu, untuk mengelakkan perangkak, sesetengah tapak web akan menggunakan kod pengesahan dan cara lain untuk pengesahan Pada masa ini, kami juga perlu menggunakan Selenium untuk mensimulasikan operasi manual sebelum kami boleh terus menangkap data.

Proses asas menggunakan PHP dan Selenium untuk menangkap data

Langkah pertama ialah memasang Selenium

Pemasangan Selenium sangat mudah, hanya gunakan Composer di terminal untuk melaksanakan arahan berikut Itu sahaja:

composer require php-webdriver/webdriver
Salin selepas log masuk

Selepas pemasangan selesai, kami perlu memuat turun pemacu untuk penyemak imbas yang sepadan dengan mengambil Chrome sebagai contoh, anda perlu memuat turun chromedriver dan meletakkan pemacu yang dimuat turun di lokasi yang ditunjukkan oleh pembolehubah PATH.

Langkah kedua ialah memulakan Selenium

Memulakan Selenium adalah sangat mudah, cuma masukkan arahan berikut dalam terminal:

java -jar path/to/selenium-server-standalone-3.141.59.jar
Salin selepas log masuk

Antaranya, laluan/ke/ ialah Selenium’s Laluan pemasangan.

Langkah ketiga ialah menggunakan Selenium untuk melaksanakan penangkapan data

Dengan Selenium dan pemacu penyemak imbas, kami boleh terus menggunakan PHP untuk memanggil API Selenium untuk melaksanakan ujian tapak web automatik dan penangkapan data. Mari kita ambil contoh merangkak maklumat filem TOP250 dalam Filem Douban untuk pengenalan:

  1. Buka penyemak imbas dan masukkan URL
use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;

$host = 'http://localhost:4444/wd/hub'; // Selenium本地服务地址
$capabilities = DesiredCapabilities::chrome();
$webDriver = RemoteWebDriver::create($host, $capabilities);

$url = 'https://movie.douban.com/top250';
$webDriver->get($url);
Salin selepas log masuk
  1. Klik pada halaman seterusnya untuk meneruskan Dapatkan maklumat filem
do {
    // 获取电影列表并输出
    $list = $webDriver->findElements(WebDriverBy::cssSelector('.grid_view .item'));
    foreach ($list as $item) {
        $name = $item->findElement(WebDriverBy::cssSelector('.title'))->getText();
        $directors = $item->findElement(WebDriverBy::cssSelector('.bd p:first-child'))->getText();
        $rate = $item->findElement(WebDriverBy::cssSelector('.rating_num'))->getText();
        echo "$name $directors $rate
";
    }

    // 点击下一页
    $nextPageBtn = $webDriver->findElement(WebDriverBy::cssSelector('.paginator .next a'));
    $nextPageBtnClassName = $nextPageBtn->getAttribute('class');
    if (strpos($nextPageBtnClassName, 'disabled') === false) {
        $nextPageBtn->click();
    } else {
        break;
    }

    // 等待新页面加载完成
    $webDriver->wait()->until(WebDriverExpectedCondition::urlContains(intval($page + 1)));
} while (true);
Salin selepas log masuk
  1. Tutup penyemak imbas
$webDriver->quit();
Salin selepas log masuk

Dengan kod di atas, kami boleh mendapatkan maklumat berkaitan filem TOP250 Douban dengan mudah.

Ringkasan

Artikel ini memperkenalkan cara menggunakan PHP dan Selenium untuk merangkak data pada tapak web yang berbeza, dan menerangkan langkah pelaksanaan khusus secara terperinci berserta contoh. Menggunakan Selenium membolehkan kami mendapatkan data dengan lebih mudah dan mendapatkan maklumat yang diperlukan dengan lebih cepat, yang sangat berguna untuk beberapa tugas merangkak yang memerlukan penyesuaian yang tinggi.

Atas ialah kandungan terperinci PHP dan Selenium: Bagaimana untuk mengikis data dari halaman web yang berbeza?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Konfigurasi Projek CakePHP Konfigurasi Projek CakePHP Sep 10, 2024 pm 05:25 PM

Dalam bab ini, kita akan memahami Pembolehubah Persekitaran, Konfigurasi Umum, Konfigurasi Pangkalan Data dan Konfigurasi E-mel dalam CakePHP.

Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 membawa beberapa ciri baharu, peningkatan keselamatan dan peningkatan prestasi dengan jumlah penamatan dan penyingkiran ciri yang sihat. Panduan ini menerangkan cara memasang PHP 8.4 atau naik taraf kepada PHP 8.4 pada Ubuntu, Debian, atau terbitan mereka

Tarikh dan Masa CakePHP Tarikh dan Masa CakePHP Sep 10, 2024 pm 05:27 PM

Untuk bekerja dengan tarikh dan masa dalam cakephp4, kami akan menggunakan kelas FrozenTime yang tersedia.

Muat naik Fail CakePHP Muat naik Fail CakePHP Sep 10, 2024 pm 05:27 PM

Untuk mengusahakan muat naik fail, kami akan menggunakan pembantu borang. Di sini, adalah contoh untuk muat naik fail.

Penghalaan CakePHP Penghalaan CakePHP Sep 10, 2024 pm 05:25 PM

Dalam bab ini, kita akan mempelajari topik berikut yang berkaitan dengan penghalaan ?

Bincangkan CakePHP Bincangkan CakePHP Sep 10, 2024 pm 05:28 PM

CakePHP ialah rangka kerja sumber terbuka untuk PHP. Ia bertujuan untuk menjadikan pembangunan, penggunaan dan penyelenggaraan aplikasi lebih mudah. CakePHP adalah berdasarkan seni bina seperti MVC yang berkuasa dan mudah difahami. Model, Pandangan dan Pengawal gu

Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Dec 20, 2024 am 11:31 AM

Kod Visual Studio, juga dikenali sebagai Kod VS, ialah editor kod sumber percuma — atau persekitaran pembangunan bersepadu (IDE) — tersedia untuk semua sistem pengendalian utama. Dengan koleksi sambungan yang besar untuk banyak bahasa pengaturcaraan, Kod VS boleh menjadi c

Pengesah Mencipta CakePHP Pengesah Mencipta CakePHP Sep 10, 2024 pm 05:26 PM

Pengesah boleh dibuat dengan menambah dua baris berikut dalam pengawal.

See all articles