Rumah pembangunan bahagian belakang tutorial php Amalan perangkak PHP: cara merangkak data jadual web

Amalan perangkak PHP: cara merangkak data jadual web

Jun 13, 2023 am 09:35 AM
php reptilia data jadual

Dengan kemunculan Internet dan era data besar, semakin banyak data boleh dikumpul dan digunakan. Di antara banyak kaedah untuk mendapatkan data dari halaman web, teknologi crawler boleh dikatakan sebagai yang paling berkuasa dan cekap.

Dalam senario aplikasi sebenar, kita selalunya perlu mengambil data khusus daripada halaman web, terutamanya data jadual dalam halaman web. Oleh itu, artikel ini akan memperkenalkan cara menggunakan teknologi perangkak PHP untuk mendapatkan dan menghuraikan data jadual dalam halaman web.

  1. Pasang dan konfigurasikan pustaka perangkak PHP

Sebelum kita mula menulis kod perangkak, kita perlu memasang dan mengkonfigurasi perpustakaan perangkak PHP. Di sini kami memilih untuk menggunakan pustaka PHP Simple HTML DOM Parser, yang merupakan penghurai HTML ringan yang boleh menghuraikan tag dan atribut dengan mudah dalam dokumen HTML, dan menyediakan beberapa kaedah operasi DOM yang biasa digunakan. Perpustakaan boleh dipasang dan dikonfigurasikan dengan mudah menggunakan alat komposer.

  1. Analisis halaman web sasaran

Sebelum menulis kod untuk menangkap data halaman web, kita perlu menganalisis struktur dan format data halaman web sasaran terlebih dahulu supaya kita dapat dengan betul mencari dan mendapatkannya data yang diperlukan. Di sini kami mengambil halaman senarai artikel tapak web blog sebagai contoh Ia mengandungi berbilang baris data dan beberapa elemen jadual, seperti yang ditunjukkan di bawah:

<table>
  <thead>
    <tr>
      <th>编号</th>
      <th>标题</th>
      <th>作者</th>
      <th>发布时间</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>1</td>
      <td><a href="/articles/1">PHP爬虫实战</a></td>
      <td>张三</td>
      <td>2022-06-01 08:00:00</td>
    </tr>
    <tr>
      <td>2</td>
      <td><a href="/articles/2">Python数据可视化</a></td>
      <td>李四</td>
      <td>2022-06-02 09:00:00</td>
    </tr>
    <!-- more rows -->
  </tbody>
</table>
Salin selepas log masuk

Jadual dalam halaman web ini terdiri daripada <table>, <🎜. >, Ia terdiri daripada teg seperti <thead> dan <tbody>, di mana <tr> digunakan untuk mentakrifkan pengepala lajur jadual, <thead> digunakan untuk menentukan data baris jadual, <tbody> digunakan untuk mentakrifkan data sel dan teg <td> Pautan yang mewakili tajuk artikel. <a>

    Tulis kod perangkak
Dengan hasil analisis halaman web sasaran, kami boleh menulis kod perangkak untuk mendapatkan data jadual.

Pertama, kita perlu memuatkan halaman web sasaran dan kemudian menggunakan kaedah

untuk menukarnya menjadi objek DOM. Kemudian, kita boleh menggunakan kaedah file_get_html() untuk memilih elemen di mana data berada Sebagai contoh, find() bermaksud memilih semua tag table > tbody > tr di bawah elemen anak <table> daripada <tbody>, iaitu semua. baris data dalam jadual. Kodnya adalah seperti berikut: <tr>

$url = 'http://example.com/articles';
$html = file_get_html($url);

$rows = array();
foreach ($html->find('table > tbody > tr') as $row) {
  // 解析表格数据
}
Salin selepas log masuk

Kemudian, kita perlu melintasi setiap baris data, menghuraikan data sel dan menyimpannya ke tatasusunan untuk pemprosesan seterusnya. Secara khusus, kita boleh menggunakan kaedah

untuk memilih elemen anak find('td') setiap elemen baris, dan kemudian mendapatkan kandungan teks atau alamat pautannya. Kodnya adalah seperti berikut: <td>

$url = 'http://example.com/articles';
$html = file_get_html($url);

$rows = array();
foreach ($html->find('table > tbody > tr') as $row) {
  $data = array();
  
  // 获取单元格文本内容或链接地址
  $columns = $row->find('td');
  $data['id'] = $columns[0]->plaintext;
  $data['title'] = $columns[1]->find('a', 0)->plaintext;
  $data['link'] = $columns[1]->find('a', 0)->href;
  $data['author'] = $columns[2]->plaintext;
  $data['date'] = $columns[3]->plaintext;
    
  $rows[] = $data;
}
Salin selepas log masuk
Dalam kod di atas, tatasusunan

menyimpan data baris semasa, di mana $data, id, title dan author masing-masing sepadan dengan lajur jadual, dan date Ia adalah alamat pautan tajuk artikel. Gunakan penyataan link untuk menambah tatasusunan $rows[] = $data pada tatasusunan $data. $rows

Akhir sekali, kami boleh memproses dan menyimpan data selanjutnya mengikut keperluan kami, seperti menyimpan data ke pangkalan data atau mengeksportnya ke fail Excel.

    Ringkasan
Artikel ini memperkenalkan cara menggunakan perpustakaan PHP Simple HTML DOM Parser untuk merangkak data jadual web. Dengan menganalisis struktur dan format data halaman web sasaran dan menggunakan kaedah operasi DOM yang sepadan, kami boleh mencari dan mendapatkan data yang diperlukan dengan cepat, dengan itu merealisasikan pelbagai analisis data dan senario aplikasi. Sudah tentu, teknologi perangkak juga perlu memberi perhatian untuk mematuhi peraturan dan dasar penggunaan tapak web, dan tidak boleh terlalu menggunakan atau melanggar hak orang lain.

Atas ialah kandungan terperinci Amalan perangkak PHP: cara merangkak data jadual web. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Konfigurasi Projek CakePHP Konfigurasi Projek CakePHP Sep 10, 2024 pm 05:25 PM

Dalam bab ini, kita akan memahami Pembolehubah Persekitaran, Konfigurasi Umum, Konfigurasi Pangkalan Data dan Konfigurasi E-mel dalam CakePHP.

Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 membawa beberapa ciri baharu, peningkatan keselamatan dan peningkatan prestasi dengan jumlah penamatan dan penyingkiran ciri yang sihat. Panduan ini menerangkan cara memasang PHP 8.4 atau naik taraf kepada PHP 8.4 pada Ubuntu, Debian, atau terbitan mereka

Tarikh dan Masa CakePHP Tarikh dan Masa CakePHP Sep 10, 2024 pm 05:27 PM

Untuk bekerja dengan tarikh dan masa dalam cakephp4, kami akan menggunakan kelas FrozenTime yang tersedia.

Muat naik Fail CakePHP Muat naik Fail CakePHP Sep 10, 2024 pm 05:27 PM

Untuk mengusahakan muat naik fail, kami akan menggunakan pembantu borang. Di sini, adalah contoh untuk muat naik fail.

Penghalaan CakePHP Penghalaan CakePHP Sep 10, 2024 pm 05:25 PM

Dalam bab ini, kita akan mempelajari topik berikut yang berkaitan dengan penghalaan ?

Bincangkan CakePHP Bincangkan CakePHP Sep 10, 2024 pm 05:28 PM

CakePHP ialah rangka kerja sumber terbuka untuk PHP. Ia bertujuan untuk menjadikan pembangunan, penggunaan dan penyelenggaraan aplikasi lebih mudah. CakePHP adalah berdasarkan seni bina seperti MVC yang berkuasa dan mudah difahami. Model, Pandangan dan Pengawal gu

Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Dec 20, 2024 am 11:31 AM

Kod Visual Studio, juga dikenali sebagai Kod VS, ialah editor kod sumber percuma — atau persekitaran pembangunan bersepadu (IDE) — tersedia untuk semua sistem pengendalian utama. Dengan koleksi sambungan yang besar untuk banyak bahasa pengaturcaraan, Kod VS boleh menjadi c

Pengesah Mencipta CakePHP Pengesah Mencipta CakePHP Sep 10, 2024 pm 05:26 PM

Pengesah boleh dibuat dengan menambah dua baris berikut dalam pengawal.

See all articles