Contoh penggunaan PHP untuk menghuraikan dan memproses HTML/XML untuk mencipta perangkak web
Pengenalan:
Perangkak web ialah alat automatik yang digunakan untuk merangkak data daripada World Wide Web. Sebagai bahasa skrip sebelah pelayan yang popular, PHP mempunyai perpustakaan dan fungsi yang kaya yang boleh menghuraikan dan memproses data dengan mudah dalam format HTML atau XML. Dalam artikel ini, kami akan memperkenalkan contoh membuat perangkak web menggunakan PHP dan memberikan contoh kod yang berkaitan.
$url = "http://example.com"; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $output = curl_exec($ch); curl_close($ch); echo $output;
Dalam kod ini, kami menentukan URL untuk dirangkak dan menggunakan fungsi curl untuk menetapkan beberapa pilihan, seperti menetapkan CURLOPT_RETURNTRANSFER kepada benar untuk menyimpan kandungan yang diperoleh sebagai aksara rentetan. Akhir sekali, gunakan fungsi curl_exec untuk melaksanakan sesi curl dan simpan output ke dalam pembolehubah $output.
include('simple_html_dom.php'); // 引入Simple HTML DOM库 $html = str_get_html($output); // 将网页内容加载到Simple HTML DOM对象中 // 找到所有链接并输出 foreach ($html->find('a') as $element) { echo $element->href . "<br>"; } $html->clear(); // 清除Simple HTML DOM对象占用的内存
Dalam kod ini, kami mula-mula memperkenalkan perpustakaan DOM HTML Mudah melalui fungsi include. Seterusnya, gunakan fungsi str_get_html untuk memuatkan kandungan halaman web yang diperoleh ke dalam objek DOM HTML Mudah. Kemudian, cari semua pautan menggunakan kaedah cari dan pemilih CSS, dan keluarkannya menggunakan gelung foreach. Akhir sekali, gunakan kaedah $html->clear untuk mengosongkan memori yang diduduki oleh objek DOM HTML Mudah.
$xml = simplexml_load_string($output); // 将XML字符串加载到SimpleXML对象中 // 遍历XML并输出特定字段的内容 foreach ($xml->book as $book) { echo "Title: " . $book->title . "<br>"; echo "Author: " . $book->author . "<br>"; echo "Year: " . $book->year . "<br><br>"; }
Dalam kod ini, kami menggunakan fungsi simplexml_load_string untuk memuatkan rentetan XML yang diperolehi ke dalam objek SimpleXML. Kemudian, gunakan gelung foreach dan sifat objek untuk melintasi XML dan mengeluarkan kandungan medan yang diperlukan.
Kesimpulan:
Menggunakan PHP untuk menghuraikan dan memproses HTML/XML memudahkan untuk membuat perangkak web dan mengekstrak data yang diperlukan daripada halaman web. Artikel ini memperkenalkan cara menggunakan fungsi curl PHP untuk mendapatkan kandungan halaman web dan cara menggunakan perpustakaan DOM HTML Mudah untuk menghuraikan HTML dan perpustakaan SimpleXML untuk menghuraikan kod sampel XML. Dengan menggunakan kuasa PHP dengan betul, kami boleh mencipta perangkak web kami sendiri dan membina pelbagai jenis aplikasi data dengan mudah.
Atas ialah kandungan terperinci Contoh menghuraikan dan memproses HTML/XML menggunakan PHP untuk mencipta perangkak web. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!