masyarakat

Belajar

Perpustakaan Alatan

Alat AI

Masa lapang

Melayu

Rumah > pembangunan bahagian belakang > tutorial php > 简述php关于网页元素抓取方面的技术

简述php关于网页元素抓取方面的技术

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2016-06-23 13:56:33

asal

1012 orang telah melayarinya

对于php抓取网页的内容，可能比较难的就是dom解析这一部分了，这儿的话有几种技术推荐给大家，具体使用哪种就看自己的喜欢了

1.php自带的xpath解析技术

xpath的话具体可以百度一下他的用法，我只举几个简单的例子，废话不多说，代码如下

error_reporting(0);
$url='http://www.baidu.com';//此处写抓取的网页的网址，我随便写的
$html=file_get_contents($url);
$dom=new DOMDocument;
$dom->loadHTML($html);
$xml=simplexml_import_dom($dom);
$nav=$xml->xpath('//p[@id="nv"]');//这儿简单解释一下，就是调用simplexml的xpath方法，传入符合xpath语法的字符串就行了，我这儿的意思是，获取所有id属性值为nv的p标签元素
print_r($nav);

2.phpquery，

phpquery是基于jQuery选择器的dom解析器，如果经常用jQuery的话会很喜欢这个工具的，下面说说他的用法

include 'phpQuery.php';
phpQuery::newDocumentFile('http://job.blueidea.com');
$companies = pq('#hotcoms .coms')->find('div');
foreach($companies as $company)
{
echo pq($company)->find('h3 a')->text()."
";
}

简单解释一下：

pq()就像jQuery里的$()

基本上jQuery的选择器都可以用在phpQuery上，只要把’.'变成’->’

phpQuery提供了好几种载入文件的方法，有的使用字符串，有的使用文件(包括url)，选择的时候要注意

3.simplehtmldom

官方手册：http://www.ecartchina.com/php-simple-html-dom/manual.htm

自己看吧，一会就看懂了，我花了半个小时不到的时候就熟练的运用了

对了，这儿还有一个php的抓取系统，phpcrawl，如果想了解php搜索引擎方面的一些知识，可以看看他的源码：

源码下载地址

http://sourceforge.net/projects/phpcrawl/files/PHPCrawl/

Label berkaitan：

php unsur teknologi merangkak laman web

Artikel sebelumnya：php执行python脚本问题 Artikel seterusnya：php mvc的实现

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

Bagaimana LLMS Berfungsi: Pra-latihan ke Latihan Pasca, Rangkaian Neural, Hallucinations, dan Kesimpulan

2025-02-26 03:58:14
Saya menggabungkan blockchain dan AI untuk menjana seni. Di sini ’ s Apa yang berlaku seterusnya.

2025-02-26 03:38:10
Kejuruteraan Prompt Lanjutan: Rantai Pemikiran (COT)

2025-02-26 03:17:10
Pengambilan semula Generasi Tambahan di SQLite

2025-02-26 02:49:09
Cara menggunakan boilerplate berkuasa LLM untuk membina API Node.js anda sendiri

2025-02-26 01:08:13
LLMS untuk pengekodan pada tahun 2024: harga, prestasi, dan pertempuran untuk yang terbaik

2025-02-26 00:46:10
Mendorong model bahasa penglihatan

2025-02-25 23:42:08
Cara Mengukur Kebolehpercayaan Respons Model Bahasa Besar

2025-02-25 22:50:13
Ilusi hidup

2025-02-25 21:54:11
Para saintis serius mengenai model bahasa besar yang mencerminkan pemikiran manusia

2025-02-25 20:45:11

Isu terkini

javascript - Sila beritahu saya tentang masalah menukar fungsi panggil balik jq untuk menjanjikan pelaksanaan

daripada 1970-01-01 08:00:00

0

0

0

javascript - Kekeliruan tentang menghantar parameter dalam tindak balas

daripada 1970-01-01 08:00:00

0

0

0

javascript - gambar rajah tindanan atribut js

daripada 1970-01-01 08:00:00

0

0

0

javascript - aplikasi halaman tunggal angularjs Bagaimana untuk menyelesaikan masalah tidak menatal ke bahagian atas halaman selepas halaman menatal ke bawah dan navigasi melompat ke halaman baharu?

daripada 1970-01-01 08:00:00

0

0

0

javascript - Apabila membina projek dengan vue-cli, anda perlu memperkenalkan fail js dan CSS statik tempatan Bagaimana untuk membungkusnya?

daripada 1970-01-01 08:00:00

0

0

0

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan