社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 後端開發 > php教程 > 简述php关于网页元素抓取方面的技术

简述php关于网页元素抓取方面的技术

WBOY

發布： 2016-06-23 13:56:33

原創

966 人瀏覽過

对于php抓取网页的内容，可能比较难的就是dom解析这一部分了，这儿的话有几种技术推荐给大家，具体使用哪种就看自己的喜欢了

1.php自带的xpath解析技术

xpath的话具体可以百度一下他的用法，我只举几个简单的例子，废话不多说，代码如下

error_reporting(0);
$url='http://www.baidu.com';//此处写抓取的网页的网址，我随便写的
$html=file_get_contents($url);
$dom=new DOMDocument;
$dom->loadHTML($html);
$xml=simplexml_import_dom($dom);
$nav=$xml->xpath('//p[@id="nv"]');//这儿简单解释一下，就是调用simplexml的xpath方法，传入符合xpath语法的字符串就行了，我这儿的意思是，获取所有id属性值为nv的p标签元素
print_r($nav);

2.phpquery，

phpquery是基于jQuery选择器的dom解析器，如果经常用jQuery的话会很喜欢这个工具的，下面说说他的用法

include 'phpQuery.php';
phpQuery::newDocumentFile('http://job.blueidea.com');
$companies = pq('#hotcoms .coms')->find('div');
foreach($companies as $company)
{
echo pq($company)->find('h3 a')->text()."
";
}

简单解释一下：

pq()就像jQuery里的$()

基本上jQuery的选择器都可以用在phpQuery上，只要把’.'变成’->’

phpQuery提供了好几种载入文件的方法，有的使用字符串，有的使用文件(包括url)，选择的时候要注意

3.simplehtmldom

官方手册：http://www.ecartchina.com/php-simple-html-dom/manual.htm

自己看吧，一会就看懂了，我花了半个小时不到的时候就熟练的运用了

对了，这儿还有一个php的抓取系统，phpcrawl，如果想了解php搜索引擎方面的一些知识，可以看看他的源码：

源码下载地址

http://sourceforge.net/projects/phpcrawl/files/PHPCrawl/

相關標籤：

php 元素科技抓取網頁

來源：php.cn

上一篇：php执行python脚本问题下一篇：php mvc的实现

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

如何在 CSS 中使浮動元素垂直堆疊而不是水平堆疊？我正在嘗試製作一個包含兩列的網頁，一側具有主要內容，另一側具有額外的內容。但是因為我使用浮動屬性將額外的列向左對齊，所以它水平堆疊，但我希望它垂直堆疊。我目前的程式碼：.topic...

來自於 2024-04-06 20:45:26

0

2

386

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

用 HTML 程式碼（從陣列產生）取代字串的頂級方法給定一個像這樣的字串...$htmlPattern="Usernameis:#name#andusercompanyis#company#";如何將子字串#na...

來自於 2024-04-06 17:40:41

0

2

410

React子元素無效（發現：具有鍵{clientVersion}的物件）。如果您想渲染一個子元素集合，請使用數組代替我有一個多步驟表單，當我嘗試提交時會顯示此錯誤。但是，如果我以簡單的形式使用createOrganization調度，它就會起作用。是後端問題還是前端問題？我可能做錯了什麼？我希望...

來自於 2024-04-06 16:25:39

0

1

346

比較Imagick、Adobe Photoshop和Windows - 偵測解析度（每公分像素或每吋像素）這不是問題，而是試圖提高我對DPI如何以各種文件格式儲存的理解，並討論其工作原理的原因。我對圖像（JPG、PNG和Tiff）進行了大量工作並檢測它們的分辨率。例如，我可以在Imag...

來自於 2024-04-06 16:01:27

0

1

397

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1428488
php入門教程之一週學會PHP

4279697
JAVA 初級入門影片教學

2587371
小甲魚零基礎入門學習Python影片教學

511057
PHP 零基礎入門教學

868963

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板