网页抓取:PHP实现网页爬虫方式小结,抓取爬虫_PHP教程
网页抓取:PHP实现网页爬虫方式小结,抓取爬虫
来源:http://www.ido321.com/1158.html
抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。
一、Ganon
项目地址: http://code.google.com/p/ganon/
文档: http://code.google.com/p/ganon/w/list
测试:抓取我的网站首页所有class属性值是focus的div元素,并且输出class值
<span><?php <span>include</span> <span>'ganon.php'</span>; $html = file_get_dom(<span>'http://www.ido321.com/'</span>); <span>foreach</span>($html(<span>'div[class="focus"]'</span>) <span>as</span> $element) { <span>echo</span> $element-><span>class</span>, <span>"<br>\n"</span>; } ?></span>
结果:
二、phpQuery
项目地址:http://code.google.com/p/phpquery/
文档:https://code.google.com/p/phpquery/wiki/Manual
测试:抓取我网站首页的article标签元素,然后出书其下h2标签的html值
<span><?php <span>include</span> <span>'phpQuery/phpQuery.php'</span>; phpQuery::newDocumentFile(<span>'http://www.ido321.com/'</span>); $artlist = pq(<span>"article"</span>); <span>foreach</span>($artlist <span>as</span> $title){ <span>echo</span> pq($title)->find(<span>'h2'</span>)->html().<span>"<br/>"</span>; } ?></span>
结果:
三、Simple-Html-Dom
项目地址: http://simplehtmldom.sourceforge.net/
文档: http://simplehtmldom.sourceforge.net/manual.htm
测试:抓取我网站首页的所有链接
<span><?php <span>include</span> <span>'simple_html_dom.php'</span>; <span>//使用url和file都可以创建DOM</span> $html = file_get_html(<span>'http://www.ido321.com/'</span>); <span>//找到所有图片</span> <span>// foreach($html->find('img') as $element)</span> <span>// echo $element->src . '<br>';</span> <span>//找到所有链接</span> <span>foreach</span>($html->find(<span>'a'</span>) <span>as</span> $element) <span>echo</span> $element->href . <span>'<br>'</span>; ?></span>
结果:(截图是一部分)
四、Snoopy
项目地址:http://code.google.com/p/phpquery/
文档:http://code.google.com/p/phpquery/wiki/Manual
测试:抓取我的网站首页
<span><?php <span>include</span>(<span>"Snoopy.class.php"</span>); $url = <span>"http://www.ido321.com"</span>; $snoopy = <span>new</span> Snoopy; $snoopy->fetch($url); <span>//获取所有内容</span> <span>echo</span> $snoopy->results; <span>//显示结果</span> <span>// echo $snoopy->fetchtext ;//获取文本内容(去掉html代码)</span> <span>// echo $snoopy->fetchlinks($url) ;//获取链接</span> <span>// $snoopy->fetchform ;//获取表单 </span> ?></span>
结果:
五、手动编写爬虫
如果编写能力ok,可以手写一个网页爬虫,实现网页抓取。网上有千篇一律的介绍此方法的文章,LZ就不赘述了。有兴趣了解的,可以百度 php 网页抓取。
ps:资源分享
常见的开源爬虫项目请戳:http://blog.chinaunix.net/uid-22414998-id-3774291.html
下一篇:国民岳父的“屁民理论”
楼主,你可以使用simpl_html_dom 这个类来采集,具体怎么使用,如果你会jquery的话,相信你看一下就懂了。祝你好运。
strip_tags($string)

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

PHP和Python各有優勢,選擇依據項目需求。 1.PHP適合web開發,尤其快速開發和維護網站。 2.Python適用於數據科學、機器學習和人工智能,語法簡潔,適合初學者。

PHP在電子商務、內容管理系統和API開發中廣泛應用。 1)電子商務:用於購物車功能和支付處理。 2)內容管理系統:用於動態內容生成和用戶管理。 3)API開發:用於RESTfulAPI開發和API安全性。通過性能優化和最佳實踐,PHP應用的效率和可維護性得以提升。

PHP是一種廣泛應用於服務器端的腳本語言,特別適合web開發。 1.PHP可以嵌入HTML,處理HTTP請求和響應,支持多種數據庫。 2.PHP用於生成動態網頁內容,處理表單數據,訪問數據庫等,具有強大的社區支持和開源資源。 3.PHP是解釋型語言,執行過程包括詞法分析、語法分析、編譯和執行。 4.PHP可以與MySQL結合用於用戶註冊系統等高級應用。 5.調試PHP時,可使用error_reporting()和var_dump()等函數。 6.優化PHP代碼可通過緩存機制、優化數據庫查詢和使用內置函數。 7

PHP和Python各有優勢,選擇應基於項目需求。 1.PHP適合web開發,語法簡單,執行效率高。 2.Python適用於數據科學和機器學習,語法簡潔,庫豐富。

PHP仍然具有活力,其在現代編程領域中依然佔據重要地位。 1)PHP的簡單易學和強大社區支持使其在Web開發中廣泛應用;2)其靈活性和穩定性使其在處理Web表單、數據庫操作和文件處理等方面表現出色;3)PHP不斷進化和優化,適用於初學者和經驗豐富的開發者。

PHP和Python各有優劣,選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

PHP適合web開發,特別是在快速開發和處理動態內容方面表現出色,但不擅長數據科學和企業級應用。與Python相比,PHP在web開發中更具優勢,但在數據科學領域不如Python;與Java相比,PHP在企業級應用中表現較差,但在web開發中更靈活;與JavaScript相比,PHP在後端開發中更簡潔,但在前端開發中不如JavaScript。

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。
