php 如何精准获取网站中的所有超链接?
想获取网站中的所有超链接,使用的是php snoopy类
<code>$sourceURL = $url; $snoopy->fetchlinks($sourceURL); $content = $snoopy->results;</code>
获取的结果如下:
<code>array (size=627) 0 => string 'http://www.alibaba.com/https://login.alibaba.com/' (length=49) 1 => string 'http://sh.vip.alibaba.com?tracelog=nav_ma' (length=41) 2 => string 'http://message.alibaba.com/feedback/default.htm?routeto=inbox&tracelog=nav_ma_mc' (length=80) 3 => string 'http://www.alibaba.com//hz-favorite.alibaba.com/favorite/favorite_home.htm?tracelog=nav_ma_fav' (length=94) 4 => string 'http://rfq.alibaba.com/form.htm?tracelog=header_myalibaba' (length=57) 5 => string 'http://hz.sourcing.alibaba.com/rfq/request/rfq_manage_list.htm?tracelog=nav_ma_mana_rfq' (length=87) 6 => string 'http://biz.alibaba.com/generalorders/list_orders.htm?tracelog=ma_mana_orders' (length=76) 7 => string 'http://sh.vip.alibaba.com/product/post_product_interface.htm?tracelog=newschp_nav_madp' (length=86) 8 => string 'http://sh.vip.alibaba.com/product/manage_products.htm?tracelog=newschp_nav_mamng' (length=80) 9 => string 'http://hz.sourcing.alibaba.com/rfq/quotation/rfq_not_quoted_manage_list.htm?nav_ma_rec_rfqs' (length=91) 10 => string 'http://www.alibaba.com/javascript:;' (length=35) 11 => string 'http://www.alibaba.com/Products?tracelog=beacon_cate_140704' (length=59) 12 => string 'http://rfq.alibaba.com/form.htm?tracelog=header_forbuyers' (length=57) 13 => string 'http://globalexpo.alibaba.com?tracelog=beacon_expo_150820' (length=57) 14 => string 'http://wholesale.alibaba.com?tracelog=nav_ws' (length=44) 15 => string 'http://buyer.alibaba.com/bizid_buyer?tracelog=nav_bi' (length=52) 16 => string 'http://tradeassurance.alibaba.com/bao/buyer_advertise.htm?tracelog=from_home_menu' (length=81) 17 => string 'http://activities.alibaba.com/alibaba/secure-payment.php?tracelog=beacon_payment_150114' (length=87) 18 => string 'http://ecredit.alibaba.com/ecl/buyer.htm?tracelog=beacon_credit_140704' (length=70) 19 => string 'http://inspection.alibaba.com/?tracelog=beacon_is_140704' (length=56) 20 => string 'http://buyer.alibaba.com/intelligence?tracelog=beacon_ti_140704' (length=63) 21 => string 'http://buyer.alibaba.com/forum?tracelog=beacon_df_140704' (length=56) 22 => string 'http://ask.alibaba.com/?tracelog=beacon_ta_140704' (length=49) 23 => string 'http://www.alibaba.com/javascript:;' (length=35) 24 => string 'http://seller.alibaba.com/memberships/index.html?tracelog=seller_channel_member_hp_header' (length=89) 25 => string 'http://seller.alibaba.com/learningcenter?tracelog=seller_channel_lc_hp_header' (length=77) 26 => string 'http://seller.alibaba.com/training.htm?tracelog=seller_channel_training_hp_header' (length=81) 27 => string 'http://sourcing.alibaba.com/?tracelog=newschp_nav_narfq' (length=55) 28 => string 'http://www.alibaba.com/javascript:;' (length=35)</code>
怎么能把“http://www.alibaba.com/javascript:;”类似的URL去掉?
回复内容:
想获取网站中的所有超链接,使用的是php snoopy类
<code>$sourceURL = $url; $snoopy->fetchlinks($sourceURL); $content = $snoopy->results;</code>
获取的结果如下:
<code>array (size=627) 0 => string 'http://www.alibaba.com/https://login.alibaba.com/' (length=49) 1 => string 'http://sh.vip.alibaba.com?tracelog=nav_ma' (length=41) 2 => string 'http://message.alibaba.com/feedback/default.htm?routeto=inbox&tracelog=nav_ma_mc' (length=80) 3 => string 'http://www.alibaba.com//hz-favorite.alibaba.com/favorite/favorite_home.htm?tracelog=nav_ma_fav' (length=94) 4 => string 'http://rfq.alibaba.com/form.htm?tracelog=header_myalibaba' (length=57) 5 => string 'http://hz.sourcing.alibaba.com/rfq/request/rfq_manage_list.htm?tracelog=nav_ma_mana_rfq' (length=87) 6 => string 'http://biz.alibaba.com/generalorders/list_orders.htm?tracelog=ma_mana_orders' (length=76) 7 => string 'http://sh.vip.alibaba.com/product/post_product_interface.htm?tracelog=newschp_nav_madp' (length=86) 8 => string 'http://sh.vip.alibaba.com/product/manage_products.htm?tracelog=newschp_nav_mamng' (length=80) 9 => string 'http://hz.sourcing.alibaba.com/rfq/quotation/rfq_not_quoted_manage_list.htm?nav_ma_rec_rfqs' (length=91) 10 => string 'http://www.alibaba.com/javascript:;' (length=35) 11 => string 'http://www.alibaba.com/Products?tracelog=beacon_cate_140704' (length=59) 12 => string 'http://rfq.alibaba.com/form.htm?tracelog=header_forbuyers' (length=57) 13 => string 'http://globalexpo.alibaba.com?tracelog=beacon_expo_150820' (length=57) 14 => string 'http://wholesale.alibaba.com?tracelog=nav_ws' (length=44) 15 => string 'http://buyer.alibaba.com/bizid_buyer?tracelog=nav_bi' (length=52) 16 => string 'http://tradeassurance.alibaba.com/bao/buyer_advertise.htm?tracelog=from_home_menu' (length=81) 17 => string 'http://activities.alibaba.com/alibaba/secure-payment.php?tracelog=beacon_payment_150114' (length=87) 18 => string 'http://ecredit.alibaba.com/ecl/buyer.htm?tracelog=beacon_credit_140704' (length=70) 19 => string 'http://inspection.alibaba.com/?tracelog=beacon_is_140704' (length=56) 20 => string 'http://buyer.alibaba.com/intelligence?tracelog=beacon_ti_140704' (length=63) 21 => string 'http://buyer.alibaba.com/forum?tracelog=beacon_df_140704' (length=56) 22 => string 'http://ask.alibaba.com/?tracelog=beacon_ta_140704' (length=49) 23 => string 'http://www.alibaba.com/javascript:;' (length=35) 24 => string 'http://seller.alibaba.com/memberships/index.html?tracelog=seller_channel_member_hp_header' (length=89) 25 => string 'http://seller.alibaba.com/learningcenter?tracelog=seller_channel_lc_hp_header' (length=77) 26 => string 'http://seller.alibaba.com/training.htm?tracelog=seller_channel_training_hp_header' (length=81) 27 => string 'http://sourcing.alibaba.com/?tracelog=newschp_nav_narfq' (length=55) 28 => string 'http://www.alibaba.com/javascript:;' (length=35)</code>
怎么能把“http://www.alibaba.com/javascript:;”类似的URL去掉?
QueryList
<?php //采集某页面所有的图片 $data = QueryList::Query('http://cms.querylist.cc/bizhi/453.html',['image' => ['img','src']])->data; //打印结果 print_r($data); //采集某页面所有的超链接 $data = QueryList::Query('http://cms.querylist.cc/google/list_1.html',['link' => ['a','href']])->data; //打印结果 print_r($data);
http://git.oschina.net/jae/QueryList
可以看下这个,比snoopy要强大一些,支持jquery选择器语法

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

PHP和Python各有優勢,選擇依據項目需求。 1.PHP適合web開發,尤其快速開發和維護網站。 2.Python適用於數據科學、機器學習和人工智能,語法簡潔,適合初學者。

PHP是一種廣泛應用於服務器端的腳本語言,特別適合web開發。 1.PHP可以嵌入HTML,處理HTTP請求和響應,支持多種數據庫。 2.PHP用於生成動態網頁內容,處理表單數據,訪問數據庫等,具有強大的社區支持和開源資源。 3.PHP是解釋型語言,執行過程包括詞法分析、語法分析、編譯和執行。 4.PHP可以與MySQL結合用於用戶註冊系統等高級應用。 5.調試PHP時,可使用error_reporting()和var_dump()等函數。 6.優化PHP代碼可通過緩存機制、優化數據庫查詢和使用內置函數。 7

PHP在電子商務、內容管理系統和API開發中廣泛應用。 1)電子商務:用於購物車功能和支付處理。 2)內容管理系統:用於動態內容生成和用戶管理。 3)API開發:用於RESTfulAPI開發和API安全性。通過性能優化和最佳實踐,PHP應用的效率和可維護性得以提升。

PHP和Python各有優勢,選擇應基於項目需求。 1.PHP適合web開發,語法簡單,執行效率高。 2.Python適用於數據科學和機器學習,語法簡潔,庫豐富。

PHP仍然具有活力,其在現代編程領域中依然佔據重要地位。 1)PHP的簡單易學和強大社區支持使其在Web開發中廣泛應用;2)其靈活性和穩定性使其在處理Web表單、數據庫操作和文件處理等方面表現出色;3)PHP不斷進化和優化,適用於初學者和經驗豐富的開發者。

PHP和Python各有優劣,選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

PHP適合web開發,特別是在快速開發和處理動態內容方面表現出色,但不擅長數據科學和企業級應用。與Python相比,PHP在web開發中更具優勢,但在數據科學領域不如Python;與Java相比,PHP在企業級應用中表現較差,但在web開發中更靈活;與JavaScript相比,PHP在後端開發中更簡潔,但在前端開發中不如JavaScript。

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。
