python - 網頁title中包含換行，如何用正規表示式擷取出來？-PHP中文網路問答

社群

學習

工具庫

AI工具

休閒

繁体中文

python - 網頁title中包含換行，如何用正規表示式擷取出來？

女神的闺蜜爱上我

女神的闺蜜爱上我 2017-06-22 11:51:43

0

2

1068

在用python做CSDN的網頁爬蟲，在爬取網頁title時，我一直用的正規表示式(?<=\<title\>). ?(?=\< )在CSDN中用不了了，去CSDN源碼一看，title換行顯示了

所以導致原來的正規表示式無法使用，那麼，問題來了，像這樣網頁title中包含換行，如何用正規表示式提取出來呢？

PS：

不想用xpath或beautifulsoup的方法，只需要正規哦
#CSDN本身有反爬蟲機制，我並不是因為這隻反爬蟲而爬不到title的哦

謝謝大家

參考@caimaoy 的方法，我將正規表示式改為(?<=\<title\>)(?:.|\n) ?(?=\<)後，title完美提取。
再次感謝大家。

女神的闺蜜爱上我

女神的闺蜜爱上我

全部回覆(2)

仅有的幸福

仅有的幸福2017-06-22 11:53:43 2樓

re.M 多行模式
自己寫多行配對 http://python3-cookbook.readt...

點贊 +0

新增回覆

曾经蜡笔没有小新

曾经蜡笔没有小新2017-06-22 11:53:43 1樓

表達式那邊加個flag吧

tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))

點贊 +0

新增回覆

熱門專題

更多>

熱門文章

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1437203
php入門教程之一週學會PHP

4296995
JAVA 初級入門影片教學

2665541

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板