第一次寫博客,有點緊張,不喜勿噴。
如果有不足之處,希望讀者指出,本人一定要改正。
学习爬虫之前你需要了解(个人建议,铁头娃可以无视): - **少许网页制作知识,起码要明白什么标签...** - **相关语言基础知识。比如用java做爬虫起码会用Java语言,用python做爬虫起码要会用python语言...** - **一些网络相关知识。比如TCP/IP、cookie之类的知识,明白网页打开的原理。** - **国家法律。知道哪些能爬,哪些不能爬,别瞎爬。**
如標題,本文所有程式碼使用python3.6.X。
首先,你需要安裝(pip3 install xxxx 一下就OK了)
requests 模組
url = 'https://baike.baidu.com/item/Python'
html = request.urlopen(url)
Soup = BeautifulSoup(html,"html.parser") baike = Soup.find_all("p",class_='lemma-summary')
在這裡說一句,find_all函數的返回值是一個列表。所以輸出時要循環列印。
for content in baike: print (content.get_text())
import requestsfrom bs4 import BeautifulSoupfrom urllib import requestimport reif __name__ == '__main__': url = 'https://baike.baidu.com/item/Python' html = request.urlopen(url) Soup = BeautifulSoup(html,"html.parser") baike = Soup.find_all("p",class_='lemma-summary') for content in baike: print (content.get_text())
類似的方法也能爬一些小說、圖片、頭條之類的,絕不只限於詞條。
如果關掉這篇文章你也能寫出這個程序,那恭喜你,入門了。記住,千萬別背代碼。
以上是Python3 基礎爬蟲簡介的詳細內容。更多資訊請關注PHP中文網其他相關文章!