Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化-Python教學-PHP中文網

執行緒

線程生命週期

线程池原理

线程池创建

爬前分析

实战演练

获取景点基本信息

获取评论数据

创建MySQL数据库

保存数据

创建线程池

数据可视化

首頁

後端開發

Python教學

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 08:49 PM

python 數據視覺化執行緒池

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

大家好，我是啃書君！

正所謂：有朋自遠方來，不亦樂乎？有朋友來找我們玩，是一件很快樂的事情，那我們要盡地主之誼，好好帶朋友去玩！那麼問題來了，什麼時候去哪裡玩最好呢，哪裡玩的地方最多呢？

今天將手把手教你使用線程池爬取同程旅行的景點資訊及評論資料並做詞雲、資料視覺化！！！帶你了解各城市的遊玩景點資訊。

在開始爬取資料之前，我們先來了解線程。

執行緒

進程：進程是程式碼在資料集合上的一次運行活動，是系統進行資源分配和調度的基本單位。

執行緒：是輕量級的進程，是程式執行的最小單元，是進程的一個執行路徑。

一個行程中至少有一個執行緒，行程中的多個執行緒共享行程的資源。

線程生命週期

在創建多執行緒之前，我們先來學習線程生命週期，如下圖：

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

#由圖可知，執行緒可以分為五個狀態－新建、就緒、運作、阻塞、終止。
先新建一個執行緒並開啟執行緒後執行緒進入就緒狀態，就緒狀態的執行緒不會馬上執行，要取得CPU資源才會進入執行狀態，在進入執行狀態後，執行緒有可能會失去CPU資源或遇到休眠、io操作（讀寫等操作）執行緒進入就緒狀態或阻塞狀態，要等休眠、io操作結束或重新取得CPU資源後，才會進入運作狀態，等到執行完後進入終止狀態。

注意：新線程系統是需要分配資源的，終止線程系統是需要回收資源的，那麼如何減去新建/終止線程的系統開銷呢，這時我們可以創建線程池來重用線程，這樣就可以減少系統的開銷了。

在創建執行緒池之前，我們先來學習如何建立多執行緒。

建立多執行緒

建立多執行緒可以分為四個步驟：

#建立函數；#建立執行緒；

#啟動線程；

等待結束；

創建函數

為了方便演示，我們拿博客園的網頁做爬蟲函數，具體程式碼如下所示：

import requests
urls=[
 f'https://www.cnblogs.com/#p{page}'
 for page in range(1,50)
]
def get_parse(url):
 response=requests.get(url)
print(url,len(response.text))

登入後複製

先匯入requests網路請求庫，把我們所有的要爬取的URL保存在清單中，然後自訂函數get_parse來發送網路請求、列印請求的URL和回應的字元長度。

創建線程

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化在上一步我們創建了爬蟲函數，接下來將創建線程了，具體程式碼如下所示：

import threading
#多线程
def multi_thread():
 threads=[]
 for url in urls:
 threads.append(
 threading.Thread(target=get_parse,args=(url,))
 )

登入後複製

首先我們導入threading模組，自訂multi_thread函數，再建立一個空列表threads來存放執行緒任務，透過threading.Thread()方法來建立執行緒。其中：

target為運行函數；

args為運行函數所需的參數。

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

注意args中的參數要以元組的方式傳入，然後透過.append()方法把執行緒加入threads空列表中。

啟動執行緒

######執行緒已經建立好了，接下來將啟動執行緒了，啟動執行緒很簡單，具體程式碼如下所示：###

for thread in threads:
 thread.start()

登入後複製

## #首先我們透過for迴圈把threads列表中的執行緒任務取得下來，透過.start()來啟動執行緒。 #########等待結束#########啟動執行緒後，接下來將等待執行緒結束，具體程式碼如下所示：###

for thread in threads:
 thread.join()

登入後複製

###和啟動執行緒一樣，先透過for迴圈把threads列表中的執行緒任務取得下來，再使用.join()方法等待執行緒結束。 ######多執行緒已經建立好了，接下來將測試一下多執行緒的速度如何，具體程式碼如下所示：###

if __name__ == '__main__':
t1=time.time()
 multi_thread()
 t2=time.time()
 print(t2-t1)

登入後複製

###運行結果如下圖所示：####### #########多執行緒爬取50個部落格園網頁只要1秒多，而且多執行緒的發送網路請求的URL是隨機的。 ######我們來測試單執行緒的運行時間，具體程式碼如下所示：###

if __name__ == '__main__':
 t1=time.time()
 for i in urls:
 get_parse(i)
 t2=time.time()
 print(t2-t1)

登入後複製

###運行結果如下圖所示：############## #單線程爬取50個博客園網頁用了9秒多，單線程的發送網絡請求的URL是按順序的。 ######在上面我們說了，新執行緒系統是需要分配資源的，終止執行緒系統是需要回收資源的，為了減少系統的開銷，我們可以建立執行緒池。 ###

线程池原理

一个线程池由两部分组成，如下图所示：

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

线程池：里面提前建好N个线程，这些都会被重复利用；
任务队列：当有新任务的时候，会把任务放在任务队列中。

当任务队列里有任务时，线程池的线程会从任务队列中取出任务并执行，执行完任务后，线程会执行下一个任务，直到没有任务执行后，线程会回到线程池中等待任务。

使用线程池可以处理突发性大量请求或需要大量线程完成任务（处理时间较短的任务）。

好了，了解了线程池原理后，我们开始创建线程池。

线程池创建

Python提供了ThreadPoolExecutor类来创建线程池，其语法如下所示：

ThreadPoolExecutor(max_workers=None, thread_name_prefix='', initializer=None, initargs=())

登入後複製

其中：

max_workers：最大线程数；
thread_name_prefix：允许用户控制由线程池创建的threading.Thread工作线程名称以方便调试；
initializer：是在每个工作者线程开始处调用的一个可选可调用对象；
initargs：传递给初始化器的元组参数。

注意：在启动 max_workers 个工作线程之前也会重用空闲的工作线程。

在ThreadPoolExecutor类中提供了map()和submit()函数来插入任务队列。其中：

map()函数

map()语法格式为：

map(调用方法,参数队列)

登入後複製

具体示例如下所示：

import requestsimport concurrent.futuresimport timeurls=[f'https://www.cnblogs.com/#p{page}'for page in range(1,50)]def get_parse(url):response=requests.get(url)return response.textdef map_pool():with concurrent.futures.ThreadPoolExecutor(max_workers=20) as pool:htmls=pool.map(get_parse,urls)htmls=list(zip(urls,htmls))for url,html in htmls:print(url,len(html))if __name__ == '__main__':t1=time.time()map_pool()t2=time.time()print(t2-t1)

登入後複製

首先我们导入requests网络请求库、concurrent.futures模块，把所有的URL放在urls列表中，然后自定义get_parse()方法来返回网络请求返回的数据，再自定义map_pool()方法来创建代理池，其中代理池的最大max_workers为20，调用map()方法把网络请求任务放在任务队列中，在把返回的数据和URL合并为元组，并放在htmls列表中。

运行结果如下图所示：

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

可以发现map()函数返回的结果和传入的参数顺序是对应的。

注意：当我们直接在自定义方法get_parse()中打印结果时，打印结果是乱序的。

submit()函数

submit()函数语法格式如下：

submit(调用方法,参数)

登入後複製

具体示例如下：

def submit_pool():with concurrent.futures.ThreadPoolExecutor(max_workers=20)as pool:futuress=[pool.submit(get_parse,url)for url in urls]futures=zip(urls,futuress)for url,future in futures:print(url,len(future.result()))

登入後複製

运行结果如下图所示：

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

注意：submit()函数输出结果需需要调用result()方法。

好了，线程知识就学到这里了，接下来开始我们的爬虫。

爬前分析

首先我们进入同程旅行的景点网页并打开开发者工具，如下图所示：

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

经过寻找，我们发现各个景点的基础信息（详情页URL、景点id等）都存放在下图的URL链接中，

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

其URL链接为：

https://www.ly.com/scenery/NewSearchList.aspx?&action=getlist&page=2&kw=&pid=6&cid=80&cyid=0&sort=&isnow=0&spType=&lbtypes=&IsNJL=0&classify=0&grade=&dctrack=1%CB%871629537670551030%CB%8720%CB%873%CB%872557287248299209%CB%870&iid=0.6901326566387387

登入後複製

经过增删改查操作，我们可以把该URL简化为：

https://www.ly.com/scenery/NewSearchList.aspx?&action=getlist&page=1&pid=6&cid=80&cyid=0&isnow=0&IsNJL=0

登入後複製

其中page为我们翻页的重要参数。

打开该URL链接，如下图所示：

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

通过上面的URL链接，我们可以获取到很多景点的基础信息，随机打开一个景点的详情网页并打开开发者模式，经过查找，评论数据存放在如下图的URL链接中，

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化

其URL链接如下所示：

https://www.ly.com/scenery/AjaxHelper/DianPingAjax.aspx?action=GetDianPingList&sid=12851&page=1&pageSize=10&labId=1&sort=0&iid=0.48901069375088

登入後複製

其中：action、labId、iid、sort为常量，sid是景点的id，page控制翻页，pageSize是每页获取的数据量。

在上上步中，我们知道景点id的存放位置，那么构造评论数据的URL就很简单了。

实战演练

这次我们爬虫步骤是：

获取景点基本信息
获取评论数据
创建MySQL数据库
保存数据
创建线程池
数据分析

获取景点基本信息

首先我们先获取景点的名字、id、价格、特色、地点和等级，主要代码如下所示：

def get_parse(url):response=requests.get(url,headers=headers)Xpath=parsel.Selector(response.text)data=Xpath.xpath('/html/body/div')for i in data:Scenery_data={'title':i.xpath('./div/div[1]/div[1]/dl/dt/a/text()').extract_first(),'sid':i.xpath('//div[@]/div/@sid').extract_first(),'Grade':i.xpath('./div/div[1]/div[1]/dl/dd[1]/span/text()').extract_first(), 'Detailed_address':i.xpath('./div/div[1]/div[1]/dl/dd[2]/p/text()').extract_first().replace('地址：',''),'characteristic':i.xpath('./div/div[1]/div[1]/dl/dd[3]/p/text()').extract_first(),'price':i.xpath('./div/div[1]/div[2]/div[1]/span/b/text()').extract_first(),'place':i.xpath('./div/div[1]/div[1]/dl/dd[2]/p/text()').extract_first().replace('地址：','')[6:8]}

登入後複製

首先自定义方法get_parse()来发送网络请求后使用parsel.Selector()方法来解析响应的文本数据，然后通过xpath来获取数据。

获取评论数据

获取景点基本信息后，接下来通过景点基本信息中的sid来构造评论信息的URL链接，主要代码如下所示：

def get_data(Scenery_data):for i in range(1,3):link = f'https://www.ly.com/scenery/AjaxHelper/DianPingAjax.aspx?action=GetDianPingList&sid={Scenery_data["sid"]}&page={i}&pageSize=100&labId=1&sort=0&iid=0.20105777381446832'response=requests.get(link,headers=headers)Json=response.json()commtent_detailed=Json.get('dpList')# 有评论数据if commtent_detailed!=None:for i in commtent_detailed:Comment_information={'dptitle':Scenery_data['title'],'dpContent':i.get('dpContent'),'dpDate':i.get('dpDate')[5:7],'lineAccess':i.get('lineAccess')}#没有评论数据elif commtent_detailed==None:Comment_information={'dptitle':Scenery_data['title'],'dpContent':'没有评论','dpDate':'没有评论','lineAccess':'没有评论'}

登入後複製

首先自定义方法get_data()并传入刚才获取的景点基础信息数据，然后通过景点基础信息的sid来构造评论数据的URL链接，当在构造评论数据的URL时，需要设置pageSize和page这两个变量来获取多条评论和进行翻页，构造URL链接后就发送网络请求。

这里需要注意的是：有些景点是没有评论，所以我们需要通过if语句来进行设置。

创建MySQL数据库

这次我们把数据存放在MySQL数据库中，由于数据比较多，所以我们把数据分为两种数据表，一种是景点基础信息表，一种是景点评论数据表，主要代码如下所示：

#创建数据库def create_db():db=pymysql.connect(host=host,user=user,passwd=passwd,port=port)cursor=db.cursor()sql='create database if not exists commtent default character set utf8'cursor.execute(sql)db.close()create_table()#创建景点信息数据表def create_table():db=pymysql.connect(host=host,user=user,passwd=passwd,port=port,db='commtent')cursor=db.cursor()sql = 'create table if not exists Scenic_spot_data (title varchar(255) not null, link varchar(255) not null,Grade varchar(255) not null, Detailed_address varchar(255) not null, characteristic varchar(255)not null, price int not null, place varchar(255) not null)'cursor.execute(sql)db.close()

登入後複製

首先我们调用pymysql.connect()方法来连接数据库，通过.cursor()获取游标，再通过.execute()方法执行单条的sql语句，执行成功后返回受影响的行数，然后关闭数据库连接，最后调用自定义方法create_table()来创建景点信息数据表。

这里我们只给出了创建景点信息数据表的代码，因为创建数据表只是sql这条语句稍微有点不同，其他都一样，大家可以参考这代码来创建各个景点评论数据表。

保存数据

创建好数据库和数据表后，接下来就要保存数据了，主要代码如下所示：

首先我们调用pymysql.connect()方法来连接数据库，通过.cursor()获取游标，再通过.execute()方法执行单条的sql语句，执行成功后返回受影响的行数，使用了try-except语句，当保存的数据不成功，就调用rollback()方法，撤消当前事务中所做的所有更改，并释放此连接对象当前使用的任何数据库锁。

#保存景点数据到景点数据表中def saving_scenery_data(srr):db = pymysql.connect(host=host, user=user, password=passwd, port=port, db='commtent')cursor = db.cursor()sql = 'insert into Scenic_spot_data(title, link, Grade, Detailed_address, characteristic,price,place) values(%s,%s,%s,%s,%s,%s,%s)'try:cursor.execute(sql, srr)db.commit()except:db.rollback()db.close()

登入後複製

注意：srr是传入的景点信息数据。

创建线程池

好了，单线程爬虫已经写好了，接下来将创建一个函数来创建我们的线程池，使单线程爬虫变为多线程，主要代码如下所示：

urls = [f'https://www.ly.com/scenery/NewSearchList.aspx?&action=getlist&page={i}&pid=6&cid=80&cyid=0&isnow=0&IsNJL=0'for i in range(1, 6)]def multi_thread():with concurrent.futures.ThreadPoolExecutor(max_workers=8)as pool:h=pool.map(get_parse,urls)if __name__ == '__main__':create_db()multi_thread()

登入後複製

创建线程池的代码很简单就一个with语句和调用map()方法

运行结果如下图所示：

Python 取得旅遊景點資訊及評論並作詞雲、資料視覺化