如何在Python中實作一個簡單的爬蟲程式
隨著網路的發展,資料已成為當今社會最寶貴的資源之一。而爬蟲程式則成為了取得網路資料的重要工具之一。本文將介紹如何在Python中實作一個簡單的爬蟲程序,並提供具體的程式碼範例。
import requests from bs4 import BeautifulSoup
url = "目标网站的URL" response = requests.get(url) html = response.text soup = BeautifulSoup(html, "html.parser")
# 示例:提取新闻标题和链接 news_list = soup.find_all("a", class_="news-title") # 假设新闻标题使用CSS类名 "news-title" for news in news_list: title = news.text link = news["href"] print(title, link)
# 示例:将数据存储到文件 with open("news.txt", "w", encoding="utf-8") as f: for news in news_list: title = news.text link = news["href"] f.write(f"{title} {link} ")
import time # 示例:设置延时和爬取数量 interval = 2 # 延时2秒 count = 0 # 爬取数量计数器 for news in news_list: if count < 10: # 爬取10条新闻 title = news.text link = news["href"] print(title, link) count += 1 time.sleep(interval) # 延时 else: break
以上便是一個簡單的爬蟲程式的實作過程。透過這個範例,你可以了解如何使用Python編寫一個基本的爬蟲程序,從目標網站獲取數據,並儲存到檔案中。當然,爬蟲程式的功能遠不止於此,你可以根據自己的需求進一步擴展和完善。
同時,要注意的是,編寫爬蟲程式時需遵守法律和道德的規範,尊重網站的robots.txt文件,避免給目標網站帶來不必要的負擔。
以上是如何在Python中實作一個簡單的爬蟲程序的詳細內容。更多資訊請關注PHP中文網其他相關文章!