Python で簡単なクローラー プログラムを実装する方法
インターネットの発展に伴い、データは今日の社会で最も貴重なリソースの 1 つになりました。クローラー プログラムは、インターネット データを取得するための重要なツールの 1 つとなっています。この記事では、Python で簡単なクローラー プログラムを実装する方法と具体的なコード例を紹介します。
import requests from bs4 import BeautifulSoup
url = "目标网站的URL" response = requests.get(url) html = response.text soup = BeautifulSoup(html, "html.parser")
# 示例:提取新闻标题和链接 news_list = soup.find_all("a", class_="news-title") # 假设新闻标题使用CSS类名 "news-title" for news in news_list: title = news.text link = news["href"] print(title, link)
# 示例:将数据存储到文件 with open("news.txt", "w", encoding="utf-8") as f: for news in news_list: title = news.text link = news["href"] f.write(f"{title} {link} ")
import time # 示例:设置延时和爬取数量 interval = 2 # 延时2秒 count = 0 # 爬取数量计数器 for news in news_list: if count < 10: # 爬取10条新闻 title = news.text link = news["href"] print(title, link) count += 1 time.sleep(interval) # 延时 else: break
上記は、単純なクローラ プログラムの実装プロセスです。この例では、Python を使用して、ターゲット Web サイトからデータを取得してファイルに保存する基本的なクローラー プログラムを作成する方法を学習できます。もちろん、クローラー プログラムの機能はこれよりもはるかに多く、必要に応じてさらに拡張および改善できます。
同時に、クローラー プログラムを作成するときは、法的および倫理的規範を遵守し、Web サイトの robots.txt ファイルを尊重し、ターゲット Web サイトに不必要な負担を与えないようにする必要があることに注意してください。
以上がPython で簡単なクローラー プログラムを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。