コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > バックエンド開発 > Python チュートリアル > Python は他の Web ページをクロールします

Python は他の Web ページをクロールします

零到壹度

リリース： 2018-03-30 10:38:35

オリジナル

2396 人が閲覧しました

この記事では主に他の Web ページをクロールするための Python リクエストメソッドを紹介します。これは非常に参考になるので、皆さんのお役に立てれば幸いです。編集者をフォローして見てみましょう。皆さんのお役に立てれば幸いです。

簡単に言うと、ウェブページでハイパーリンク「href」を探し、相対 URL を絶対 URL に変換し、for ループを使用してアクセスします

import requestsfrom bs4 import BeautifulSoup#将字符串转换为Python对象import pandas as pd
url = &#39;http://www.runoob.com/html/html-tutorial.html&#39;r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,&#39;lxml&#39;)#html放到beatifulsoup对象中l=[x.text for x in soup.findAll(&#39;h2&#39;)]#提取次标题中所有的文字df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件，列名为URLx=soup.findAll(&#39;a&#39;)[1]#查看第二个元素x.has_attr(&#39;href&#39;)#判断是都有href字符x.attrs[&#39;href&#39;]#获得超链接 attrs函数返回字典links = [i for i in soup.findAll(&#39;a&#39;)if i.has_attr(&#39;href&#39;)and i.attrs[&#39;href&#39;][0:5]== &#39;/html&#39;]#用if来做一个筛选relative_urls= set([i.attrs[&#39;href&#39;] for i in links])
absolute_urls={&#39;http://www.runoob.com&#39;+i for i in relative_urls}
absolute_urls.discard(url)#删除当前所在的urlfor i in absolute_urls:
    ri= requests.get(i)
    soupi =BeautifulSoup(ri.text.encode(ri.encoding),&#39;lxml&#39;)
    li=[x.text for x in soupi.findAll(&#39;h2&#39;)]
    dfi = pd.DataFrame(l,columns =[i])
    df = df.join(dfi,how=&#39;outer&#39;)
df

ログイン後にコピー

関連する推奨事項:

Pythonは単純なWebページをクロールします

Pythonクローラーはテンセントニュースをクロールします

Pythonはタオバオの製品情報をクロールします

以上がPython は他の Web ページをクロールしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

python

前の記事：Python が JD 携帯電話の写真のクロールを実装する方法の分析例次の記事：完全なクローラーフレームワークを作成する方法

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

PS Day 02: ライトエフェクトマテリアルの切り抜きについては、フォローしてください。

2018-08-28 15:02:42
PS Day 01: 文書から印鑑を抽出する方法については、フォローしてください。

2018-08-25 10:55:46
PS Day 02: 複雑な森を切り出す方法をご覧ください。

2018-08-20 16:25:41
PS Day 01: カラー写真を切り取って線画効果を生み出す方法を学ぶためにフォローしてください

2018-08-18 11:26:54
PS Day 02: ぼかしツールを学ぶためにフォローしてください

2018-08-14 16:35:58
PS Day 01: 修復ブラシツールを学ぶためにフォローしてください

2018-07-28 15:36:43
PS Day 02: モバイルツールの使用方法と適用方法については、フォローしてください。

2018-07-27 16:59:00
PS Day 01: 切り抜きツールを使用する

2018-07-27 15:22:47
PS Day 02: Photoshop のなげなわツールを練習するためにフォローしてください

2018-07-23 17:56:00
PS Day 01: 写真に境界線効果を追加する方法については、フォローしてください。

2018-07-23 16:21:38

最新の問題

人気のあるPythonライブラリとその用途は何ですか？

2025-03-21 18:46:29
Pythonの漬物と抑えるとは何ですか？

2025-03-21 18:45:34
学習と開発のためのあなたのお気に入りのPythonリソースは何ですか？

2025-03-21 13:19:29
Pythonの環境変数をどのように操作しますか？

2025-03-21 13:16:30
PythonのGCモジュールの目的は何ですか？

2025-03-21 13:13:27

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート