Pythonを使用してjsのコンテンツをクロールする方法-Python チュートリアル-php.cn

Pythonを使用してjsのコンテンツをクロールする方法

零到壹度

リリース： 2018-04-10 09:54:12

オリジナル

9516 人が閲覧しました

この記事の内容は、Pythonを使用してjsでコンテンツをクロールする方法を共有することです。必要な友達はそれを参照できます

1. 書くときに取得します。クローラーソフトウェア必要なコンテンツに遭遇した場合、JavaScriptによって追加され、取得時に空である場合があります。例えば、新浪ニュースのコメント数を取得する場合、通常の方法では取得できません

。

通常の取得コード例:

import requests
from bs4 import BeautifulSoup

res = requests.get(&#39;http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml&#39;)
res.encoding = &#39;utf-8&#39;
soup = BeautifulSoup(res.text,&#39;html.parser&#39;)
#取评论数
commentCount = soup.select_one(&#39;#commentCount1&#39;)
print(commentCount.text)

ログイン後にコピー

この時点で得られる結果は空です。これは、コンテンツが js ファイルに保存されているためです

コメント内容を検索すると、変更されたIn jsに保存されていることが分かりました

該当する内容をjsonデータビューアに入れると、コメントの総数とコメントの内容が判明しました。 jsファイルにjson形式で保存

メッセージ内ヘッダーには、jsファイルへのアクセスパスとリクエストメソッドが表示されます

コード例

import json
comments = requests.get(&#39;http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783&#39;)
comments.encoding = &#39;utf-8&#39;
print(comments)
jd = json.loads(comments.text.strip(&#39;var data=&#39;)) #移除改var data=将其变为json数据
print(jd[&#39;result&#39;][&#39;count&#39;][&#39;total&#39;])

ログイン後にコピー

注: ここでは、var data= を取得する際の文字列プレフィックスが json データ形式に準拠していないため、var data= を削除する必要がある理由について説明します。そのため、リクエストから削除する必要があります。変換中のコンテンツ

なぜ jd['result'