Python標準ライブラリの概要 Beautiful SoupとMongoDb登山ヒマラヤラジオ-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python標準ライブラリの概要 Beautiful SoupとMongoDb登山ヒマラヤラジオ

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 27, 2017 pm 02:46 PM

mongodb python

Beautiful Soup 標準ライブラリは、HTML/XML ファイルからデータを抽出できる Python ライブラリで、お気に入りのコンバータを使用してドキュメントのナビゲーション、検索、変更を実現し、時間を節約できます。 pymongo 標準ライブラリは、MongoDb NoSql データベースと Python 言語の間のブリッジであり、データは pymongo を通じて MongoDb に保存されます。この 2 つを一緒に使用して、ヒマラヤのラジオデータをクロールします...

Beautiful Soup は、Python 標準ライブラリの HTML パーサーをサポートしており、いくつかのサードパーティパーサーもサポートしています (その 1 つが lxml)。この記事では lxml を使用します。これのインストールについては、Python 3.6 lxml 標準ライブラリ lxml のインストールと etree の使用を参照してください。また、この記事では、必要な部分を解析するために XPath を使用します。 XPath と Beautiful Soup Beautiful Soup 4.4.0 の XPath 入門ドキュメントをご覧ください
この記事に関わる Beautiful Soup と XPath の知識は、公式ドキュメントを見れば理解できます。コメントも追加しました。 .
pymongo 標準ライブラリについては、これ以上ナンセンスではありません。詳細については、Python 標準ライブラリの pymongo モジュールエクスペリエンスを参照してください。

場合によっては、現在サーバーにリクエストを行っているクライアントのタイプ (一般に知られている) を判断する必要があることがあります。 User-Agent、略して UA とは、Web を閲覧するときに使用されるブラウザの一種です。つまり、HTTP プロトコルでは、User-Agent リクエストヘッダーが使用されます。ユーザーのブラウザの種類、オペレーティングシステム、ブラウザカーネル、その他の情報の識別。このロゴを通じて、ユーザーにより良いエクスペリエンスを提供したり、情報統計を実施したりするために、訪問した Web サイトのさまざまなバージョンを表示できます。一部の Web サイトでは、ハッカーや私たちのような退屈な人間が Web サイトのデータ情報をクロールするのを防ぐために、UA を公式に使用しています。

そのため、この記事のコードでは、その後のクローリング作業を容易にするために、最初にすべての UA をリストします。

それでは、どのデータをクロールするのかを明確にしましょう:

必要なのは、画像や alt などへのリンクです

次に、画像のリンクをクリックして、内部の詳細を取得します, 一部のラジオ局に複数のページがある場合は、xpath を使用してそれらのページに順番にアクセスします。同時に、ページ上のアルバム内の音源モジュールのsound_idを取得します...

手順は次のとおりです:

import random
import requests
from bs4 import BeautifulSoup
import json
from lxml import etree
import pymongo


clients = pymongo.MongoClient("localhost", 27017)
db = clients["XiMaLaYa"]
collection_1 = db["album"]
collection_2 = db["detail"]

UA_LIST = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
headers1 = {
    &#39;Accept&#39;: &#39;text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8&#39;,
    &#39;Accept-Encoding&#39;: &#39;gzip, deflate, sdch&#39;,
    &#39;Accept-Language&#39;: &#39;zh-CN,zh;q=0.8,en;q=0.6&#39;,
    &#39;Cache-Control&#39;: &#39;max-age=0&#39;,
    &#39;Proxy-Connection&#39;: &#39;keep-alive&#39;,
    &#39;Upgrade-Insecure-Requests&#39;: &#39;1&#39;,
    &#39;User-Agent&#39;: random.choice(UA_LIST)  # User_agence表示用户代理
}
headers2 = {
    &#39;Accept&#39;: &#39;text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8&#39;,
    &#39;Accept-Encoding&#39;: &#39;gzip, deflate, sdch&#39;,
    &#39;Accept-Language&#39;: &#39;zh-CN,zh;q=0.8,en;q=0.6&#39;,
    &#39;Cache-Control&#39;: &#39;max-age=0&#39;,
    &#39;Proxy-Connection&#39;: &#39;keep-alive&#39;,
    &#39;Referer&#39;: &#39;http://www.ximalaya.com/dq/all/2&#39;,
    &#39;Upgrade-Insecure-Requests&#39;: &#39;1&#39;,
    &#39;User-Agent&#39;: random.choice(UA_LIST)
}


# Beautiful库用来处理XML和HTML...
# 主要就是利用BeautifulSoup模块来处理requests模块获取的Html源码
# 利用lxml模块将html源码解析成树结构，xpath来处理树节点.
def get_url():
    start_urls = ["http://www.ximalaya.com/dq/all/{}".format(num) for num in range(1，85)]
    # start_urls = ["http://www.ximalaya.com/dq/all/1"]
    for start_url in start_urls:
        html = requests.get(start_url, headers=headers1).text
        soup = BeautifulSoup(html, "lxml")  # 使用lxml来处理
        for item in soup.find_all(class_="albumfaceOutter"):  # 解析并查找xml节点
            content = {
                &#39;href&#39;: item.a["href"],
                &#39;title&#39;: item.img[&#39;alt&#39;],
                &#39;img_url&#39;: item.img[&#39;src&#39;]
            }
            collection_1.insert(content)
            # another(item.a["href"])
    print(&#39;写入完成...&#39;)


# 进入电台具体页面 http://www.ximalaya.com/15836959/album/303085，并处理分页录音...
def another(url):
    html = requests.get(url, headers=headers1).text
    # / :表示从根节点选取....
    # // :表示匹配选择的当前节点选择文档中的节点，而不考虑他们的位置...
    ifanother = etree.HTML(html).xpath(&#39;//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page&#39;)  # 页面链接地址  ifanother是list类型...
    if len(ifanother):  # 判断一个video的录音是否分割成了多页....
        num = ifanother[0]  # 获取页面数...
        print(&#39;本频道保存在&#39; + num + &#39;个页面&#39;)
        for n in range(1, int(num)):
            url2 = url + &#39;?page={}&#39;.format(n)
            get_m4a(url2)
        get_m4a(url)


# 获取分页录音页面的详细数据...
def get_m4a(url):
    html = requests.get(url, headers=headers2).text
    numlist = etree.HTML(html).xpath(&#39;//div[@class="personal_body"]/@sound_ids&#39;)[0].split(&#39;,&#39;)
    for i in numlist:
        murl = &#39;http://www.ximalaya.com/tracks/{}.json&#39;.format(i)
        html = requests.get(murl, headers=headers1).text
        dic = json.loads(html)
        collection_2.insert(dic)


if __name__ == "__main__":
    get_url()

ログイン後にコピー

以上がPython標準ライブラリの概要 Beautiful SoupとMongoDb登山ヒマラヤラジオの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。