ホームページ > バックエンド開発 > Python チュートリアル > Python2.7 を使用して上位 250 の Douban ムービーをキャプチャする

Python2.7 を使用して上位 250 の Douban ムービーをキャプチャする

高洛峰
リリース: 2016-11-03 16:53:31
オリジナル
2038 人が閲覧しました

このプラグインは HTML を含む多くのコンテンツを簡単に表示できます

トップ 250 Douban 映画ランキング Web ページを開くと、各ページに 25 本の映画、合計 10 ページがあり、各ページの URL は次のとおりです。特徴:

http://movie.douban.com/top250?start=0

http://movie.douban.com/top250?start=25

http://movie.douban.com/top250? start=50

http://movie.douban.com/top250?start=75

...

などなので、ループを使用して次の0、25、...を処理するだけで済みます。 225.

Web ページ上の中国語の映画名をクリックし、マウスを右クリックして [要素の表示] をクリックすると、HTML ソース コードが表示されます: Python2.7 を使用して上位 250 の Douban ムービーをキャプチャする

映画名が に配置され、英語名が表示されていることがわかります。 にも置かれています。

正規表現 (.*) を使用して、映画の中国語名と英語名を一致させることができますが、ここでは中国語名のみを取得したいため、英語名をフィルタリングする必要があります。

find(str,pos_start,pos_end) 関数を使用してフィルタリング メソッドを実装すると、英語名に含まれる固有の特徴である「 」と「/」を排除できます。詳細についてはコードを参照してください。

3. コードの実装

ここのコードは比較的単純なので、関数を定義する必要はありません。

りー


関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート