このプラグインは HTML を含む多くのコンテンツを簡単に表示できます
トップ 250 Douban 映画ランキング Web ページを開くと、各ページに 25 本の映画、合計 10 ページがあり、各ページの URL は次のとおりです。特徴:
http://movie.douban.com/top250?start=0
http://movie.douban.com/top250?start=25
http://movie.douban.com/top250? start=50
http://movie.douban.com/top250?start=75
...
などなので、ループを使用して次の0、25、...を処理するだけで済みます。 225.
Web ページ上の中国語の映画名をクリックし、マウスを右クリックして [要素の表示] をクリックすると、HTML ソース コードが表示されます:
映画名が に配置され、英語名が表示されていることがわかります。 にも置かれています。
正規表現 (.*) を使用して、映画の中国語名と英語名を一致させることができますが、ここでは中国語名のみを取得したいため、英語名をフィルタリングする必要があります。
find(str,pos_start,pos_end) 関数を使用してフィルタリング メソッドを実装すると、英語名に含まれる固有の特徴である「 」と「/」を排除できます。詳細についてはコードを参照してください。
3. コードの実装
ここのコードは比較的単純なので、関数を定義する必要はありません。
りー