Python - Web ページのタイトルに改行が含まれていますが、正規表現を使用して改行を抽出するにはどうすればよいですか?
女神的闺蜜爱上我
女神的闺蜜爱上我 2017-06-22 11:51:43
0
2
979

Python を使用して CSDN Web クローラーを実行する場合、Web ページのタイトルをクロールするときは、常に正規表現 (?<=\<title\>) を使用します。 ?(?=\< ; ) は CSDN では使用できません。CSDN ソース コードに移動し、タイトルが改行されて

と表示されていることを確認してください。

その結果、本来の正規表現が使えなくなりました そこで疑問が生じます このようなWebページのタイトルに改行が含まれているのですが 正規表現で抽出するにはどうすればよいでしょうか?

追記:

  1. xpath メソッドや beautifulsoup メソッドは使用したくありません。必要なのは正規表現だけです。

  2. CSDN 自体にはクローラー対策の仕組みがあり、タイトルをクロールできなかったのはこのクローラー対策のせいではありません

###皆さん、ありがとうございました###

@caimaoy さんの方法を参考に、正規表現を

(?<=\<title\>)(?:.|\n) ?(?=\<)## に変更しました。 #、タイトルは完璧に抽出されています。

皆様、改めてありがとうございました。

女神的闺蜜爱上我
女神的闺蜜爱上我

全員に返信(2)
仅有的幸福
  1. re.M 複数行モード

  2. 複数行のマッチングを自分で書く http://python3-cookbook.readt...

いいねを押す +0
曾经蜡笔没有小新

式にflagを追加します

リーリー
いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート