Python を使用して CSDN Web クローラーを実行する場合、Web ページのタイトルをクロールするときは、常に正規表現 (?<=\<title\>) を使用します。 ?(?=\< ; )
は CSDN では使用できません。CSDN ソース コードに移動し、タイトルが改行されて
その結果、本来の正規表現が使えなくなりました そこで疑問が生じます このようなWebページのタイトルに改行が含まれているのですが 正規表現で抽出するにはどうすればよいでしょうか?
追記:
xpath メソッドや beautifulsoup メソッドは使用したくありません。必要なのは正規表現だけです。
CSDN 自体にはクローラー対策の仕組みがあり、タイトルをクロールできなかったのはこのクローラー対策のせいではありません
@caimaoy さんの方法を参考に、正規表現を
(?<=\<title\>)(?:.|\n) ?(?=\<)## に変更しました。 #、タイトルは完璧に抽出されています。皆様、改めてありがとうございました。
re.M 複数行モード
複数行のマッチングを自分で書く http://python3-cookbook.readt...
式に
リーリーflag
を追加します