Python - Le titre de la page web contient une nouvelle ligne. Comment l'extraire à l'aide d'expressions régulières ?
女神的闺蜜爱上我
女神的闺蜜爱上我 2017-06-22 11:51:43
0
2
980

J'utilise Python pour effectuer un robot d'exploration Web CSDN. Lors de l'exploration du titre de la page Web, l'expression régulière que j'utilise (?<=<title>).+?(?=<)ne peut plus être utilisée dans CSDN. Lorsque je consulte le code source CSDN, le titre s'affiche. dans une nouvelle ligne

L'expression régulière originale ne peut donc pas être utilisée. Voici donc la question Le titre d'une page Web comme celle-ci contient des sauts de ligne. Comment l'extraire avec des expressions régulières ?

PS :

  1. Je ne veux pas utiliser XPath ou BeautifulSoup, j'ai juste besoin d'expressions régulières

  2. CSDN lui-même dispose d'un mécanisme anti-crawler. Ce n'est pas à cause de cet anti-crawler que je n'ai pas pu explorer le titre

  3. .

Merci à tous

En suivant la méthode de @caimaoy, j'ai changé l'expression régulière en (?<=<title>)(?:.|n)+?(?=<) et le titre a été parfaitement extrait.
Merci encore à tous.

女神的闺蜜爱上我
女神的闺蜜爱上我

répondre à tous(2)
仅有的幸福
  1. Mode multi-lignes re.M

  2. Écrivez vous-même une correspondance multiligne http://python3-cookbook.readt...

曾经蜡笔没有小新

Ajoutez flag à l'expression

tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal