Python – Der Titel der Webseite enthält eine neue Zeile. Wie extrahiere ich ihn mit regulären Ausdrücken?
女神的闺蜜爱上我
女神的闺蜜爱上我 2017-06-22 11:51:43
0
2
981

Ich verwende Python, um den CSDN-Webcrawler auszuführen. Beim Crawlen des Webseitentitels kann der reguläre Ausdruck, den ich verwendet habe, nicht mehr in CSDN verwendet werden. Der Titel wird in einer neuen Zeile angezeigt (?<=<title>).+?(?=<)

Der ursprüngliche reguläre Ausdruck kann also nicht verwendet werden. Hier stellt sich die Frage: Wie kann ich ihn mit regulären Ausdrücken extrahieren?

PS:

  1. Ich möchte weder xpath noch beautifulsoup verwenden, ich brauche nur reguläre Ausdrücke

  2. CSDN selbst verfügt über einen Anti-Crawler-Mechanismus. Es liegt nicht an diesem Anti-Crawler, dass ich den Titel nicht crawlen konnte

Vielen Dank an alle

Nach der Methode von @caimaoy habe ich den regulären Ausdruck in

geändert und der Titel wurde perfekt extrahiert. (?<=<title>)(?:.|n)+?(?=<)Nochmals vielen Dank an alle.

女神的闺蜜爱上我
女神的闺蜜爱上我

Antworte allen(2)
仅有的幸福
  1. re.M 多行模式

  2. 自己写多行匹配 http://python3-cookbook.readt...

曾经蜡笔没有小新

表达式那边加个flag

tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage