Python - Tajuk halaman web mengandungi baris baharu Bagaimana untuk mengekstraknya menggunakan ungkapan biasa?
女神的闺蜜爱上我
女神的闺蜜爱上我 2017-06-22 11:51:43
0
2
963

Saya menggunakan python untuk melakukan perangkak web CSDN Apabila merangkak tajuk halaman web, ungkapan biasa yang saya gunakan (?<=<title>).+?(?=<) tidak lagi boleh digunakan dalam CSDN Apabila saya melihat kod sumber CSDN, tajuk dipaparkan dalam baris baharu

Jadi ungkapan biasa asal tidak boleh digunakan Jadi, di sini muncul soalan Tajuk halaman web seperti ini mengandungi pemisah baris.

PS:

  1. Saya tidak mahu menggunakan xpath atau beautifulsoup, saya hanya perlukan ungkapan biasa

  2. CSDN sendiri mempunyai mekanisme anti-crawler. Bukan kerana anti-crawler ini saya tidak dapat merangkak tajuknya

  3. .

Terima kasih semua

Mengikut kaedah @caimaoy, saya menukar ungkapan biasa kepada (?<=<title>)(?:.|n)+?(?=<) dan tajuk diekstrak dengan sempurna.
Terima kasih semua sekali lagi.

女神的闺蜜爱上我
女神的闺蜜爱上我

membalas semua(2)
仅有的幸福
  1. re.M Mod berbilang talian

  2. Tulis padanan berbilang baris sendiri http://python3-cookbook.readt...

曾经蜡笔没有小新

Tambahkan flag pada ungkapan

tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!