如题,比如爬取新闻类,该新闻中含图片,图片该怎么处理,如果有多张图片呢
类似
[文字]
[图片]
[文字]
或者
[文字]
[图片]
[文字]
[图片]
[文字]
需要下载图片到本地?还是直接用该网站的图片源,如果要下载到本地,文字内容上又该怎么处理。
多谢各位的回答,其实我想问得一点是怎么将图片保持在原位置,比如scrapy中可以使用
p.xpath('p/text()').extract()
得到文字内容
p.xpath('p/img/@src').extract()
定位图片,那么怎么保证图片的位置和原来的位置一样呢
Jika tidak perlu simpan atau kumpul (contohnya, anda takut laman web akan ditutup atau imej asal menjadi tidak sah), anda boleh terus menggunakan sumber imej laman web tersebut. Tiada masalah dalam syarat ruang, pengurusan atau hak cipta. Sudah tentu, kesukaran melakukan ini juga agak rendah.
Jika anda boleh memaut secara luaran, lakukan, tetapi berhati-hati untuk mengelakkan hotlinking. Cara paling selamat ialah memuat turunnya secara setempat
Anda boleh menggunakan Bs4 untuk memilih nod yang sepadan, xpath juga boleh digunakan, dan anda boleh mengekstrak apa sahaja yang anda mahu
Muat turun ke setempat, kemudian gantikan src dalam halaman web dengan direktori relatif setempat
Berita? Laman portal pada asasnya mempunyai perlindungan anti-lintah
Adalah lebih baik untuk memuat turun Perujuk palsu secara setempat dahulu, dan kemudian menggantikan alamat imej dalam teks asal dengan alamat setempat
http://blog.csdn.net/qq_34844199/article/details/51468841 Selepas membaca ini, semuanya jelas