python - 爬虫中的图片该怎么处理?
PHPz
PHPz 2017-04-17 17:53:05
0
6
451

如题,比如爬取新闻类,该新闻中含图片,图片该怎么处理,如果有多张图片呢

类似

     [文字]  
     [图片]  
     [文字]

或者

     [文字]  
     [图片]  
     [文字]
     [图片]
     [文字]

需要下载图片到本地?还是直接用该网站的图片源,如果要下载到本地,文字内容上又该怎么处理。


多谢各位的回答,其实我想问得一点是怎么将图片保持在原位置,比如scrapy中可以使用

p.xpath('p/text()').extract()

得到文字内容

p.xpath('p/img/@src').extract()

定位图片,那么怎么保证图片的位置和原来的位置一样呢

PHPz
PHPz

学习是最好的投资!

membalas semua(6)
左手右手慢动作

Jika tidak perlu simpan atau kumpul (contohnya, anda takut laman web akan ditutup atau imej asal menjadi tidak sah), anda boleh terus menggunakan sumber imej laman web tersebut. Tiada masalah dalam syarat ruang, pengurusan atau hak cipta. Sudah tentu, kesukaran melakukan ini juga agak rendah.

黄舟

Jika anda boleh memaut secara luaran, lakukan, tetapi berhati-hati untuk mengelakkan hotlinking. Cara paling selamat ialah memuat turunnya secara setempat

左手右手慢动作

Anda boleh menggunakan Bs4 untuk memilih nod yang sepadan, xpath juga boleh digunakan, dan anda boleh mengekstrak apa sahaja yang anda mahu

迷茫

Muat turun ke setempat, kemudian gantikan src dalam halaman web dengan direktori relatif setempat

左手右手慢动作

Berita? Laman portal pada asasnya mempunyai perlindungan anti-lintah

Adalah lebih baik untuk memuat turun Perujuk palsu secara setempat dahulu, dan kemudian menggantikan alamat imej dalam teks asal dengan alamat setempat

巴扎黑

http://blog.csdn.net/qq_34844199/article/details/51468841 Selepas membaca ini, semuanya jelas

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan