python - 爬虫中的图片该怎么处理?
PHPz
PHPz 2017-04-17 17:53:05
0
6
450

如题,比如爬取新闻类,该新闻中含图片,图片该怎么处理,如果有多张图片呢

类似

     [文字]  
     [图片]  
     [文字]

或者

     [文字]  
     [图片]  
     [文字]
     [图片]
     [文字]

需要下载图片到本地?还是直接用该网站的图片源,如果要下载到本地,文字内容上又该怎么处理。


多谢各位的回答,其实我想问得一点是怎么将图片保持在原位置,比如scrapy中可以使用

p.xpath('p/text()').extract()

得到文字内容

p.xpath('p/img/@src').extract()

定位图片,那么怎么保证图片的位置和原来的位置一样呢

PHPz
PHPz

学习是最好的投资!

모든 응답(6)
左手右手慢动作

저장하거나 수집할 필요가 없는 경우(예를 들어 웹사이트가 폐쇄되거나 원본 이미지가 무효화될까 봐 걱정되는 경우) 해당 웹사이트의 이미지 소스를 직접 사용해도 문제가 없습니다. 공간, 관리 또는 저작권 조건. 물론, 이 작업의 난이도도 상대적으로 낮습니다.

黄舟

외부 링크가 가능하다면 그렇게 하세요. 단, 핫링크가 발생하지 않도록 주의하세요. 가장 안전한 방법은 로컬로 다운로드하는 것입니다

左手右手慢动作

Bs4를 사용하여 해당 노드를 선택할 수 있고, xpath를 사용할 수도 있으며 원하는 것을 추출할 수 있습니다

迷茫

로컬로 다운로드한 다음 웹페이지의 src를 로컬 상대 디렉터리로 바꿉니다

左手右手慢动作

뉴스요? 포털 사이트에는 기본적으로 거머리 방지 기능이 있습니다

위조된 Referer를 로컬에서 먼저 다운로드한 후 원본 텍스트의 이미지 주소를 로컬 주소로 바꾸는 것이 좋습니다

巴扎黑

http://blog.csdn.net/qq_34844199/article/details/51468841 이 글을 읽고 나면 모든 것이 명확해집니다

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿