如题,比如爬取新闻类,该新闻中含图片,图片该怎么处理,如果有多张图片呢
类似
[文字]
[图片]
[文字]
或者
[文字]
[图片]
[文字]
[图片]
[文字]
需要下载图片到本地?还是直接用该网站的图片源,如果要下载到本地,文字内容上又该怎么处理。
多谢各位的回答,其实我想问得一点是怎么将图片保持在原位置,比如scrapy中可以使用
p.xpath('p/text()').extract()
得到文字内容
p.xpath('p/img/@src').extract()
定位图片,那么怎么保证图片的位置和原来的位置一样呢
저장하거나 수집할 필요가 없는 경우(예를 들어 웹사이트가 폐쇄되거나 원본 이미지가 무효화될까 봐 걱정되는 경우) 해당 웹사이트의 이미지 소스를 직접 사용해도 문제가 없습니다. 공간, 관리 또는 저작권 조건. 물론, 이 작업의 난이도도 상대적으로 낮습니다.
외부 링크가 가능하다면 그렇게 하세요. 단, 핫링크가 발생하지 않도록 주의하세요. 가장 안전한 방법은 로컬로 다운로드하는 것입니다
Bs4를 사용하여 해당 노드를 선택할 수 있고, xpath를 사용할 수도 있으며 원하는 것을 추출할 수 있습니다
로컬로 다운로드한 다음 웹페이지의 src를 로컬 상대 디렉터리로 바꿉니다
뉴스요? 포털 사이트에는 기본적으로 거머리 방지 기능이 있습니다
위조된 Referer를 로컬에서 먼저 다운로드한 후 원본 텍스트의 이미지 주소를 로컬 주소로 바꾸는 것이 좋습니다
http://blog.csdn.net/qq_34844199/article/details/51468841 이 글을 읽고 나면 모든 것이 명확해집니다