python - 爬虫中的图片该怎么处理?

Question

如题，比如爬取新闻类，该新闻中含图片,图片该怎么处理，如果有多张图片呢 类似 {代码...} 或者 {代码...} 需要下载图片到本地?还是直接用该网站的图片源,如果要下载到本地,文字内容上又该怎么处理。 多谢各位的...

ringa_lee · Answer

저장하거나 수집할 필요가 없는 경우(예를 들어 웹사이트가 폐쇄되거나 원본 이미지가 무효화될까 봐 걱정되는 경우) 해당 웹사이트의 이미지 소스를 직접 사용해도 문제가 없습니다. 공간, 관리 또는 저작권 조건. 물론, 이 작업의 난이도도 상대적으로 낮습니다.

黄舟 · Answer

외부 링크가 가능하다면 그렇게 하세요. 단, 핫링크가 발생하지 않도록 주의하세요. 가장 안전한 방법은 로컬로 다운로드하는 것입니다

ringa_lee · Answer

Bs4를 사용하여 해당 노드를 선택할 수 있고, xpath를 사용할 수도 있으며 원하는 것을 추출할 수 있습니다

迷茫 · Answer

로컬로 다운로드한 다음 웹페이지의 src를 로컬 상대 디렉터리로 바꿉니다

ringa_lee · Answer

뉴스요? 포털 사이트에는 기본적으로 거머리 방지 기능이 있습니다

위조된 Referer를 로컬에서 먼저 다운로드한 후 원본 텍스트의 이미지 주소를 로컬 주소로 바꾸는 것이 좋습니다

巴扎黑 · Answer

http://blog.csdn.net/qq_34844199/article/details/51468841 이 글을 읽고 나면 모든 것이 명확해집니다