python - 爬虫爬取网页后，如何保存网页？

Question

爬虫从 Internet 中爬取众多的网页作为原始网页库存储于本地，然后网页分析器抽取网页中的主题内容交给分词器进行分词，得到的结果用索引器建立正排和倒排索引，这样就得到了索引数据库，用户查询时，在通过分词...

黄舟 · Answer

으아아아

迷茫 · Answer

여기서 의미하는 바는 캡쳐된 웹페이지가 파일 형태로 로컬 디스크에 직접 저장된다는 것입니다

ringa_lee · Answer

오브젝트 스토리지 구성 요소를 사용할 수 있습니다.

PHP中文网 · Answer

Shenjianshou Cloud Crawler(http://www.shenjianshou.cn)를 사용하는 것이 좋습니다. 크롤러는 클라우드에서 완전히 작성되고 실행되며, 개발 환경을 구성할 필요가 없으며 빠른 개발이 가능합니다. 구현이 가능합니다.

단 몇 줄의 자바스크립트만으로 복잡한 크롤러를 구현하고 크롤러 방지, js 렌더링, 데이터 게시, 차트 분석, 리치 방지 등 다양한 기능을 제공할 수 있습니다. 이러한 문제는 자주 발생하는 문제입니다. 크롤러를 개발하는 과정에서 Archer가 이 모든 것을 해결하는 데 도움이 될 것입니다.
수집된 데이터:
(1) wecenterwordpressdiscuzdeempire 및 기타 cms 시스템과 같은 웹사이트에 게시하도록 선택할 수 있습니다
(2) 데이터베이스에 게시할 수도 있습니다
(3) 또는 파일을 로컬로 내보내기
구체적인 설정은 "데이터 게시 및 내보내기"에 있습니다