python - 爬虫爬取网页后，如何保存网页？

Question

爬虫从 Internet 中爬取众多的网页作为原始网页库存储于本地，然后网页分析器抽取网页中的主题内容交给分词器进行分词，得到的结果用索引器建立正排和倒排索引，这样就得到了索引数据库，用户查询时，在通过分词...

黄舟 · Answer

リーリー

迷茫 · Answer

ここで彼が言いたいのは、キャプチャされた Web ページがファイルの形式でローカルディスクに直接保存されるということです

ringa_lee · Answer

オブジェクトストレージコンポーネントを使用できます。

PHP中文网 · Answer

Shenjianshou クラウドクローラー (http://www.shenjianshou.cn) を使用することをお勧めします。クローラーは完全にクラウド上で記述され、実行されるため、開発環境を設定する必要はありません。実装は可能です。

わずか数行の JavaScript で、複雑なクローラーを実装し、アンチクローラー、JS レンダリング、データ公開、チャート分析、アンチリーチングなどの多くの機能を提供できます。これらはよく遭遇する問題です。クローラーの開発過程では、Archer がすべてを解決するのに役立ちます。
収集されたデータ:
(1) wecenterwordpressdiscuzdedeempire やその他の CMS システムなどの Web サイトに公開することを選択できます
(2) データベースに公開することもできます
(3) またはファイルをローカルにエクスポートします
特定の設定は「データ公開とエクスポート」にあります