Python - Scrapy ItemLoader データのクリーニングに関する質問

Question

Scrapy を使用してデータをキャプチャする場合は、itemloader クラスを使用します。セレクターで取り出した値が空の場合は、scrapy.Field() を入力し、filter() を呼び出します。セレクターの値が空でない場合は、確かに「値付き」を返します。 "。セレクターが [] または "" から取り出された場合、値が filter() に入った後は、そうではありません。

仅有的幸福 · Answer

ご招待ありがとうございます~
私は Scrapy についてはあまり詳しくないので、このトピックについてはあまり言えません。私が PHP で作成したクローラーの一般的なアイデアは次のとおりです。
まず、通常どおりです。ルールといくつかのループを使用して、収集するページをキューに入れ、カテゴリ分類を押します。たとえば、ページ分割されたリストページのキューと、リスト内のデータコンテンツページのキューです。
2. 次に、xpath を使用して、関連するコンテンツページのデータをクロールします。クロールされたデータの一部は、サブジェクトの要求に応じて処理されます。
3. 必要な規格に従ってデータを組み立て、保存します。

私のクローラフレームワークのほとんどは、おそらくこの考えに基づいており、これに基づいて、クローリング防止メカニズム、マルチスレッド、マルチプロセス、増分クローリングなどの機能を追加しています。そこで、質問者さんはあなたのフレームワークを見つけました爬取数据那里进行处理或组装数据的地方进行处理都行。