scrapy
を使ってデータを取得する場合は、itemloader
クラスを使用し、selector
で取り出した値が空の場合は、scrapyと入力します。フィールド ()
は filter()
を呼び出しますが、セレクターの値は空ではなく、確かに「値がある」を返します。selector
が取り出される場合、 []
または ""
の場合、value
は、filter()
を入力した後に「値なし」を返しません。
リーリー
空の値をキャプチャし、filterer() の後に「値なし」に変える方法はありますか?
ご招待ありがとうございます~
私は Scrapy についてはあまり詳しくないので、このトピックについてはあまり言えません。私が PHP で作成したクローラーの一般的なアイデアは次のとおりです。
まず、通常どおりです。ルールといくつかのループを使用して、収集するページをキューに入れ、カテゴリ分類を押します。たとえば、ページ分割されたリスト ページのキューと、リスト内のデータ コンテンツ ページのキューです。
2. 次に、xpath を使用して、関連するコンテンツ ページのデータをクロールします。クロールされたデータの一部は、サブジェクトの要求に応じて処理されます。
3. 必要な規格に従ってデータを組み立て、保存します。
私のクローラ フレームワークのほとんどは、おそらくこの考えに基づいており、これに基づいて、クローリング防止メカニズム、マルチスレッド、マルチプロセス、増分クローリングなどの機能を追加しています。そこで、質問者さんはあなたのフレームワークを見つけました
爬取数据那里进行处理或组装数据的地方进行处理都行
。