Octopus には、学習コストが低い、視覚的なプロセス、収集システムの迅速な構築などの利点があります。 Excelファイルを直接エクスポートしたり、データベースにエクスポートしたりできます。収集コストを削減するために、クラウド収集には 10 ノードが用意されており、これにより多くの手間も省けます。
Octopus Collector はクラウド収集サービスも提供しており、短時間で完了できます。数日かかる場合があります。ワークロードを収集します。 (推奨される学習: Python ビデオ チュートリアル )
悪い点は、非常にシンプルに見え、より確実なスマート モードがあるにもかかわらず、中に落とし穴があることです。たくさん使った人にしか分からないでしょう。
まず、ループ内のループはすべて xpath 要素の位置決めです。単純なクリック位置決めを使用すると、非常に厳密になり、大きなバッチでページを収集するときに間違いが発生しやすくなります。また、その利便性からこのツールを使用する初心者が多すぎる、よくある質問が一日中続く、ページ構造が分からない、xpathが理解できない、収集不完全などの問題が発生しやすいそして無限のページめくり。
しかし、Octopus Collector の ajax 読み込み、携帯電話ページのシミュレート、広告のフィルタリング、ページの下部へのスクロール、その他の機能は素晴らしいツールであり、1 回のチェックで実行できます。コードを書くのは非常に面倒ですし、これらの機能を実装するのも大変です。
Octopus は結局のところ単なるツールであり、その自由度は間違いなくプログラミングを打ち負かします。利点は、利便性、スピード、低コストです。
タコの判断の引用は弱く、複雑な判断を下したり、複雑なロジックを実行したりすることはできません。また、認証コードの問題を解決できるのはエンタープライズ版の Octopus だけであり、一般版はコーディング プラットフォームにアクセスできません。
もう 1 つの点は、OCR 機能がないことです。58.com と Ganji.com が収集した電話番号はすべて画像形式です。Python は、オープンソースの画像認識ライブラリを使用することで解決できます。接続されて認識されるようになります。
データ収集のニーズによって、最終的にどのツールが使用されるかが決まります。大量のデータ収集が必要な場合、コードの自由度が高いため、クローラーの使用は避けられません。 Octopus の目標は Python を置き換えることではなく、誰もが使用できるコレクターという目標を達成することだと思います。
もう 1 つのポイントは、Python は学習しやすく、デプロイしやすく、オープンソースで無料であるということです。 Scrapy を学習するだけでも、いくつかの問題は解決できますが、問題は、ツールによっては、単純な選択で実現できる一部の機能を自分で書くか、他の人のコードをコピーする必要があることです。タイム クローラー ライターさん、すぐに解決できるでしょう。始めてから諦めたいところです...
Python 関連の技術記事の詳細については、Python チュートリアル# をご覧ください。 ## 学べるコラム!
以上がPython クローラーとタコではどちらが速いですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。