Octopus présente certains avantages, tels qu'un faible coût d'apprentissage, un processus visuel et une construction rapide du système de collecte. Peut exporter directement des fichiers Excel et exporter vers une base de données. Pour réduire les coûts de collecte, la collecte cloud fournit 10 nœuds, ce qui peut également éviter bien des problèmes.
Octopus Collector fournit également un service de collecte dans le cloud, qui peut être complété en peu de temps. Vous aurez peut-être besoin de quelques jours. collecter la charge de travail. (Apprentissage recommandé : Tutoriel vidéo Python)
Le problème est que même si cela semble très simple et qu'il existe un mode intelligent plus infaillible, il y a des pièges à l'intérieur seulement ceux qui l'ont beaucoup utilisé comprendront.
Tout d'abord, les boucles à l'intérieur sont toutes des positionnements d'éléments XPath. Si vous utilisez un positionnement par simple clic, il sera très rigide et il est facile de faire des erreurs lors de la collecte de pages en grande quantité. De plus, trop de débutants utilisent cet outil en raison de sa commodité. Les gens posent des questions courantes toute la journée. Ils ne connaissent pas la structure des pages et ne comprennent pas XPath. Il est facile de provoquer des problèmes tels qu'une collection incomplète. et des pages tournées à l'infini.
Mais le chargement ajax d'Octopus Collector, la simulation de pages de téléphone mobile, le filtrage des publicités, le défilement vers le bas de la page et d'autres fonctions sont des outils incroyables et peuvent être effectués avec une seule vérification. L'écriture de code est très fastidieuse et la mise en œuvre de ces fonctions est laborieuse.
Octopus n'est qu'un outil après tout, et son degré de liberté va définitivement vaincre la programmation. L'avantage est la commodité, la rapidité et le faible coût.
Octopus a des citations de jugement faibles et ne peut pas porter de jugements complexes ni exécuter une logique complexe. De plus, seule la version entreprise d'Octopus peut résoudre le problème du code de vérification, et la version générale ne peut pas accéder à la plateforme de codage.
Un autre point est qu'il n'y a pas de fonction OCR. Les numéros de téléphone collectés par 58.com et Ganji.com sont tous au format image et peuvent être résolus avec une bibliothèque de reconnaissance d'images open source et peuvent être connectés à. cela pour la reconnaissance.
Les besoins en matière de collecte de données déterminent quel outil sera finalement utilisé. Si j'ai un grand nombre de besoins en matière de collecte de données, les robots d'exploration doivent être inévitables car le code a un degré de liberté plus élevé. Je pense que le but d'Octopus n'est pas de remplacer Python, mais d'atteindre l'objectif d'un collecteur que tout le monde peut utiliser.
Un autre point est que Python est facile à apprendre, simple à déployer, open source et gratuit. Même si vous n'apprenez que Scrapy, vous pouvez résoudre certains problèmes. Cependant, le problème est que certaines fonctions qui peuvent être réalisées avec une simple sélection dans certains outils doivent être écrites par vous-même ou copiées à partir du code d'autres personnes. -time crawlerwriter, vous pourrez bientôt le résoudre. Je veux juste passer du début à l'abandon...
Pour plus d'articles techniques liés à Python, veuillez visiter le Tutoriel Python rubrique pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!