Viele Freunde haben mich in letzter Zeit gefragt, ob ich selbst Crawler lernen kann. Wie weit kann ich lernen, einen Job zu finden?
Dieser Artikel wird nur als Referenz über meine eigenen Erfahrungen, über Crawler und meine Arbeit sprechen.
Inwieweit Sie gelernt haben
Lassen Sie uns zunächst auf junge Crawler-Ingenieure abzielen und sie kurz auflisten:
(notwendiger Teil)
Sprachauswahl: Im Allgemeinen müssen Sie Python, Java und Golang beherrschen.
Vertraut mit Multithread-Programmierung, Netzwerkprogrammierung und HTTP-Protokollen.
Haben eine vollständige Sprache entwickelt Crawler-Projekt (vorzugsweise ein Full-Site-Crawler Erfahrung, dies wird unten erwähnt)
Anti-Crawling-bezogene, Cookies, IP-Pools, Bestätigungscodes usw.
Kompetente Verwendung verteilter
Verstehen Sie Nachrichtenwarteschlangen wie RabbitMQ, Kafka, Redis usw.
Erfahrung in Data Mining, Verarbeitung natürlicher Sprache, Informationsabruf, maschinellem Lernen
Vertraut mit der APP-Datenerfassung , Mittelsmann-Agent
Big Data-Verarbeitung (Hive/MR /Spark/Storm)
Datenbank MySQL, Redis, Mongdb
Vertraut mit Git-Betrieb und Linux-Umgebungsentwicklung
JS-Code verstehen, das ist wirklich wichtig
Wie man sich verbessert
Schauen Sie sich einfach die Tutorials auf Zhihu an, um loszulegen. Es reicht natürlich nicht aus, die Anforderungen zu kennen und die Prinzipien von Scrapy und Pyspider zu verstehen.
Wie man ein verteiltes System aufbaut und wie man die Probleme von Speicher und Geschwindigkeit löst.
Referenz Was ist der Unterschied zwischen Scrapy-Redis und Scrapy?
Was ist Full-Site-Crawling?
Das einfachste Beispiel ist die Suche nach Schlüsselwörtern. Es gibt nicht alle 30 Seiten 30 Seiten sind das Ende der Website. Sobald die Website gecrawlt ist, sollten Sie eine Möglichkeit finden, alle Daten nach unten zu crawlen.
Mit welcher Methode können Sie den Umfang durch Filterung eingrenzen und sich Zeit lassen?
Gleichzeitig wird jede Position auch empfohlene Positionen haben und dann einen Crawler schreiben, um Empfehlungen zu sammeln.
Das obige ist der detaillierte Inhalt vonInwieweit kann ein Python-Crawler lernen, einen Job zu finden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!