此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。
学习是最好的投资!
Ayant fait du développement Web, je pense que créer un robot est très simple. Assurez-vous simplement qu'il s'agit du protocole http et tout ira bien
Dis-moi juste quelques choses
Vitesse d'exploration (compromis contrôle et vitesse)
Multi-threading
Processus multiples
File d'attente des messages
Analyse de pages Web
Découverte de l'interface-> Faites bon usage de F12.Network
xpath, re et autres bibliothèques d'analyse
Données structurées
Persistance->Pool de connexions à la base de données->Activer les connexions à la base de données à un certain nombre
Anti-crawler
Ban IP->Proxy Pool->Comment utiliser le proxy de manière plus raisonnable
Code de vérification->OCR
Vous pouvez d'abord utiliser PHP pour implémenter le robot et comprendre les principes. Curl peut aussi le faire, la langue n'est qu'un outil
Lisez un livre intitulé "Python Web Crawler".
Ayant fait du développement Web, je pense que créer un robot est très simple. Assurez-vous simplement qu'il s'agit du protocole http et tout ira bien
.Dis-moi juste quelques choses
Vitesse d'exploration (compromis contrôle et vitesse)
Multi-threading
Processus multiples
File d'attente des messages
Analyse de pages Web
Découverte de l'interface-> Faites bon usage de F12.Network
xpath, re et autres bibliothèques d'analyse
Données structurées
Persistance->Pool de connexions à la base de données->Activer les connexions à la base de données à un certain nombre
Anti-crawler
Ban IP->Proxy Pool->Comment utiliser le proxy de manière plus raisonnable
Code de vérification->OCR
Vous pouvez d'abord utiliser PHP pour implémenter le robot et comprendre les principes. Curl peut aussi le faire, la langue n'est qu'un outil
Lisez un livre intitulé "Python Web Crawler".