python3.x - Python网络爬虫学习建议，初学者需要哪些准备？

Question

此前一直是做PHP开发的，现在想学习下爬虫开发，很疑惑呀不知道从何做起，请大家指教下学习线路，我是属于想要深入研究型的。网上看到很多示例感觉就像做采集，Url扩散爬去和分析部分的资料很少...求推荐学习线路...

PHP中文网 · Answer

Ayant fait du développement Web, je pense que créer un robot est très simple. Assurez-vous simplement qu'il s'agit du protocole http et tout ira bien

.

Dis-moi juste quelques choses

Vitesse d'exploration (compromis contrôle et vitesse)
- Multi-threading
- Processus multiples
  - File d'attente des messages
Analyse de pages Web
- Découverte de l'interface-> Faites bon usage de F12.Network
- xpath, re et autres bibliothèques d'analyse
- Données structurées
Persistance->Pool de connexions à la base de données->Activer les connexions à la base de données à un certain nombre
Anti-crawler
- Ban IP->Proxy Pool->Comment utiliser le proxy de manière plus raisonnable
- Code de vérification->OCR

迷茫 · Answer

Vous pouvez d'abord utiliser PHP pour implémenter le robot et comprendre les principes. Curl peut aussi le faire, la langue n'est qu'un outil

天蓬老师 · Answer

Lisez un livre intitulé "Python Web Crawler".