Maison > développement back-end > Tutoriel Python > Ce qui doit être installé pour le robot d'exploration Python

Ce qui doit être installé pour le robot d'exploration Python

藏色散人
Libérer: 2019-12-28 11:47:03
original
10949 Les gens l'ont consulté

Ce qui doit être installé pour le robot d'exploration Python

80 % des robots d'exploration dans le monde sont développés sur la base de Python. L'apprentissage des compétences des robots d'exploration peut fournir des sources de données importantes pour l'analyse ultérieure du Big Data, l'exploration, l'apprentissage automatique, etc.

Le robot d'exploration Python doit installer les bibliothèques associées :

Bibliothèques impliquées dans le robot d'exploration Python :

Bibliothèque de requête, bibliothèque d'analyse, référentiel, bibliothèque d'outils

1. Bibliothèque de requêtes : urllib/re/requests

(1) urllib/re est la bibliothèque fournie avec python par défaut et peut être vérifiée par la commande suivante :

Aucun message d'erreur n'est affiché, indiquant que l'environnement est normal

(2) demande l'installation

2.1 Ouvrez CMD, entrez

pip3 install requests
Copier après la connexion

2.2 Attendez l'installation et vérifiez

(3) Installation de Selenium (pilote le navigateur pour le comportement d'accès au site Web)

3.1 Ouvrez CMD et entrez

pip3 install selenium
Copier après la connexion

3.2 Installer Chromedriver

Site Web : https://npm.taobao.org/

Décompressez le package compressé téléchargé et placez l'exe dans le chemin D:Python3.6.0Scripts

Tant qu'il est dans la variable PATH

3.3 Une fois l'installation terminée, vérifiez

et appuyez sur Entrée pour faire apparaître le chrome interface du navigateur

3.4 Installer d'autres navigateurs

Navigateur sans interface phantomjs

URL de téléchargement : http://phantomjs.org/

Une fois le téléchargement terminé, décompressez-le et mettez le répertoire entier dans D:Python3.6.0Scripts, ajoutez le chemin du répertoire bin à la variable PATH

Vérification :

Ouvrir CMD

phantomjs
console.log('phantomjs')

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get('http://www.baidu.com')
driver.page_source
Copier après la connexion

2 . Bibliothèque d'analyse :

2.1 lxml (XPATH)

Ouvrez CMD

pip3 install lxml
Copier après la connexion

ou téléchargez-la depuis https://pypi.python.org, par exemple, lxml. -4.1.1-cp36-cp36m-win_amd64.whl ( md5), téléchargez d'abord le fichier whl

pip3 install 文件名.whl
Copier après la connexion

2.2 beautifulsoup

Ouvrez CMD, vous devez installer lxml

pip3 install beautifulsoup4
Copier après la connexion

Vérification

python
from bs4 import BeautifulSoup
soup = BeautifulSoup(&#39;<html></html>&#39;,&#39;lxml&#39;)
Copier après la connexion

2.3 pyquery (similaire à jquery) Syntaxe)

Ouvrir CMD

pip3 install pyquery
Copier après la connexion

Vérifier les résultats de l'installation

python
from pyquery import PyQuery as pq
doc = pq(&#39;<html>hi</html>&#39;)
result = doc(&#39;html&#39;).text()
result
Copier après la connexion

3. Dépôt

3.1 pymysql (opération MySQL, base de données relationnelle)

Installation :

pip3 install pymysql
Copier après la connexion

Test post-installation :

3.2 pymongo (fonctionnement de MongoDB, clé-valeur)

Installation

pip3 install pymongo
Copier après la connexion

Vérification

python
import pymongo
client = pymongo.MongoClient(&#39;localhost&#39;)
db = client[&#39;testdb&#39;]
db[&#39;table&#39;].insert({&#39;name&#39;:&#39;bob&#39;})
db[&#39;table&#39;].find_one({&#39;name&#39;:&#39;bob&#39;})
Copier après la connexion

3.3 redis (crawler distribué, maintenir la file d'attente d'exploration)

Installation :

pip3 install redis
Copier après la connexion

Vérification :

4. Bibliothèque d'outils

4.1 flask (bibliothèque WEB)

pip3 install flask
Copier après la connexion

4.2 Django (système de maintenance distribué sur chenilles)

pip3 install django
Copier après la connexion

4.3 jupyter (exécuté sur la page Web Le Bloc-notes sur le client prend en charge le markdown et peut exécuter du code sur la page Web)

pip3 install jupyter
Copier après la connexion

Vérification :

Ouvrir CMD

jupyter notebook
Copier après la connexion

et vous pouvez créer un bloc-notes et des blocs de code directement sur la page Web et des blocs Markdown, prendre en charge l'impression

[Recommandations associées]

1 bibliothèque de robots d'exploration Python et outils associés<.>

2.

Tutoriel de démarrage avec les robots d'exploration Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal