Comment utiliser Mozilla Firefox dans Scrapy pour résoudre le problème de numérisation du code QR pour se connecter ?

王林
Libérer: 2023-06-22 21:50:16
original
949 Les gens l'ont consulté

Pour les robots d'exploration, explorer des sites Web qui nécessitent une connexion, un code de vérification ou une connexion par code de numérisation est un problème très gênant. Scrapy est un framework d'exploration très facile à utiliser en Python, mais lors du traitement des codes de vérification ou de la numérisation des codes QR pour se connecter, certaines mesures spéciales doivent être prises. En tant que navigateur courant, Mozilla Firefox propose une solution qui peut nous aider à résoudre ce problème.

Le module de base de Scrapy est tordu, qui ne prend en charge que les requêtes asynchrones, mais certains sites Web doivent utiliser des cookies et des sessions pour rester connectés, nous devons donc utiliser Mozilla Firefox pour gérer ces problèmes.

Tout d'abord, nous devons installer le navigateur Mozilla Firefox et le pilote Firefox correspondant afin de l'utiliser en Python. La commande d'installation est la suivante :

pip install selenium
Copier après la connexion

Ensuite, nous devons ajouter quelques paramètres au fichier settings.py du robot pour utiliser le navigateur Firefox pour scanner le code QR pour vous connecter. Voici un exemple de paramètre :

DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware':700,
'scrapy_selenium.SeleniumMiddleware':800,
}

SELENIUM_DRIVER_NAME = 'firefox'
SELENIUM_DRIVER_EXECUTABLE_PATH = which('geckodriver')
SELENIUM_BROWSER_EXECUTABLE_PATH = '/usr/bin/firefox'
Copier après la connexion

Nous pouvons le définir en fonction de notre propre système d'exploitation et du chemin d'installation de Firefox.

Ensuite, nous devons créer une classe Scrapy Spider personnalisée pour y utiliser le navigateur Firefox. Dans cette classe, nous devons définir certaines options pour le navigateur Firefox, comme indiqué ci-dessous :

from selenium import webdriver
from scrapy.selector import Selector
from scrapy.spiders import CrawlSpider
from scrapy.http import Request

class MySpider(CrawlSpider):
   name = 'myspider'

   def __init__(self):
      self.driver = webdriver.Firefox(executable_path='geckodriver', firefox_binary='/usr/bin/firefox')
      self.driver.set_window_size(1400, 700)
      self.driver.set_page_load_timeout(30)
      self.driver.set_script_timeout(30)

   def parse(self, response):
      # 网站首页处理代码
      pass
Copier après la connexion

Dans cette classe Spider personnalisée, nous utilisons la classe selenium.webdriver.Firefox pour créer un objet contrôleur de navigateur Firefox . L'objet contrôleur du navigateur Firefox est utilisé pour ouvrir la page d'accueil du site Web et peut également effectuer d'autres opérations selon les besoins.

Pour les sites Web qui nécessitent de scanner les codes QR pour se connecter, nous pouvons utiliser le navigateur Firefox pour identifier le code QR sur la page et attendre le résultat de la numérisation du code QR. Nous pouvons utiliser Selenium pour simuler le comportement des utilisateurs en Python afin de scanner le code QR et de nous connecter au site Web. Le code de connexion complet de l'analyse du code est le suivant :

def parse(self, response):
   self.driver.get(response.url)
   # 等待页面加载完成
   time.sleep(5)
   # 寻找二维码及其位置
   frame = self.driver.find_element_by_xpath('//*[@class="login-qr-code iframe-wrap"]//iframe')
   self.driver.switch_to.frame(frame)
   qr_code = self.driver.find_element_by_xpath('//*[@id="login-qr-code"]/img')
   position = qr_code.location
   size = qr_code.size

   while True:
      # 判断是否已经扫描了二维码,
      # 如果扫描了,登录,并跳出循环
      try:
         result = self.driver.find_element_by_xpath('//*[@class="login-qr-code-close"]')
         result.click()
         break
      except:
         pass

      # 如果没有扫描,等待并继续寻找
      time.sleep(5)


   # 登录后处理的代码
   pass
Copier après la connexion

Dans le code ci-dessus, nous utilisons d'abord la méthode self.driver.get() pour ouvrir la page d'accueil du site Web, puis utilisons le find_element_by_xpath( ) pour trouver l'élément de code QR, obtenir sa position et sa taille. Utilisez ensuite une boucle while pour attendre le résultat de la numérisation du code QR. S'il a été numérisé, cliquez sur le bouton de fermeture du code QR et sortez de la boucle. S'il n'y a pas d'analyse, attendez 5 secondes et poursuivez la recherche.

Lorsque les résultats de l'analyse du code QR sont disponibles, nous pouvons exécuter notre propre logique de connexion. La méthode de traitement spécifique dépend de la situation réelle du site Web.

En bref, lors de l'utilisation de Scrapy pour le développement de robots, si nous rencontrons un site Web qui nécessite une connexion et que le site Web utilise un code de vérification ou un code de numérisation pour se connecter, nous pouvons utiliser la méthode ci-dessus pour résoudre ce problème. problème. À l'aide des navigateurs Selenium et Firefox, nous pouvons simuler les opérations des utilisateurs, gérer les problèmes de connexion par code QR et obtenir les données requises.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal