Maison > développement back-end > Tutoriel Python > Pourquoi `re.findall()` renvoie-t-il une `TypeError : impossible d'utiliser un modèle de chaîne sur un objet de type octets` lors de l'extraction d'URL ?

Pourquoi `re.findall()` renvoie-t-il une `TypeError : impossible d'utiliser un modèle de chaîne sur un objet de type octets` lors de l'extraction d'URL ?

Susan Sarandon
Libérer: 2024-11-17 11:31:02
original
672 Les gens l'ont consulté

Why Does `re.findall()` Throw a `TypeError: Can't Use a String Pattern on a Bytes-Like Object` When Extracting URLs?

TypeError : impossible d'utiliser un modèle de chaîne sur un objet de type octets dans re.findall()

Lors de la tentative de récupération automatique URL d'une page Web, vous pouvez rencontrer l'erreur suivante :

TypeError: can't use a string pattern on a bytes-like object in re.findall()
Copier après la connexion

Dans votre code, vous utilisez re.findall() pour rechercher des correspondances pour une expression régulière. Cependant, lorsque vous essayez d'appliquer l'expression régulière au contenu HTML que vous avez récupéré, vous obtenez l'erreur.

Cause sous-jacente :

Le problème vient du le fait que le contenu HTML avec lequel vous travaillez est sous forme d'octets, alors que l'expression régulière que vous utilisez est sous forme de chaîne. L'expression régulière ne peut pas être appliquée directement à un objet de type octet.

Lösung :

Pour résoudre ce problème, vous devez convertir le contenu HTML en chaîne :

html = response.read().decode('utf-8')
Copier après la connexion

Cela décodera le contenu HTML de type octet en une chaîne, permettant à l'expression régulière d'être appliquée avec succès.

Une fois la conversion effectuée, vous pouvez continuer à utiliser l'expression régulière pour trouver le titre de la page Web. Le code corrigé devrait ressembler à ceci :

import urllib.request
import re

url = "http://www.google.com"
regex = r'<title>(,+?)</title>'
pattern = re.compile(regex)

with urllib.request.urlopen(url) as response:
   html = response.read().decode('utf-8')

title = re.findall(pattern, html)
print(title)
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal