TypeError : utilisation d'un modèle de chaîne sur un objet de type octets dans re.findall()
Lors de la tentative d'extraction de texte à l'aide d'expressions régulières en Python, vous pouvez rencontrer l'erreur « TypeError : impossible d'utiliser un modèle de chaîne sur un objet de type octets dans re.findall() ». Cette erreur se produit lorsque vous utilisez un modèle d'expression régulière de chaîne pour rechercher un objet de type octets, ce qui est souvent rencontré lorsque vous travaillez avec des pages Web.
Pour résoudre ce problème, il est nécessaire de décoder l'objet de type octets en un chaîne avant d’appliquer la recherche regex. Dans le code fourni :
import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read().decode('utf-8') # Decode the bytes-like object title = re.findall(pattern, html) print(title)
En décodant la variable html à l'aide de .decode('utf-8'), nous la convertissons en une chaîne Unicode qui peut être traitée par le modèle regex. Cela permettra au code d'extraire avec succès le titre de la page Web.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!