从网页中提取文本时如何解决'TypeError：无法在 re.findall() 中的类似字节对象上使用字符串模式”？-Python教程-PHP中文网

从网页中提取文本时如何解决'TypeError：无法在 re.findall() 中的类似字节对象上使用字符串模式”？

Mary-Kate Olsen

发布： 2024-11-25 02:41:11

原创

904 人浏览过

How to Resolve

TypeError: 在 re.findall() 中的类似字节对象上使用字符串模式

尝试使用正则表达式提取文本时在Python中，您可能会遇到错误“TypeError：无法在re.findall()中的字节类对象上使用字符串模式”。当您使用字符串正则表达式模式搜索类似字节的对象时，会发生此错误，这在处理网页时经常遇到。

要解决此问题，需要将类似字节的对象解码为应用正则表达式搜索之前的字符串。在提供的代码中：

import urllib.request
import re

url = "http://www.google.com"
regex = r'<title>(,+?)</title>'
pattern  = re.compile(regex)

with urllib.request.urlopen(url) as response:
   html = response.read().decode('utf-8') # Decode the bytes-like object

title = re.findall(pattern, html)
print(title)

登录后复制

通过使用 .decode('utf-8') 解码 html 变量，我们将其转换为可以由正则表达式模式处理的 Unicode 字符串。这将使代码成功提取网页标题。

以上是从网页中提取文本时如何解决'TypeError：无法在 re.findall() 中的类似字节对象上使用字符串模式”？的详细内容。更多信息请关注PHP中文网其他相关文章！