首頁 > 後端開發 > Python教學 > 從網頁中提取文字時如何解決「TypeError:無法在 re.findall() 中的類似位元組物件上使用字串模式」?

從網頁中提取文字時如何解決「TypeError:無法在 re.findall() 中的類似位元組物件上使用字串模式」?

Mary-Kate Olsen
發布: 2024-11-25 02:41:11
原創
793 人瀏覽過

How to Resolve

TypeError: 在 re.findall()中的類似位元組物件上使用字串模式

嘗試使用正規表示式擷取文字時在Python中,您可能會遇到錯誤「TypeError:無法在re.findall()中的在位元組類別物件上使用字串模式」。當您使用字串正規表示式模式搜尋類似位元組的物件時,會發生此錯誤,這在處理網頁時經常會遇到。

要解決此問題,需要將類似位元組的物件解碼為應用正規表示式搜尋之前的字串。在提供的程式碼中:

import urllib.request
import re

url = "http://www.google.com"
regex = r'<title>(,+?)</title>'
pattern  = re.compile(regex)

with urllib.request.urlopen(url) as response:
   html = response.read().decode('utf-8') # Decode the bytes-like object

title = re.findall(pattern, html)
print(title)
登入後複製

透過使用 .decode('utf-8') 解碼 html 變量,我們將其轉換為可以由正規表示式模式處理的 Unicode 字串。這將使程式碼成功提取網頁標題。

以上是從網頁中提取文字時如何解決「TypeError:無法在 re.findall() 中的類似位元組物件上使用字串模式」?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板