首頁 > 後端開發 > Python教學 > 如何使用 Python 正規表示式從字串中刪除 HTML 標籤?

如何使用 Python 正規表示式從字串中刪除 HTML 標籤?

Patricia Arquette
發布: 2024-12-22 19:08:15
原創
952 人瀏覽過

How to Remove HTML Tags from a String Using Python Regular Expressions?

Python 中用正規表示式取代字串

問題:

輸入:

所需輸出:
this is a paragraph with<[1]> in between</[1]> and then there are cases ... where the<[99]> number ranges from 1-100</[99]>.
and there are many other lines in the txt files
with<[3]> such tags </[3]>
登入後複製

解決方案>
this is a paragraph with in between and then there are cases ... where the number ranges from 1-100.
and there are many other lines in the txt files
with such tags
登入後複製

使用正規表示式取代多個標籤Python,依照下列步驟操作:

說明:

import re

line = re.sub(r"<\/?\[\d+>]", "", line)
登入後複製

正規表示式r" ?[d >"] 匹配以任何開頭的標籤 結尾。問號字元? / 後面表示斜線是可選的。 sub 函數將每個匹配項替換為空字串。

註解版本:

附加註解:

line = re.sub(r"""
  (?x) # Use free-spacing mode.
  <    # Match a literal '<'
  /?   # Optionally match a '/'
  \[   # Match a literal '['
  \d+  # Match one or more digits
  >    # Match a literal '>'
""", "", line)
登入後複製

正則表達式建議使用類似的工具www.regular-expressions.info 了解語法並測試您的表達式。

避免硬編碼要替換的數字範圍(從 1 到 99)。
  • 了解正規表示式中的特殊字元稱為元字元。

以上是如何使用 Python 正規表示式從字串中刪除 HTML 標籤?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板