Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana untuk mengalih keluar Tag HTML daripada Rentetan Menggunakan Ungkapan Biasa Python?

Bagaimana untuk mengalih keluar Tag HTML daripada Rentetan Menggunakan Ungkapan Biasa Python?

Patricia Arquette
Lepaskan: 2024-12-22 19:08:15
asal
952 orang telah melayarinya

How to Remove HTML Tags from a String Using Python Regular Expressions?

Penggantian Rentetan dengan Ungkapan Biasa dalam Python

Soalan:

Bagaimana saya boleh menggantikan HTML tag dalam rentetan menggunakan ungkapan biasa dalam Python?

Input:

this is a paragraph with<[1]> in between</[1]> and then there are cases ... where the<[99]> number ranges from 1-100</[99]>.
and there are many other lines in the txt files
with<[3]> such tags </[3]>
Salin selepas log masuk

Output yang Diingini:

this is a paragraph with in between and then there are cases ... where the number ranges from 1-100.
and there are many other lines in the txt files
with such tags
Salin selepas log masuk

Penyelesaian:

Untuk menggantikan berbilang teg menggunakan ungkapan biasa dalam Python, ikut ini langkah:

import re

line = re.sub(r"<\/?\[\d+>]", "", line)
Salin selepas log masuk

Penjelasan:

Ungkapan biasa r""] sepadan dengan mana-mana teg yang bermula dengan <, diikuti dengan sebarang bilangan digit dan berakhir dengan >. Watak tanda tanya ? selepas / menunjukkan bahawa garis miring adalah pilihan. Subfungsi menggantikan setiap padanan dengan rentetan kosong.

Versi Diulas:

line = re.sub(r"""
  (?x) # Use free-spacing mode.
  <    # Match a literal '<'
  /?   # Optionally match a '/'
  \[   # Match a literal '['
  \d+  # Match one or more digits
  >    # Match a literal '>'
""", "", line)
Salin selepas log masuk

Nota Tambahan:

  • Ungkapan biasa boleh menjadi rumit, jadi anda disyorkan untuk menggunakan alat seperti www.regular-expressions.info untuk belajar tentang sintaks dan uji ungkapan anda.
  • Elakkan pengekodan keras julat nombor untuk diganti dari 1 hingga 99.
  • Fahami aksara khas dalam ungkapan biasa yang dikenali sebagai metacharacters.

Atas ialah kandungan terperinci Bagaimana untuk mengalih keluar Tag HTML daripada Rentetan Menggunakan Ungkapan Biasa Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan