Heim > Backend-Entwicklung > Python-Tutorial > Wie entferne ich HTML-Tags aus einer Zeichenfolge mithilfe regulärer Python-Ausdrücke?

Wie entferne ich HTML-Tags aus einer Zeichenfolge mithilfe regulärer Python-Ausdrücke?

Patricia Arquette
Freigeben: 2024-12-22 19:08:15
Original
911 Leute haben es durchsucht

How to Remove HTML Tags from a String Using Python Regular Expressions?

String-Ersetzung mit regulären Ausdrücken in Python

Frage:

Wie kann ich HTML ersetzen? Tags innerhalb einer Zeichenfolge mithilfe regulärer Ausdrücke in Python?

Eingaben:

this is a paragraph with<[1]> in between</[1]> and then there are cases ... where the<[99]> number ranges from 1-100</[99]>.
and there are many other lines in the txt files
with<[3]> such tags </[3]>
Nach dem Login kopieren

Gewünschte Ausgabe:

this is a paragraph with in between and then there are cases ... where the number ranges from 1-100.
and there are many other lines in the txt files
with such tags
Nach dem Login kopieren

Lösung:

Um mehrere Tags mithilfe regulärer Ausdrücke in Python zu ersetzen, befolgen Sie diese Schritte Schritte:

import re

line = re.sub(r"<\/?\[\d+>]", "", line)
Nach dem Login kopieren

Erklärung:

Der reguläre Ausdruck r""] stimmt mit jedem Tag überein, das mit < beginnt und gefolgt wird durch eine beliebige Anzahl von Ziffern und endet mit >. Das Fragezeichenzeichen ? nach dem / gibt an, dass der Schrägstrich optional ist. Die Unterfunktion ersetzt jede Übereinstimmung durch eine leere Zeichenfolge.

Kommentierte Version:

line = re.sub(r"""
  (?x) # Use free-spacing mode.
  <    # Match a literal '<'
  /?   # Optionally match a '/'
  \[   # Match a literal '['
  \d+  # Match one or more digits
  >    # Match a literal '>'
""", "", line)
Nach dem Login kopieren

Zusätzliche Hinweise:

  • Regular Expressions können komplex sein, daher wird empfohlen, ein Tool wie www.regular-expressions.info zu verwenden, um mehr darüber zu erfahren Syntax und testen Sie Ihre Ausdrücke.
  • Vermeiden Sie eine harte Codierung der zu ersetzenden Zahlenbereiche von 1 bis 99.
  • Verstehen Sie die Sonderzeichen in regulären Ausdrücken, die als Metazeichen bekannt sind.

Das obige ist der detaillierte Inhalt vonWie entferne ich HTML-Tags aus einer Zeichenfolge mithilfe regulärer Python-Ausdrücke?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage