Reguläre Ausdrücke mit AND in Python

Question

Ich kämpfe schon seit einiger Zeit damit, den richtigen regulären Ausdruck für die folgende Aufgabe zu finden: Ich möchte mit Python Daten aus Tabellen-Tags in einer HTML-Datei entfernen. Mein Ansatz hierfür besteht darin, Folgendes rekursiv auszuführen (die HTML-Zeilen zwischen den Tags als Zeichenfolgen zu speichern): s="gewünschter Inhalt" weist die Zeichenfolge s einer Zeichenfolge zu, die alles zwischen „“ entfernt. s=re.sub('{1}','',s) Wiederholen Sie diesen Vorgang, bis Sie s="gewünschten Inhalt" übrig haben. Meine Frage ist, wie man den fett gedruckten Teil in Klammern umsetzt. Danke. Deine SMS an mich

P粉348088995 · Answer

要否定字符类，应将 ^ 放在 [ 之后。此外，您不需要为出现一次的字符指定 {1}。

test_str = re.sub('<[^<>]*>', '', test_str)

但是，请注意，使用像 BeautifulSoup 这样的专用 HTML 解析器而不是正则表达式来从 HTML 获取数据更为合适。