J'ai du mal depuis un moment maintenant à essayer d'obtenir la bonne regex pour la tâche suivante :
Je souhaite supprimer les données des balises de tableau dans un fichier HTML à l'aide de Python. Mon approche consiste à effectuer ce qui suit de manière récursive (stocker les lignes HTML entre les balises sous forme de chaînes) :
s = "
s = re.sub('<{1}( n'est pas '<' 也不是 '>').*>{1}', '', s)
Ma question est de savoir comment implémenter la partie grasse entre parenthèses. Merci. votre texte
Je l'ai essayé
import re test_str = '<td style="color:blue">Hello</td>' test_str = re.sub('<{1}^[<>].*>{1}','',test_str) print(test_str)
Vous pouvez voir que ma chaîne de test reste la même. Qu'ai-je fait de mal?
Le code ci-dessus que j'attends me donne test_str = "Bonjour", je vais réinjecter cela dans cette méthode, qui extrait ensuite le "", me donnant "Bonjour".
Pour annuler une classe de caractère, remplacez
^
放在[
之后。此外,您不需要为出现一次的字符指定{1}
.Cependant, veuillez noter qu'il est plus approprié d'utiliser un analyseur HTML dédié comme BeautifulSoup au lieu d'expressions régulières pour obtenir des données à partir de HTML.