Table des matières
Utilisez la bibliothèque re
Utilisation de la bibliothèque BeautifulSoup
Maison interface Web Questions et réponses frontales Comment supprimer les balises HTML en Python

Comment supprimer les balises HTML en Python

Apr 27, 2023 pm 04:39 PM

Si vous traitez fréquemment du contenu Web, vous devrez peut-être explorer des pages Web et en extraire du contenu textuel. Cependant, les balises et les informations de style dans le code HTML peuvent rendre le traitement du texte assez difficile. Dans ce cas, le langage de programmation Python fournit des fonctions et bibliothèques utiles pour supprimer les balises HTML, vous permettant ainsi de traiter et d'utiliser le texte plus facilement.

Python fournit deux bibliothèques couramment utilisées pour supprimer les balises HTML : re et BeautifulSoup. Ici, nous allons apprendre comment supprimer les balises HTML en utilisant respectivement ces deux bibliothèques.

Utilisez la bibliothèque re

La bibliothèque re (expression régulière) de Python possède de puissantes capacités de traitement de chaînes. Nous pouvons utiliser certaines méthodes de cette bibliothèque pour supprimer les balises HTML. Plus précisément, nous pouvons utiliser la fonction re.sub() pour remplacer les balises HTML. Voyons un exemple :

import re

def remove_tags(text):
    TAG_RE = re.compile(r'<[^>]+>')
    return TAG_RE.sub('', text)

html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>'
print(remove_tags(html))
Copier après la connexion

Résultat :

Test Parse me!
Copier après la connexion
Copier après la connexion

Dans le code ci-dessus, la fonction re.compile() est utilisée pour créer un objet d'expression régulière en utilisant '<1+>' balises. Nous passons ensuite cet objet d'expression régulière en paramètre à la fonction re.sub(), qui remplace toutes les balises correspondantes par des chaînes vides. Enfin, nous appelons la fonction avec le texte dont les balises HTML ont été supprimées.

Bien qu'il puisse suffire d'utiliser la bibliothèque re pour traiter du texte HTML simple, si vous traitez du texte HTML complexe, lorsque vous commencerez à envisager de traiter les styles CSS et les scripts JavaScript, vous constaterez que le traitement devient plus difficile. Dans ce cas, vous pouvez utiliser la bibliothèque BeautifulSoup.

Utilisation de la bibliothèque BeautifulSoup

La bibliothèque BeautifulSoup facilite le traitement du texte HTML et est plus flexible que la bibliothèque re. BeautifulSoup vous aide à analyser le texte HTML et vous permet de sélectionner des éléments spécifiques tels que des balises, des classes, etc. Vous pouvez l'utiliser pour supprimer toutes les balises, puis extraire le contenu du texte.

Voici un exemple :

from bs4 import BeautifulSoup

def remove_tags(text):
    soup = BeautifulSoup(text, 'html.parser')
    return soup.get_text()

html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>'
print(remove_tags(html))
Copier après la connexion

Sortie :

Test Parse me!
Copier après la connexion
Copier après la connexion

Dans le code ci-dessus, nous transmettons le texte HTML à la fonction BeautifulSoup() pour l'analyse. Ensuite, utilisez la méthode soupe.get_text() pour extraire le contenu du texte en ignorant les balises HTML.

Résumé

Que vous utilisiez la bibliothèque re ou la bibliothèque BeautifulSoup, Python propose de nombreuses méthodes pour supprimer les balises HTML. Si vous avez affaire à du texte HTML simple, utilisez la bibliothèque re. Pour du texte HTML plus complexe, utilisez la bibliothèque BeautifulSoup, qui facilitera grandement le traitement. Quelle que soit la méthode que vous choisissez, vous devez être familier avec les expressions régulières et comprendre la syntaxe de la bibliothèque que vous avez choisie.


  1. >

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Qu'est-ce que l'utilisation Effecte? Comment l'utilisez-vous pour effectuer des effets secondaires? Qu'est-ce que l'utilisation Effecte? Comment l'utilisez-vous pour effectuer des effets secondaires? Mar 19, 2025 pm 03:58 PM

L'article traite de l'utilisation Effecte dans React, un crochet pour gérer les effets secondaires comme la récupération des données et la manipulation DOM dans les composants fonctionnels. Il explique l'utilisation, les effets secondaires courants et le nettoyage pour éviter des problèmes comme les fuites de mémoire.

Comment fonctionne l'algorithme de réconciliation React? Comment fonctionne l'algorithme de réconciliation React? Mar 18, 2025 pm 01:58 PM

L'article explique l'algorithme de réconciliation de React, qui met à jour efficacement le DOM en comparant les arbres DOM virtuels. Il traite des avantages de la performance, des techniques d'optimisation et des impacts sur l'expérience utilisateur. Compte de charge: 159

Quelles sont les fonctions d'ordre supérieur en JavaScript, et comment peuvent-ils être utilisés pour écrire du code plus concis et réutilisable? Quelles sont les fonctions d'ordre supérieur en JavaScript, et comment peuvent-ils être utilisés pour écrire du code plus concis et réutilisable? Mar 18, 2025 pm 01:44 PM

Les fonctions d'ordre supérieur dans JavaScript améliorent la concision du code, la réutilisabilité, la modularité et les performances par abstraction, modèles communs et techniques d'optimisation.

Comment fonctionne le currying en JavaScript et quels sont ses avantages? Comment fonctionne le currying en JavaScript et quels sont ses avantages? Mar 18, 2025 pm 01:45 PM

L'article traite du curry dans JavaScript, une technique transformant les fonctions mulguments en séquences de fonctions à argument unique. Il explore la mise en œuvre du currying, des avantages tels que des applications partielles et des utilisations pratiques, améliorant le code

Comment connectez-vous les composants React au magasin Redux à l'aide de Connect ()? Comment connectez-vous les composants React au magasin Redux à l'aide de Connect ()? Mar 21, 2025 pm 06:23 PM

L'article discute de la connexion des composants React à Redux Store à l'aide de Connect (), expliquant MapStateToproprop, MapDispatchToprops et des impacts de performances.

Qu'est-ce que UseContext? Comment l'utilisez-vous pour partager l'état entre les composants? Qu'est-ce que UseContext? Comment l'utilisez-vous pour partager l'état entre les composants? Mar 19, 2025 pm 03:59 PM

L'article explique UseContext dans React, qui simplifie la gestion de l'État en évitant le forage des accessoires. Il traite des avantages tels que les améliorations centralisées de l'État et des performances grâce à des redevances réduites.

Comment empêchez-vous le comportement par défaut dans les gestionnaires d'événements? Comment empêchez-vous le comportement par défaut dans les gestionnaires d'événements? Mar 19, 2025 pm 04:10 PM

L'article discute de la prévention des comportements par défaut dans les gestionnaires d'événements à l'aide de la méthode empêchée dedEfault (), de ses avantages tels que une expérience utilisateur améliorée et des problèmes potentiels tels que les problèmes d'accessibilité.

Quels sont les avantages et les inconvénients des composants contrôlés et incontrôlés? Quels sont les avantages et les inconvénients des composants contrôlés et incontrôlés? Mar 19, 2025 pm 04:16 PM

L'article traite des avantages et des inconvénients des composants contrôlés et incontrôlés dans la réaction, en se concentrant sur des aspects tels que la prévisibilité, la performance et les cas d'utilisation. Il conseille les facteurs à considérer lors du choix entre eux.

See all articles