Comment extraire le texte des balises HTML au format texte ?
L'acte d'extraire du texte d'un fichier HTML équivaut essentiellement à copier et coller le contenu d'un site Web dans le Bloc-notes. Cela peut paraître simple, mais ce ne sera pas si agréable si vous devez extraire du texte de millions de fichiers HTML (pages Web).
Explorons cet article pour mieux comprendre comment extraire le texte des balises HTML au format texte.
Extraire le texte des balises HTML
De nombreux éléments HTML peuvent être utilisés pour donner au texte une signification spécifique. Pour avoir plus d'idées sur l'extraction de texte à partir de balises HTML au format texte, regardons l'exemple suivant.
Exemple
Dans l'exemple suivant, nous exécutons un script pour extraire le texte des balises HTML.
<!DOCTYPE html> <html> <body> <script> function gettext(html){ var tempDivElement = document.createElement("div"); tempDivElement.innerHTML = html; return tempDivElement.textContent || tempDivElement.innerText || ""; } var sentence= "<div><h1 id="Welcome-to-Tutorialspoint">Welcome to Tutorialspoint</h1></div>"; document.write(gettext(sentence)); </script> </body> </html>
Lorsque le script s'exécutera, il générera une sortie composée des données obtenues à partir du script ci-dessus et l'affichera sur la page Web.
Exemple
Considérez l'exemple suivant, nous exécutons un script pour obtenir le texte des balises HTML.
<!DOCTYPE html> <html> <body> <script> var statement= "<div><h1 id="TutorialsPoint">TutorialsPoint</h1><p> is the Best E-Learning</p></div>"; var result = statement.replace(/<[^>]+>/g, ''); document.write(result) </script> </body> </html>
Lors de l'exécution du script ci-dessus, une fenêtre de sortie apparaîtra contenant le texte extrait en exécutant le script affiché sur la page Web.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

HTML convient aux débutants car il est simple et facile à apprendre et peut rapidement voir les résultats. 1) La courbe d'apprentissage de HTML est fluide et facile à démarrer. 2) Il suffit de maîtriser les balises de base pour commencer à créer des pages Web. 3) Flexibilité élevée et peut être utilisée en combinaison avec CSS et JavaScript. 4) Les ressources d'apprentissage riches et les outils modernes soutiennent le processus d'apprentissage.

HTML définit la structure Web, CSS est responsable du style et de la mise en page, et JavaScript donne une interaction dynamique. Les trois exercent leurs fonctions dans le développement Web et construisent conjointement un site Web coloré.

Anexampleofastartingtaginhtmlis, qui abinginsaparagraph.startingtagsaressentialtinhtmlastheyinitiateelements, définit les éventualités, et la faculté de réduction des pages et de la construction de la création.

WebDevelopmentReliesOnHTML, CSS, etjavascript: 1) HTMLSTRUCTURESCONTENT, 2) CSSSTYLESIT, et3) JavascriptAdddsInterActivity, Forming TheasisofmodernweBEBExperiences.

GiteEpages STATIQUE Le déploiement du site Web a échoué: 404 Dépannage des erreurs et résolution lors de l'utilisation de Gitee ...

L'algorithme adaptatif de la position de l'axe y pour la fonction d'annotation Web Cet article explorera comment implémenter des fonctions d'annotation similaires aux documents de mots, en particulier comment gérer l'intervalle entre les annotations ...

Pour obtenir l'effet de la diffusion et de l'élargissement des images environnantes après avoir cliqué sur l'image, de nombreuses conceptions Web doivent obtenir un effet interactif: cliquez sur une certaine image pour faire les environs ...

HTML, CSS et JavaScript sont les trois piliers du développement Web. 1. HTML définit la structure de la page Web et utilise des balises telles que, etc. 2. CSS contrôle le style de page Web, en utilisant des sélecteurs et des attributs tels que la couleur, la taille de la police, etc. 3. JavaScript réalise les effets dynamiques et l'interaction, par la surveillance des événements et les opérations DOM.
