Maison > interface Web > tutoriel HTML > le corps du texte

Comment lire le contenu du texte dans un fichier HTML

下次还敢
Libérer: 2024-04-11 13:57:24
original
496 Les gens l'ont consulté

Pour lire le contenu du texte dans un fichier HTML, effectuez les étapes suivantes : Charger le fichier HTML Analyser le HTML Extraire le texte à l'aide de l'attribut text ou de la méthode get_text() Facultatif : Nettoyer le texte (supprimer les espaces, les caractères spéciaux et convertir en minuscule) Afficher le texte (Imprimer, écrire dans des fichiers, etc.)

Comment lire le contenu du texte dans un fichier HTML

Comment lire le contenu du texte dans les fichiers HTML

Pour extraire le contenu du texte des fichiers HTML, vous pouvez suivre les étapes suivantes :

1. Charger des fichiers HTML

<code class="python">import requests

url = 'https://example.com'
response = requests.get(url)</code>
Copier après la connexion

2. Analyser HTML

<code class="python">from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')</code>
Copier après la connexion

3. Extraire le contenu du texte

Il existe deux façons d'extraire le contenu du texte :

  • Utilisez le text attribut : <code>text 属性:提取 HTML 标签内的所有文本,包括标签本身。
<code class="python">text = soup.text</code>
Copier après la connexion
  • 使用 get_text()Extraire le contenu du texte dans la balise HTML Tout le texte, y compris l'étiquette elle-même.
<code class="python">text = soup.get_text()</code>
Copier après la connexion

Utilisez la méthode get_text() : Extrayez le texte dans la balise HTML, mais ignorez la balise elle-même.

<code class="python">text = text.replace(' ', '')</code>
Copier après la connexion
    4. Nettoyer le contenu du texte (facultatif)
  • Si vous devez nettoyer davantage le contenu du texte, vous pouvez effectuer les opérations suivantes :
  • Supprimer les caractères vides :
<code class="python">import string

text = text.translate(str.maketrans('', '', string.punctuation))</code>
Copier après la connexion
  • Supprimer les caractères spéciaux caractères :
<code class="python">text = text.lower()</code>
Copier après la connexion

Convertir en minuscules :

<code class="python">print(text)</code>
Copier après la connexion
    5. Sortir le contenu du texte
  • Vous pouvez sortir le contenu du texte de plusieurs manières :
  • Imprimer sur la console :
<code class="python">with open('output.txt', 'w') as f:
    f.write(text)</code>
Copier après la connexion
🎜🎜Écrire un fichier : 🎜🎜🎜rrreee

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal