Pour lire le contenu du texte dans un fichier HTML, effectuez les étapes suivantes : Charger le fichier HTML Analyser le HTML Extraire le texte à l'aide de l'attribut text ou de la méthode get_text() Facultatif : Nettoyer le texte (supprimer les espaces, les caractères spéciaux et convertir en minuscule) Afficher le texte (Imprimer, écrire dans des fichiers, etc.)
Comment lire le contenu du texte dans les fichiers HTML
Pour extraire le contenu du texte des fichiers HTML, vous pouvez suivre les étapes suivantes :
1. Charger des fichiers HTML
<code class="python">import requests url = 'https://example.com' response = requests.get(url)</code>
2. Analyser HTML
<code class="python">from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser')</code>
3. Extraire le contenu du texte
Il existe deux façons d'extraire le contenu du texte :
text attribut : <code>text
属性:提取 HTML 标签内的所有文本,包括标签本身。<code class="python">text = soup.text</code>
get_text()
Extraire le contenu du texte dans la balise HTML Tout le texte, y compris l'étiquette elle-même. <code class="python">text = soup.get_text()</code>
Utilisez la méthode get_text()
: Extrayez le texte dans la balise HTML, mais ignorez la balise elle-même.
<code class="python">text = text.replace(' ', '')</code>
<code class="python">import string text = text.translate(str.maketrans('', '', string.punctuation))</code>
<code class="python">text = text.lower()</code>
Convertir en minuscules :
<code class="python">print(text)</code>
<code class="python">with open('output.txt', 'w') as f: f.write(text)</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!