Extraire du texte de fichiers HTML avec Python : un guide complet
Introduction
Extraire du texte à partir de fichiers HTML peut être essentiel pour diverses tâches de traitement et d’analyse de données. Bien que les expressions régulières puissent être réalisables pour des structures HTML simples, elles peuvent avoir des difficultés avec un code mal formé. Cet article explore l'alternative robuste - Beautiful Soup - et fournit une solution pratique qui supprime efficacement le JavaScript indésirable et interprète les entités HTML.
Utiliser Beautiful Soup
Pour extraire du texte à l'aide Beautiful Soup, suivez ces étapes :
Exemple de code
Voici un exemple de code complet :
from urllib.request import urlopen from bs4 import BeautifulSoup url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen(url).read() soup = BeautifulSoup(html, features="html.parser") for script in soup(["script", "style"]): script.extract() text = soup.get_text() lines = (line.strip() for line in text.splitlines()) chunks = (phrase.strip() for line in lines for phrase in line.split(" ")) text = '\n'.join(chunk for chunk in chunks if chunk) print(text)
Supplémentaire Options
Conclusion
Ce guide fournit une solution complète pour extraire du texte à partir de fichiers HTML à l'aide de BeautifulSoup. En supprimant les éléments indésirables et en interprétant les entités HTML, il génère efficacement une sortie en texte brut pour un traitement et une analyse ultérieurs.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!