Utilisation de XPath avec BeautifulSoup : une histoire de deux bibliothèques
La populaire bibliothèque BeautifulSoup fournit des méthodes pratiques pour analyser le HTML et récupérer des données. Cependant, il manque nativement de fonctionnalités XPath, malgré sa large utilisation dans le web scraping.
Pour utiliser les expressions XPath, envisagez d'adopter lxml, une bibliothèque alternative qui offre la compatibilité BeautifulSoup et la prise en charge complète de XPath 1.0. Voici comment utiliser XPath avec lxml :
from lxml import etree # Parse HTML tree = etree.parse(response, etree.HTMLParser()) # Search using XPath results = tree.xpath(xpathselector)
Si vous préférez éviter les dépendances externes, BeautifulSoup propose la prise en charge du sélecteur CSS. Cela permet des recherches plus concises en traduisant les instructions CSS en expressions XPath :
for cell in soup.select('table#foobar td.empformbody'): # Perform desired operations on table cells
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!