Pour extraire les valeurs d'attribut avec Beautiful Soup, nous devons analyser le document HTML puis extraire les valeurs d'attribut requises. BeautifulSoup est une bibliothèque Python permettant d'analyser des documents HTML et XML. BeautifulSoup propose plusieurs façons de rechercher et de parcourir les arbres d'analyse pour extraire facilement les données des documents. Dans cet article, nous extrairons les valeurs d'attribut à l'aide de Beautiful Soup en Python.
Vous pouvez extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python en suivant l'algorithme donné ci-dessous.
Utilisez la classe BeautifulSoup de la bibliothèque bs4 pour analyser les documents HTML.
Utilisez la méthode BeautifulSoup appropriée (telle que find() ou find_all()) pour rechercher l'élément HTML qui contient l'attribut que vous souhaitez extraire.
Utilisez une instruction conditionnelle ou la méthode has_attr() pour vérifier si l'attribut existe sur l'élément.
Si l'attribut existe, extrayez sa valeur à l'aide de crochets ([]) et le nom de l'attribut comme clé.
Si la propriété n'existe pas, veuillez gérer l'erreur de manière appropriée.
Avant d'utiliser la bibliothèque Beautiful Soup, vous devez l'installer à l'aide du gestionnaire de packages Python, la commande pip. Pour installer Beautiful Soup, entrez les commandes suivantes dans le terminal ou l’invite de commande.
pip install beautifulsoup4
Pour extraire les valeurs d'attribut des balises HTML, nous devons d'abord utiliser BeautifulSoup pour analyser le document HTML. Utilisez ensuite la méthode Beautiful Soup pour extraire les valeurs d'attribut de balises spécifiques dans le document HTML.
Dans l'exemple ci-dessous, nous créons d'abord un document HTML et le transmettons sous forme de chaîne au constructeur Beautiful Soup avec l'analyseur de type html.parser. Ensuite, nous trouvons la balise "a" en utilisant la méthode find() de l'objet soupe. Cela renverra la première occurrence de la balise « a » dans le document HTML. Enfin, nous extrayons la valeur de l'attribut href de la balise "a" en utilisant la notation entre crochets. Cela renverra la valeur de l'attribut href sous forme de chaîne.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <a href="https://www.google.com">Google</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find the 'a' tag a_tag = soup.find('a') # Extract the value of the 'href' attribute href_value = a_tag['href'] print(href_value)
https://www.google.com
Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour trouver toutes les balises `a` avec l'attribut href. Le paramètre `attrs` est utilisé pour spécifier les attributs que nous recherchons. `{'href' : True}` spécifie que nous voulons rechercher des éléments avec un attribut href de n'importe quelle valeur.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <a href="https://www.google.com">Google</a> <a href="https://www.python.org">Python</a> <a>No Href</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'a' tags with an 'href' attribute a_tags_with_href = soup.find_all('a', attrs={'href': True}) for tag in a_tags_with_href: print(tag['href'])
https://www.google.com https://www.python.org
Parfois, vous souhaiterez peut-être rechercher toutes les occurrences d'éléments HTML sur une page Web. Vous pouvez utiliser la méthode find_all() pour y parvenir. Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour rechercher toutes les balises div avec un conteneur de classe. Nous parcourons ensuite chaque balise div et trouvons les balises h1 et p qu'elle contient.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <div class="container"> <h1>Heading 1</h1> <p>Paragraph 1</p> </div> <div class="container"> <h1>Heading 2</h1> <p>Paragraph 2</p> </div> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'div' tags with class='container' div_tags = soup.find_all('div', class_='container') for div in div_tags: h1 = div.find('h1') p = div.find('p') print(h1.text, p.text)
Heading 1 Paragraph 1 Heading 2 Paragraph 2
Dans l'exemple ci-dessous, nous utilisons la méthode select() pour trouver toutes les balises h1 à l'intérieur d'une balise div avec un conteneur de classe. Le sélecteur CSS 'div.container h1' est utilisé pour y parvenir. . est utilisé pour représenter les noms de classe et les espaces sont utilisés pour représenter les sélecteurs descendants.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <div class="container"> <h1>Heading 1</h1> <p>Paragraph 1</p> </div> <div class="container"> <h1>Heading 2</h1> <p>Paragraph 2</p> </div> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'h1' tags inside a 'div' tag with class='container' h1_tags = soup.select('div.container h1') for h1 in h1_tags: print(h1.text)
Heading 1 Heading 2
Dans cet article, nous avons expliqué comment extraire les valeurs d'attribut de documents HTML à l'aide de la bibliothèque Beautiful Soup en Python. En utilisant les méthodes fournies par BeautifulSoup, nous pouvons facilement extraire les données requises des documents HTML et XML.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!