


Extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python
Pour extraire les valeurs d'attribut avec Beautiful Soup, nous devons analyser le document HTML puis extraire les valeurs d'attribut requises. BeautifulSoup est une bibliothèque Python permettant d'analyser des documents HTML et XML. BeautifulSoup propose plusieurs façons de rechercher et de parcourir les arbres d'analyse pour extraire facilement les données des documents. Dans cet article, nous extrairons les valeurs d'attribut à l'aide de Beautiful Soup en Python.
Algorithme
Vous pouvez extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python en suivant l'algorithme donné ci-dessous.
Utilisez la classe BeautifulSoup de la bibliothèque bs4 pour analyser les documents HTML.
Utilisez la méthode BeautifulSoup appropriée (telle que find() ou find_all()) pour rechercher l'élément HTML qui contient l'attribut que vous souhaitez extraire.
Utilisez une instruction conditionnelle ou la méthode has_attr() pour vérifier si l'attribut existe sur l'élément.
Si l'attribut existe, extrayez sa valeur à l'aide de crochets ([]) et le nom de l'attribut comme clé.
Si la propriété n'existe pas, veuillez gérer l'erreur de manière appropriée.
Installez Beautiful Soup
Avant d'utiliser la bibliothèque Beautiful Soup, vous devez l'installer à l'aide du gestionnaire de packages Python, la commande pip. Pour installer Beautiful Soup, entrez les commandes suivantes dans le terminal ou l’invite de commande.
pip install beautifulsoup4
Extraire les valeurs d'attribut
Pour extraire les valeurs d'attribut des balises HTML, nous devons d'abord utiliser BeautifulSoup pour analyser le document HTML. Utilisez ensuite la méthode Beautiful Soup pour extraire les valeurs d'attribut de balises spécifiques dans le document HTML.
Exemple 1 : Extraire l'attribut href à l'aide de la méthode find() et des crochets
Dans l'exemple ci-dessous, nous créons d'abord un document HTML et le transmettons sous forme de chaîne au constructeur Beautiful Soup avec l'analyseur de type html.parser. Ensuite, nous trouvons la balise "a" en utilisant la méthode find() de l'objet soupe. Cela renverra la première occurrence de la balise « a » dans le document HTML. Enfin, nous extrayons la valeur de l'attribut href de la balise "a" en utilisant la notation entre crochets. Cela renverra la valeur de l'attribut href sous forme de chaîne.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <a href="https://www.google.com">Google</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find the 'a' tag a_tag = soup.find('a') # Extract the value of the 'href' attribute href_value = a_tag['href'] print(href_value)
Sortie
https://www.google.com
Exemple 2 : utilisez attr pour rechercher des éléments avec des attributs spécifiques
Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour trouver toutes les balises `a` avec l'attribut href. Le paramètre `attrs` est utilisé pour spécifier les attributs que nous recherchons. `{'href' : True}` spécifie que nous voulons rechercher des éléments avec un attribut href de n'importe quelle valeur.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <a href="https://www.google.com">Google</a> <a href="https://www.python.org">Python</a> <a>No Href</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'a' tags with an 'href' attribute a_tags_with_href = soup.find_all('a', attrs={'href': True}) for tag in a_tags_with_href: print(tag['href'])
Sortie
https://www.google.com https://www.python.org
Exemple 3 : utilisez la méthode find_all() pour rechercher toutes les occurrences d'un élément
Parfois, vous souhaiterez peut-être rechercher toutes les occurrences d'éléments HTML sur une page Web. Vous pouvez utiliser la méthode find_all() pour y parvenir. Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour rechercher toutes les balises div avec un conteneur de classe. Nous parcourons ensuite chaque balise div et trouvons les balises h1 et p qu'elle contient.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <div class="container"> <h1>Heading 1</h1> <p>Paragraph 1</p> </div> <div class="container"> <h1>Heading 2</h1> <p>Paragraph 2</p> </div> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'div' tags with class='container' div_tags = soup.find_all('div', class_='container') for div in div_tags: h1 = div.find('h1') p = div.find('p') print(h1.text, p.text)
Sortie
Heading 1 Paragraph 1 Heading 2 Paragraph 2
Exemple 4 : Utilisation de select() pour rechercher des éléments via des sélecteurs CSS
Dans l'exemple ci-dessous, nous utilisons la méthode select() pour trouver toutes les balises h1 à l'intérieur d'une balise div avec un conteneur de classe. Le sélecteur CSS 'div.container h1' est utilisé pour y parvenir. . est utilisé pour représenter les noms de classe et les espaces sont utilisés pour représenter les sélecteurs descendants.
from bs4 import BeautifulSoup # Parse the HTML document html_doc = """ <html> <body> <div class="container"> <h1>Heading 1</h1> <p>Paragraph 1</p> </div> <div class="container"> <h1>Heading 2</h1> <p>Paragraph 2</p> </div> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') # Find all 'h1' tags inside a 'div' tag with class='container' h1_tags = soup.select('div.container h1') for h1 in h1_tags: print(h1.text)
Sortie
Heading 1 Heading 2
Conclusion
Dans cet article, nous avons expliqué comment extraire les valeurs d'attribut de documents HTML à l'aide de la bibliothèque Beautiful Soup en Python. En utilisant les méthodes fournies par BeautifulSoup, nous pouvons facilement extraire les données requises des documents HTML et XML.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Solution aux problèmes d'autorisation Lors de la visualisation de la version Python dans Linux Terminal Lorsque vous essayez d'afficher la version Python dans Linux Terminal, entrez Python ...

Comment enseigner les bases de la programmation novice en informatique dans les 10 heures? Si vous n'avez que 10 heures pour enseigner à l'informatique novice des connaissances en programmation, que choisissez-vous d'enseigner ...

Lorsque vous utilisez la bibliothèque Pandas de Python, comment copier des colonnes entières entre deux frames de données avec différentes structures est un problème courant. Supposons que nous ayons deux dats ...

Comment éviter d'être détecté lors de l'utilisation de FiddlereVerywhere pour les lectures d'homme dans le milieu lorsque vous utilisez FiddlereVerywhere ...

Les expressions régulières sont des outils puissants pour la correspondance des motifs et la manipulation du texte dans la programmation, améliorant l'efficacité du traitement de texte sur diverses applications.

Comment Uvicorn écoute-t-il en permanence les demandes HTTP? Uvicorn est un serveur Web léger basé sur ASGI. L'une de ses fonctions principales est d'écouter les demandes HTTP et de procéder ...

L'article traite des bibliothèques Python populaires comme Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask et Demandes, détaillant leurs utilisations dans le calcul scientifique, l'analyse des données, la visualisation, l'apprentissage automatique, le développement Web et H et H

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...
