Table des matières
Algorithme
Installez Beautiful Soup
Extraire les valeurs d'attribut
Exemple 1 : Extraire l'attribut href à l'aide de la méthode find() et des crochets
Sortie
Exemple 2 : utilisez attr pour rechercher des éléments avec des attributs spécifiques
Exemple 3 : utilisez la méthode find_all() pour rechercher toutes les occurrences d'un élément
Exemple 4 : Utilisation de select() pour rechercher des éléments via des sélecteurs CSS
Conclusion
Maison développement back-end Tutoriel Python Extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python

Extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python

Sep 10, 2023 pm 07:05 PM

使用Python中的Beautiful Soup提取属性值

Pour extraire les valeurs d'attribut avec Beautiful Soup, nous devons analyser le document HTML puis extraire les valeurs d'attribut requises. BeautifulSoup est une bibliothèque Python permettant d'analyser des documents HTML et XML. BeautifulSoup propose plusieurs façons de rechercher et de parcourir les arbres d'analyse pour extraire facilement les données des documents. Dans cet article, nous extrairons les valeurs d'attribut à l'aide de Beautiful Soup en Python.

Algorithme

Vous pouvez extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python en suivant l'algorithme donné ci-dessous.

  • Utilisez la classe BeautifulSoup de la bibliothèque bs4 pour analyser les documents HTML.

  • Utilisez la méthode BeautifulSoup appropriée (telle que find() ou find_all()) pour rechercher l'élément HTML qui contient l'attribut que vous souhaitez extraire.

  • Utilisez une instruction conditionnelle ou la méthode has_attr() pour vérifier si l'attribut existe sur l'élément.

  • Si l'attribut existe, extrayez sa valeur à l'aide de crochets ([]) et le nom de l'attribut comme clé.

  • Si la propriété n'existe pas, veuillez gérer l'erreur de manière appropriée.

Installez Beautiful Soup

Avant d'utiliser la bibliothèque Beautiful Soup, vous devez l'installer à l'aide du gestionnaire de packages Python, la commande pip. Pour installer Beautiful Soup, entrez les commandes suivantes dans le terminal ou l’invite de commande.

pip install beautifulsoup4
Copier après la connexion

Extraire les valeurs d'attribut

Pour extraire les valeurs d'attribut des balises HTML, nous devons d'abord utiliser BeautifulSoup pour analyser le document HTML. Utilisez ensuite la méthode Beautiful Soup pour extraire les valeurs d'attribut de balises spécifiques dans le document HTML.

Exemple 1 : Extraire l'attribut href à l'aide de la méthode find() et des crochets

Dans l'exemple ci-dessous, nous créons d'abord un document HTML et le transmettons sous forme de chaîne au constructeur Beautiful Soup avec l'analyseur de type html.parser. Ensuite, nous trouvons la balise "a" en utilisant la méthode find() de l'objet soupe. Cela renverra la première occurrence de la balise « a » dans le document HTML. Enfin, nous extrayons la valeur de l'attribut href de la balise "a" en utilisant la notation entre crochets. Cela renverra la valeur de l'attribut href sous forme de chaîne.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find the 'a' tag
a_tag = soup.find('a')

# Extract the value of the 'href' attribute
href_value = a_tag['href']

print(href_value)
Copier après la connexion

Sortie

https://www.google.com
Copier après la connexion

Exemple 2 : utilisez attr pour rechercher des éléments avec des attributs spécifiques

Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour trouver toutes les balises `a` avec l'attribut href. Le paramètre `attrs` est utilisé pour spécifier les attributs que nous recherchons. `{'href' : True}` spécifie que nous voulons rechercher des éléments avec un attribut href de n'importe quelle valeur.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
   <a href="https://www.python.org">Python</a>
   <a>No Href</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'a' tags with an 'href' attribute
a_tags_with_href = soup.find_all('a', attrs={'href': True})
for tag in a_tags_with_href:
   print(tag['href'])
Copier après la connexion

Sortie

https://www.google.com
https://www.python.org
Copier après la connexion

Exemple 3 : utilisez la méthode find_all() pour rechercher toutes les occurrences d'un élément

Parfois, vous souhaiterez peut-être rechercher toutes les occurrences d'éléments HTML sur une page Web. Vous pouvez utiliser la méthode find_all() pour y parvenir. Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour rechercher toutes les balises div avec un conteneur de classe. Nous parcourons ensuite chaque balise div et trouvons les balises h1 et p qu'elle contient.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'div' tags with class='container'
div_tags = soup.find_all('div', class_='container')
for div in div_tags:
   h1 = div.find('h1')
   p = div.find('p')
   print(h1.text, p.text)
Copier après la connexion

Sortie

Heading 1 Paragraph 1
Heading 2 Paragraph 2
Copier après la connexion

Exemple 4 : Utilisation de select() pour rechercher des éléments via des sélecteurs CSS

Dans l'exemple ci-dessous, nous utilisons la méthode select() pour trouver toutes les balises h1 à l'intérieur d'une balise div avec un conteneur de classe. Le sélecteur CSS 'div.container h1' est utilisé pour y parvenir. . est utilisé pour représenter les noms de classe et les espaces sont utilisés pour représenter les sélecteurs descendants.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'h1' tags inside a 'div' tag with class='container'
h1_tags = soup.select('div.container h1')
for h1 in h1_tags:
   print(h1.text)
Copier après la connexion

Sortie

Heading 1
Heading 2
Copier après la connexion

Conclusion

Dans cet article, nous avons expliqué comment extraire les valeurs d'attribut de documents HTML à l'aide de la bibliothèque Beautiful Soup en Python. En utilisant les méthodes fournies par BeautifulSoup, nous pouvons facilement extraire les données requises des documents HTML et XML.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment résoudre le problème des autorisations rencontré lors de la visualisation de la version Python dans le terminal Linux? Comment résoudre le problème des autorisations rencontré lors de la visualisation de la version Python dans le terminal Linux? Apr 01, 2025 pm 05:09 PM

Solution aux problèmes d'autorisation Lors de la visualisation de la version Python dans Linux Terminal Lorsque vous essayez d'afficher la version Python dans Linux Terminal, entrez Python ...

Comment enseigner les bases de la programmation novice en informatique dans le projet et les méthodes axées sur les problèmes dans les 10 heures? Comment enseigner les bases de la programmation novice en informatique dans le projet et les méthodes axées sur les problèmes dans les 10 heures? Apr 02, 2025 am 07:18 AM

Comment enseigner les bases de la programmation novice en informatique dans les 10 heures? Si vous n'avez que 10 heures pour enseigner à l'informatique novice des connaissances en programmation, que choisissez-vous d'enseigner ...

Comment copier efficacement la colonne entière d'une dataframe dans une autre dataframe avec différentes structures dans Python? Comment copier efficacement la colonne entière d'une dataframe dans une autre dataframe avec différentes structures dans Python? Apr 01, 2025 pm 11:15 PM

Lorsque vous utilisez la bibliothèque Pandas de Python, comment copier des colonnes entières entre deux frames de données avec différentes structures est un problème courant. Supposons que nous ayons deux dats ...

Comment éviter d'être détecté par le navigateur lors de l'utilisation de Fiddler partout pour la lecture de l'homme au milieu? Comment éviter d'être détecté par le navigateur lors de l'utilisation de Fiddler partout pour la lecture de l'homme au milieu? Apr 02, 2025 am 07:15 AM

Comment éviter d'être détecté lors de l'utilisation de FiddlereVerywhere pour les lectures d'homme dans le milieu lorsque vous utilisez FiddlereVerywhere ...

Que sont les expressions régulières? Que sont les expressions régulières? Mar 20, 2025 pm 06:25 PM

Les expressions régulières sont des outils puissants pour la correspondance des motifs et la manipulation du texte dans la programmation, améliorant l'efficacité du traitement de texte sur diverses applications.

Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Apr 01, 2025 pm 10:51 PM

Comment Uvicorn écoute-t-il en permanence les demandes HTTP? Uvicorn est un serveur Web léger basé sur ASGI. L'une de ses fonctions principales est d'écouter les demandes HTTP et de procéder ...

Quelles sont les bibliothèques Python populaires et leurs utilisations? Quelles sont les bibliothèques Python populaires et leurs utilisations? Mar 21, 2025 pm 06:46 PM

L'article traite des bibliothèques Python populaires comme Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask et Demandes, détaillant leurs utilisations dans le calcul scientifique, l'analyse des données, la visualisation, l'apprentissage automatique, le développement Web et H et H

Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Apr 01, 2025 pm 11:18 PM

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...

See all articles