Extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python-Tutoriel Python-php.cn

Table des matières

Algorithme

Installez Beautiful Soup

Extraire les valeurs d'attribut

Exemple 1 : Extraire l'attribut href à l'aide de la méthode find() et des crochets

Sortie

Exemple 2 : utilisez attr pour rechercher des éléments avec des attributs spécifiques

Exemple 3 : utilisez la méthode find_all() pour rechercher toutes les occurrences d'un élément

Exemple 4 : Utilisation de select() pour rechercher des éléments via des sélecteurs CSS

Conclusion

Maison

développement back-end

Tutoriel Python

Extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 10, 2023 pm 07:05 PM

使用Python中的Beautiful Soup提取属性值

Pour extraire les valeurs d'attribut avec Beautiful Soup, nous devons analyser le document HTML puis extraire les valeurs d'attribut requises. BeautifulSoup est une bibliothèque Python permettant d'analyser des documents HTML et XML. BeautifulSoup propose plusieurs façons de rechercher et de parcourir les arbres d'analyse pour extraire facilement les données des documents. Dans cet article, nous extrairons les valeurs d'attribut à l'aide de Beautiful Soup en Python.

Algorithme

Vous pouvez extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python en suivant l'algorithme donné ci-dessous.

Utilisez la classe BeautifulSoup de la bibliothèque bs4 pour analyser les documents HTML.
Utilisez la méthode BeautifulSoup appropriée (telle que find() ou find_all()) pour rechercher l'élément HTML qui contient l'attribut que vous souhaitez extraire.
Utilisez une instruction conditionnelle ou la méthode has_attr() pour vérifier si l'attribut existe sur l'élément.
Si l'attribut existe, extrayez sa valeur à l'aide de crochets ([]) et le nom de l'attribut comme clé.
Si la propriété n'existe pas, veuillez gérer l'erreur de manière appropriée.

Installez Beautiful Soup

Avant d'utiliser la bibliothèque Beautiful Soup, vous devez l'installer à l'aide du gestionnaire de packages Python, la commande pip. Pour installer Beautiful Soup, entrez les commandes suivantes dans le terminal ou l’invite de commande.

pip install beautifulsoup4

Copier après la connexion

Extraire les valeurs d'attribut

Pour extraire les valeurs d'attribut des balises HTML, nous devons d'abord utiliser BeautifulSoup pour analyser le document HTML. Utilisez ensuite la méthode Beautiful Soup pour extraire les valeurs d'attribut de balises spécifiques dans le document HTML.

Exemple 1 : Extraire l'attribut href à l'aide de la méthode find() et des crochets

Dans l'exemple ci-dessous, nous créons d'abord un document HTML et le transmettons sous forme de chaîne au constructeur Beautiful Soup avec l'analyseur de type html.parser. Ensuite, nous trouvons la balise "a" en utilisant la méthode find() de l'objet soupe. Cela renverra la première occurrence de la balise « a » dans le document HTML. Enfin, nous extrayons la valeur de l'attribut href de la balise "a" en utilisant la notation entre crochets. Cela renverra la valeur de l'attribut href sous forme de chaîne.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find the 'a' tag
a_tag = soup.find('a')

# Extract the value of the 'href' attribute
href_value = a_tag['href']

print(href_value)

Copier après la connexion

Sortie

https://www.google.com

Copier après la connexion

Exemple 2 : utilisez attr pour rechercher des éléments avec des attributs spécifiques

Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour trouver toutes les balises `a` avec l'attribut href. Le paramètre `attrs` est utilisé pour spécifier les attributs que nous recherchons. `{'href' : True}` spécifie que nous voulons rechercher des éléments avec un attribut href de n'importe quelle valeur.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
   <a href="https://www.python.org">Python</a>
   <a>No Href</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'a' tags with an 'href' attribute
a_tags_with_href = soup.find_all('a', attrs={'href': True})
for tag in a_tags_with_href:
   print(tag['href'])

Copier après la connexion

Sortie

https://www.google.com
https://www.python.org

Copier après la connexion

Exemple 3 : utilisez la méthode find_all() pour rechercher toutes les occurrences d'un élément

Parfois, vous souhaiterez peut-être rechercher toutes les occurrences d'éléments HTML sur une page Web. Vous pouvez utiliser la méthode find_all() pour y parvenir. Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour rechercher toutes les balises div avec un conteneur de classe. Nous parcourons ensuite chaque balise div et trouvons les balises h1 et p qu'elle contient.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'div' tags with class='container'
div_tags = soup.find_all('div', class_='container')
for div in div_tags:
   h1 = div.find('h1')
   p = div.find('p')
   print(h1.text, p.text)

Copier après la connexion

Sortie

Heading 1 Paragraph 1
Heading 2 Paragraph 2

Copier après la connexion

Exemple 4 : Utilisation de select() pour rechercher des éléments via des sélecteurs CSS

Dans l'exemple ci-dessous, nous utilisons la méthode select() pour trouver toutes les balises h1 à l'intérieur d'une balise div avec un conteneur de classe. Le sélecteur CSS 'div.container h1' est utilisé pour y parvenir. . est utilisé pour représenter les noms de classe et les espaces sont utilisés pour représenter les sélecteurs descendants.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'h1' tags inside a 'div' tag with class='container'
h1_tags = soup.select('div.container h1')
for h1 in h1_tags:
   print(h1.text)

Copier après la connexion

Sortie

Heading 1
Heading 2

Copier après la connexion

Conclusion

Dans cet article, nous avons expliqué comment extraire les valeurs d'attribut de documents HTML à l'aide de la bibliothèque Beautiful Soup en Python. En utilisant les méthodes fournies par BeautifulSoup, nous pouvons facilement extraire les données requises des documents HTML et XML.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7540

Tutoriel CakePHP

1380

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment résoudre le problème des autorisations rencontré lors de la visualisation de la version Python dans le terminal Linux? Apr 01, 2025 pm 05:09 PM

Solution aux problèmes d'autorisation Lors de la visualisation de la version Python dans Linux Terminal Lorsque vous essayez d'afficher la version Python dans Linux Terminal, entrez Python ...

Comment enseigner les bases de la programmation novice en informatique dans le projet et les méthodes axées sur les problèmes dans les 10 heures? Apr 02, 2025 am 07:18 AM

Comment enseigner les bases de la programmation novice en informatique dans les 10 heures? Si vous n'avez que 10 heures pour enseigner à l'informatique novice des connaissances en programmation, que choisissez-vous d'enseigner ...

Comment copier efficacement la colonne entière d'une dataframe dans une autre dataframe avec différentes structures dans Python? Apr 01, 2025 pm 11:15 PM

Lorsque vous utilisez la bibliothèque Pandas de Python, comment copier des colonnes entières entre deux frames de données avec différentes structures est un problème courant. Supposons que nous ayons deux dats ...

Comment éviter d'être détecté par le navigateur lors de l'utilisation de Fiddler partout pour la lecture de l'homme au milieu? Apr 02, 2025 am 07:15 AM

Comment éviter d'être détecté lors de l'utilisation de FiddlereVerywhere pour les lectures d'homme dans le milieu lorsque vous utilisez FiddlereVerywhere ...

Que sont les expressions régulières? Mar 20, 2025 pm 06:25 PM

Les expressions régulières sont des outils puissants pour la correspondance des motifs et la manipulation du texte dans la programmation, améliorant l'efficacité du traitement de texte sur diverses applications.

Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Apr 01, 2025 pm 10:51 PM

Comment Uvicorn écoute-t-il en permanence les demandes HTTP? Uvicorn est un serveur Web léger basé sur ASGI. L'une de ses fonctions principales est d'écouter les demandes HTTP et de procéder ...

Quelles sont les bibliothèques Python populaires et leurs utilisations? Mar 21, 2025 pm 06:46 PM

L'article traite des bibliothèques Python populaires comme Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask et Demandes, détaillant leurs utilisations dans le calcul scientifique, l'analyse des données, la visualisation, l'apprentissage automatique, le développement Web et H et H

Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Apr 01, 2025 pm 11:18 PM

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...

See all articles