Table des matières
Extraire les titres des pages Web
Méthode 1 : Utiliser les bibliothèques Request et Beautiful Soup
Exemple
Sortie
Méthode 2 : utilisez urllib et BeautifulSoup pour extraire les titres
Méthode 3 : Extraire le titre à l'aide de sélénium et BeautifulSoup
Méthode 4 : Utiliser des expressions régulières pour extraire des titres
Conclusion
Maison développement back-end Tutoriel Python Extraire les titres des pages Web à l'aide de Python

Extraire les titres des pages Web à l'aide de Python

Aug 31, 2023 pm 12:45 PM
python 网页 提取

Extraire les titres des pages Web à laide de Python

En Python, nous pouvons extraire des titres de pages Web à l'aide du web scraping. Le Web scraping est le processus d'extraction de données d'un site Web ou d'une page Web. Dans cet article, nous supprimerons le titre d'une page Web à l'aide des bibliothèques Requests et BeautifulSoup en Python.

Extraire les titres des pages Web

Méthode 1 : Utiliser les bibliothèques Request et Beautiful Soup

Nous pouvons utiliser les bibliothèques de requêtes Python et Beautiful Soup pour extraire les titres des pages Web. La bibliothèque de requêtes est utilisée pour envoyer des requêtes HTTP aux sites Web et obtenir leurs réponses. Nous utilisons ensuite l'objet de réponse pour extraire le contenu HTML de la page Web.

Exemple

Dans l'exemple ci-dessous, nous extrayons le titre de la page d'accueil de Wikipédia. Nous utilisons la bibliothèque de requêtes pour envoyer une requête GET à l'URL de la page Wikipédia et stockons l'objet de réponse dans la variable de réponse.

Nous pouvons ensuite utiliser l'objet Beautiful Soup pour analyser le contenu HTML reçu dans l'objet de réponse et extraire la balise de titre de la page Web à l'aide de la propriété soup.title. Nous pouvons ensuite extraire l'attribut string et le stocker dans la variable title.

import requests
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')
title = soup.title.string

print(title)
Copier après la connexion

Sortie

Wikipedia
Copier après la connexion
Copier après la connexion
Copier après la connexion
Copier après la connexion

Méthode 2 : utilisez urllib et BeautifulSoup pour extraire les titres

Les méthodes

urllib et BeautifulSoup sont utilisées pour extraire le titre d'une page Web en ouvrant l'URL et en récupérant le contenu HTML de la page Web à l'aide de la bibliothèque urllib. Créez un objet BeautifulSoup avec le contenu HTML et utilisez la propriété 'soup.title' pour extraire la balise de titre de la page.

Exemple

Dans l'exemple ci-dessous, nous utilisons la bibliothèque urllib pour ouvrir une URL et récupérer le contenu HTML de la page web. Nous utilisons ensuite l'analyseur 'html.parser' pour créer un objet BeautifulSoup en utilisant le contenu HTML de la page Web.

Nous pouvons ensuite extraire la balise titre de la page web à l'aide de l'attribut 'soup.title'. Enfin, nous utilisons l'attribut "string" pour extraire le contenu de la chaîne de la balise title et le stocker dans la variable "title". Ensuite, nous imprimons le titre de la page Web sur la console.

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
html_page = urlopen(url)
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)
Copier après la connexion

Sortie

Wikipedia
Copier après la connexion
Copier après la connexion
Copier après la connexion
Copier après la connexion

Méthode 3 : Extraire le titre à l'aide de sélénium et BeautifulSoup

Les méthodes Selenium et BeautifulSoup sont utilisées pour extraire les titres des pages Web en ouvrant l'URL à l'aide de la bibliothèque Selenium et en récupérant le contenu HTML de la page Web. Créez un Chrome Webdriver et utilisez-le pour accéder aux pages Web. Récupérez le contenu HTML de la page Web à l'aide de l'attribut "page_source" du webdriver. Créez un objet BeautifulSoup avec le contenu HTML et utilisez la propriété 'soup.title' pour extraire la balise de titre de la page.

Exemple

Dans l'exemple ci-dessous, nous utilisons la bibliothèque Selenium pour ouvrir une URL et récupérer le contenu HTML de la page Web. Nous créons un Chrome Webdriver et l'utilisons pour accéder aux pages Web. Nous récupérons ensuite le contenu HTML de la page Web à l'aide de l'attribut "page_source" du pilote Web.

Nous utilisons l'analyseur "html.parser" pour créer un objet BeautifulSoup en utilisant le contenu HTML de la page Web. On peut ensuite extraire la balise title de la page web grâce à la propriété "soup.title". Enfin, nous utilisons l'attribut "string" pour extraire le contenu de la chaîne de la balise title et le stocker dans la variable "title". Ensuite, nous imprimons le titre de la page Web sur la console.

from selenium import webdriver
from bs4 import BeautifulSoup

url = 'https://www.wikipedia.org/'
driver = webdriver.Chrome()
driver.get(url)

html_page = driver.page_source
soup = BeautifulSoup(html_page, 'html.parser')
title = soup.title.string

print(title)

driver.quit()
Copier après la connexion

Sortie

Wikipedia
Copier après la connexion
Copier après la connexion
Copier après la connexion
Copier après la connexion

Méthode 4 : Utiliser des expressions régulières pour extraire des titres

La méthode d'expression régulière est utilisée pour extraire les en-têtes des pages Web en utilisant la bibliothèque de requêtes pour envoyer une requête GET à l'URL et stocker l'objet de réponse. Le contenu HTML de la page Web est ensuite décodé et stocké dans des variables. Définissez un modèle d'expression régulière pour correspondre à la balise de titre d'une page Web. La méthode Search d'un modèle d'expression régulière trouve la première occurrence du modèle dans le contenu HTML de la page Web. La méthode group(1) peut être utilisée pour extraire le contenu de la chaîne du premier groupe correspondant afin d'obtenir le titre de la page Web.

Exemple

Dans l'exemple ci-dessous, nous utilisons des expressions régulières pour extraire le titre d'une page Web. Nous utilisons la bibliothèque de requêtes pour envoyer une requête GET à une URL et stockons l'objet de réponse dans la variable "response".

Nous décodons ensuite le contenu HTML de la page Web à l'aide de l'encodage « utf-8 » et le stockons dans la variable « html_content ». Nous définissons un modèle d'expression régulière pour correspondre à la balise de titre d'une page Web.

Nous utilisons la méthode "search" d'un modèle d'expression régulière pour trouver la première occurrence du modèle dans le contenu HTML de la page Web. Nous utilisons la méthode "group(1)" pour extraire le contenu de la chaîne du premier groupe correspondant et le stocker dans la variable "title". Ensuite, nous imprimons le titre de la page Web sur la console.

import requests

url = 'https://www.wikipedia.org/'
response = requests.get(url)
html_content = response.content.decode('utf-8')

title_pattern = re.compile('(.+?)')
match = title_pattern.search(html_content)
title = match.group(1)

print(title)
Copier après la connexion

Sortie

Wikipedia
Copier après la connexion
Copier après la connexion
Copier après la connexion
Copier après la connexion

Conclusion

Dans cet article, nous avons discuté du processus d'extraction de titres de pages Web à l'aide de requêtes et de la bibliothèque Beautiful Soup en Python. La bibliothèque de requêtes est utilisée pour envoyer des requêtes HTTP aux URL de sites Web et obtenir du contenu HTML en réponse. La bibliothèque Beautiful Soup est ensuite utilisée pour analyser le contenu HTML et extraire les en-têtes requis du contenu HTML.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Article chaud

Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Tags d'article chaud

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment télécharger Deepseek Xiaomi Comment télécharger Deepseek Xiaomi Feb 19, 2025 pm 05:27 PM

Comment télécharger Deepseek Xiaomi

Quels sont les avantages et les inconvénients des modèles ? Quels sont les avantages et les inconvénients des modèles ? May 08, 2024 pm 03:51 PM

Quels sont les avantages et les inconvénients des modèles ?

Google AI annonce Gemini 1.5 Pro et Gemma 2 pour les développeurs Google AI annonce Gemini 1.5 Pro et Gemma 2 pour les développeurs Jul 01, 2024 am 07:22 AM

Google AI annonce Gemini 1.5 Pro et Gemma 2 pour les développeurs

Pour seulement 250$, le directeur technique de Hugging Face vous apprend étape par étape comment peaufiner Llama 3 Pour seulement 250$, le directeur technique de Hugging Face vous apprend étape par étape comment peaufiner Llama 3 May 06, 2024 pm 03:52 PM

Pour seulement 250$, le directeur technique de Hugging Face vous apprend étape par étape comment peaufiner Llama 3

Partagez plusieurs frameworks de projets open source .NET liés à l'IA et au LLM Partagez plusieurs frameworks de projets open source .NET liés à l'IA et au LLM May 06, 2024 pm 04:43 PM

Partagez plusieurs frameworks de projets open source .NET liés à l'IA et au LLM

Un guide complet sur le débogage et l'analyse des fonctions Golang Un guide complet sur le débogage et l'analyse des fonctions Golang May 06, 2024 pm 02:00 PM

Un guide complet sur le débogage et l'analyse des fonctions Golang

Comment lui demandez-vous Deepseek Comment lui demandez-vous Deepseek Feb 19, 2025 pm 04:42 PM

Comment lui demandez-vous Deepseek

Comment enregistrer la fonction d'évaluation Comment enregistrer la fonction d'évaluation May 07, 2024 am 01:09 AM

Comment enregistrer la fonction d'évaluation

See all articles