


Doit maîtriser pour améliorer vos compétences ! Résumé des conseils sur les sélecteurs lxml et des sélecteurs pris en charge !
Un incontournable pour progresser ! Conseils sur l'utilisation des sélecteurs lxml et une liste des sélecteurs pris en charge !
Vue d'ensemble :
Les sélecteurs sont un outil très important lors du grattage ou de l'extraction de données Web. En Python, il existe de nombreuses bibliothèques de sélecteurs parmi lesquelles choisir, parmi lesquelles lxml est une puissante bibliothèque de sélecteurs. Cet article présentera les compétences d'utilisation du sélecteur lxml et une liste des sélecteurs pris en charge pour aider les lecteurs à améliorer encore l'efficacité de l'extraction de données.
1. Introduction au sélecteur lxml
lxml est une bibliothèque d'analyseur basée sur Python qui fournit des sélecteurs XPath extensibles et des sélecteurs CSS pour l'analyse des documents HTML et XML. Le principal avantage du sélecteur lxml est qu’il est rapide, puissant et adapté au traitement de fichiers volumineux. Avant d'utiliser le sélecteur lxml, vous devez d'abord installer la bibliothèque lxml. Vous pouvez l'installer via la commande suivante :
pip install lxml
2. L'utilisation de base du sélecteur lxml
L'utilisation de base du sélecteur lxml est très simple. il suffit d'importer le module correspondant et de créer un objet sélecteur, puis d'utiliser l'objet sélecteur pour extraire les données.
Tout d'abord, importez la bibliothèque lxml et le module correspondant :
from lxml import etree
Ensuite, analysez le document HTML ou XML et créez un objet sélecteur :
# 解析HTML文档 html = ''' <html> <body> <div class="container"> <h1 id="标题">标题1</h1> <p class="content">内容1</p> </div> <div class="container"> <h1 id="标题">标题2</h1> <p class="content">内容2</p> </div> </body> </html> ''' # 创建选择器对象 selector = etree.HTML(html)
Ensuite, vous pouvez utiliser l'objet sélecteur pour extraire les données. Le sélecteur lxml prend en charge les sélecteurs XPath et les sélecteurs CSS. Leur utilisation sera présentée ci-dessous.
- XPath Selector
XPath (XML Path Language) est un langage utilisé pour naviguer et extraire des informations dans des documents XML ou HTML. Le sélecteur lxml prend en charge les sélecteurs XPath, grâce auxquels les éléments à extraire peuvent être localisés avec précision.
La syntaxe XPath courante comprend :
- Éléments de sélection :
/
,//
,[]
/
、//
、[]
- 选择属性:
@
- 选择文本:
text()
- 选择父节点:
..
以下是几个XPath选择器的示例:
# 提取h1标签的文本 titles = selector.xpath('//h1/text()') print(titles) # 输出:['标题1', '标题2'] # 提取p标签的属性class值 classes = selector.xpath('//p/@class') print(classes) # 输出:['content', 'content']
- CSS选择器
CSS(Cascading Style Sheets)选择器是一种用于在HTML文档中选择元素的语言。lxml选择器也支持CSS选择器,通过CSS选择器可以通过标签、类、ID等方式进行元素的定位。
常见的CSS选择器包括:
- 选择标签:标签名
- 选择类:
.类名
- 选择ID:
#ID名
- 选择父子关系:空格
- 选择相邻兄弟关系:
+
- 选择后续兄弟关系:
~
以下是几个CSS选择器的示例:
# 提取h1标签的文本 titles = selector.cssselect('h1') for title in titles: print(title.text) # 输出:标题1、标题2 # 提取p标签的属性class值 classes = selector.cssselect('p.content') for p in classes: print(p.get('class')) # 输出:content、content
三、lxml选择器支持的选择器一览
lxml选择器支持的选择器包括XPath选择器和CSS选择器,下面是一些常用的选择器:
-
XPath选择器:
-
/
:选择根节点 -
//
:选择所有节点 -
[]
:条件选择 -
@
:选择属性 -
text()
:选择文本 -
..
:选择父节点
-
-
CSS选择器:
- 标签选择器:标签名
- 类选择器:
.类名
- ID选择器:
#ID名
- 父子关系:空格
- 相邻兄弟关系:
+
- 后续兄弟关系:
~
Attributs de sélection :
@
Sélectionnez le texte :
text()
Sélectionnez le nœud parent : ..
rrreee
- CSS Selector🎜🎜🎜Le sélecteur CSS (Cascading Style Sheets) est un langage utilisé pour sélectionner des éléments dans des documents HTML. Le sélecteur lxml prend également en charge les sélecteurs CSS, grâce auxquels les éléments peuvent être positionnés via des balises, des classes, des identifiants, etc. 🎜🎜Les sélecteurs CSS courants incluent : 🎜🎜🎜Sélectionner la balise : nom de la balise 🎜🎜Sélectionner la classe :
.Nom de la classe
🎜🎜Sélectionner l'ID : #ID nom
🎜🎜Sélectionner le parent- relation enfant : Espace 🎜🎜Sélectionnez la relation fraternelle adjacente : +
🎜🎜Sélectionnez la relation fraternelle suivante : ~
🎜🎜🎜Voici plusieurs exemples de sélecteurs CSS : 🎜rrreee 🎜3. Liste des sélecteurs pris en charge par le sélecteur lxml 🎜🎜 Les sélecteurs pris en charge par le sélecteur lxml incluent le sélecteur XPath et le sélecteur CSS Voici quelques sélecteurs couramment utilisés : 🎜🎜🎜🎜Sélecteur XPath : 🎜🎜🎜/
: Sélectionnez la racine. node🎜🎜//
: Sélectionnez tous les nœuds🎜🎜[]
: Sélection conditionnelle🎜🎜@
: Sélectionnez les attributs 🎜🎜text( )
: Sélectionnez le texte 🎜🎜..
: Sélectionnez le nœud parent 🎜🎜🎜🎜🎜Sélecteur CSS : 🎜🎜🎜 Sélecteur de balise : nom de la balise 🎜🎜Sélecteur de classe : .Nom de la classe
🎜🎜Sélecteur d'ID : #ID nom
🎜🎜Relation père-enfant : espace🎜🎜Relation fraternelle adjacente : +🎜🎜Confrérie suivante : <code>~
🎜🎜🎜🎜🎜En plus des sélecteurs couramment utilisés ci-dessus, lxml prend également en charge davantage de sélecteurs, tels que les sélecteurs de position, les sélecteurs d'attributs, etc., les lecteurs peuvent consulter la documentation officielle de lxml pour une étude approfondie et compréhension. 🎜🎜Conclusion : 🎜🎜lxml selector est une puissante bibliothèque de sélecteurs qui prend en charge les sélecteurs XPath et CSS, adaptée à l'analyse et à l'extraction de données de documents HTML et XML. Cet article présente l'utilisation de base des sélecteurs lxml et des sélecteurs couramment utilisés. Nous espérons que les lecteurs pourront mieux maîtriser et appliquer les sélecteurs lxml grâce à l'apprentissage et à la pratique, et améliorer l'efficacité et la précision de l'extraction des données. 🎜
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Partage de conseils Win11 : une astuce pour éviter la connexion au compte Microsoft Windows 11 est le dernier système d'exploitation lancé par Microsoft, avec un nouveau style de conception et de nombreuses fonctions pratiques. Cependant, pour certains utilisateurs, devoir se connecter à leur compte Microsoft à chaque démarrage du système peut être un peu ennuyeux. Si vous en faites partie, autant essayer les conseils suivants, qui vous permettront d'éviter de vous connecter avec un compte Microsoft et d'accéder directement à l'interface de bureau. Tout d’abord, nous devons créer un compte local dans le système pour nous connecter au lieu d’un compte Microsoft. L'avantage de faire cela est

Nous créons et éditons souvent des tableaux dans Excel, mais en tant que novice qui vient d'entrer en contact avec le logiciel, comment utiliser Excel pour créer des tableaux n'est pas aussi simple que pour nous. Ci-dessous, nous réaliserons quelques exercices sur certaines étapes de création de tables que les novices, c'est-à-dire les débutants, doivent maîtriser. Nous espérons que cela sera utile à ceux qui en ont besoin. Un exemple de formulaire pour les débutants est présenté ci-dessous : voyons comment le remplir ! 1. Il existe deux méthodes pour créer un nouveau document Excel. Vous pouvez cliquer avec le bouton droit de la souris sur un emplacement vide du fichier [Bureau] - [Nouveau] - [xls]. Vous pouvez également [Démarrer]-[Tous les programmes]-[Microsoft Office]-[Microsoft Excel 20**] 2. Double-cliquez sur notre nouvel ex

En langage C, il représente un pointeur qui stocke l'adresse d'autres variables ; & représente l'opérateur d'adresse, qui renvoie l'adresse mémoire d'une variable. Les conseils pour l'utilisation des pointeurs incluent la définition des pointeurs, le déréférencement des pointeurs et la garantie que les pointeurs pointent vers des adresses valides. Les conseils pour l'utilisation des opérateurs d'adresse incluent l'obtention d'adresses variables et le retour de l'adresse du premier élément du tableau lors de l'obtention de l'adresse d'un élément du tableau ; . Un exemple pratique démontrant l'utilisation d'opérateurs de pointeur et d'adresse pour inverser une chaîne.

VSCode (Visual Studio Code) est un éditeur de code open source développé par Microsoft. Il possède des fonctions puissantes et une prise en charge riche des plug-ins, ce qui en fait l'un des outils préférés des développeurs. Cet article fournira un guide d'introduction aux débutants pour les aider à maîtriser rapidement les compétences d'utilisation de VSCode. Dans cet article, nous présenterons comment installer VSCode, les opérations d'édition de base, les touches de raccourci, l'installation du plug-in, etc., et fournirons aux lecteurs des exemples de code spécifiques. 1. Installez d'abord VSCode, nous avons besoin

Des astuces Win11 révélées : Comment contourner la connexion au compte Microsoft Récemment, Microsoft a lancé un nouveau système d'exploitation Windows11, qui a attiré une large attention. Par rapport aux versions précédentes, Windows 11 a apporté de nombreux nouveaux ajustements en termes de conception d'interface et d'améliorations fonctionnelles, mais il a également suscité une certaine controverse. Le point le plus frappant est qu'il oblige les utilisateurs à se connecter au système avec un compte Microsoft. . Certains utilisateurs sont peut-être plus habitués à se connecter avec un compte local et ne souhaitent pas lier leurs informations personnelles à un compte Microsoft.

Titre : Conseils de programmation PHP : Comment accéder à une page Web en 3 secondes Dans le développement Web, nous rencontrons souvent des situations dans lesquelles nous devons passer automatiquement à une autre page dans un certain laps de temps. Cet article explique comment utiliser PHP pour implémenter des techniques de programmation permettant d'accéder à une page en 3 secondes et fournit des exemples de code spécifiques. Tout d'abord, le principe de base du saut de page est réalisé via le champ Location dans l'en-tête de la réponse HTTP. En définissant ce champ, le navigateur peut accéder automatiquement à la page spécifiée. Vous trouverez ci-dessous un exemple simple montrant comment utiliser P

Dans le développement d’un programme de langage Go, les compétences en reconstruction fonctionnelle sont un élément très important. En optimisant et en refactorisant les fonctions, vous pouvez non seulement améliorer la qualité et la maintenabilité du code, mais également améliorer les performances et la lisibilité du programme. Cet article approfondira les techniques de reconstruction de fonctions dans le langage Go, combinées à des exemples de code spécifiques, pour aider les lecteurs à mieux comprendre et appliquer ces techniques. 1. Exemple de code 1 : Extraire les fragments de code en double. Dans le développement réel, nous rencontrons souvent des fragments de code réutilisés. À l'heure actuelle, nous pouvons envisager d'extraire le code répété en tant que fonction indépendante.

Explication détaillée des conseils d'utilisation du symbole √ dans la zone Word. Dans le travail et les études quotidiens, nous avons souvent besoin d'utiliser Word pour l'édition et la composition de documents. Parmi eux, le symbole √ est un symbole courant, qui signifie généralement « droit ». L'utilisation du symbole √ dans la zone Word peut nous aider à présenter les informations plus clairement et à améliorer le professionnalisme et la beauté du document. Ensuite, nous présenterons en détail les compétences nécessaires pour utiliser le symbole √ dans la zone Mot, dans l'espoir d'aider tout le monde. 1. Insérez le symbole √ Dans Word, il existe de nombreuses façons d'insérer le symbole √. un
