Comment analyser du HTML avec lxml-tutoriel HTML-php.cn

Maison

interface Web

tutoriel HTML

Comment analyser du HTML avec lxml

高洛峰

Mar 12, 2017 pm 05:51 PM

Cet article présente la méthode d'analyse HTML avec lxml

Démontrez d'abord un exemple de code pour obtenir un lien de page :

#coding=utf-8
from lxml import etree
html = &#39;&#39;&#39;
<html>
　　<head>
　　　　<meta name="content-type" content="text/html; charset=utf-8" />
　　　　<title>友情链接查询 - 站长工具</title>
　　　　<!-- uRj0Ak8VLEPhjWhg3m9z4EjXJwc -->
　　　　<meta name="Keywords" content="友情链接查询" />
　　　　<meta name="Description" content="友情链接查询" />
　　</head>
　　<body>
　　　　<h1 class="heading">Top News</h1>
　　　　<p style="font-size: 200%">World News only on this page</p>
　　　　Ah, and here&#39;s some more text, by the way.
　　　　<p>... and this is a parsed fragment ...</p>
　　　　<a href="http://www.cydf.org.cn/" rel="nofollow" target="_blank">青少年发展基金会</a> 
　　　　<a href="http://www.4399.com/flash/32979.htm" target="_blank">洛克王国</a> 
　　　　<a href="http://www.4399.com/flash/35538.htm" target="_blank">奥拉星</a> 
　　　　<a href="http://game.3533.com/game/" target="_blank">手机游戏</a>
　　　　<a href="http://game.3533.com/tupian/" target="_blank">手机壁纸</a>
　　　　<a href="http://www.4399.com/" target="_blank">4399小游戏</a> 
　　　　<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>
　　</body>
</html>
&#39;&#39;&#39;
page = etree.HTML(html.lower().decode(&#39;utf-8&#39;))
hrefs = page.xpath(u"//a")
for href in hrefs:
　　print href.attrib

Copier après la connexion

Le résultat imprimé est :

{'href' : 'http://www.cydf.org.cn/', 'target' : '_blank', 'rel' : 'nofollow'}
{'href' : 'http://www.4399.com/flash/32979.htm', 'cible' : '_blank'}
{'href' : 'http://www.4399. com /flash/35538.htm', 'cible' : '_blank'>
{'href' : 'http://game.3533.com/game/', 'cible' : '_blank'}
{'href' : 'http://game.3533.com/tupian/', 'target' : '_blank'}
{'href' : 'http://www.4399.com/', ' target' : '_blank'}
{'href' : 'http://www.91wan.com/', 'target' : '_blank'}

Si vous souhaitez obtenirLe contenu entre

pour href dans hrefs :

　print href.text

Le résultat est :

Fondation pour le développement de la jeunesse
Rock Kingdom
Aola Star
Jeux mobiles
Fonds d'écran mobiles
4399 mini-jeux
91wan Games

Choses à noter avant d'utiliser lxml : d'abord Assurez-vous que le code HTML a été décodé par utf-8, c'est-à-dire code = html.decode('utf-8', 'ignore'), sinon des erreurs d'analyse se produiront. Parce que le chinois est codé en utf-8 et devient ensuite une forme comme « /u2541 », lxml considérera que la balise se termine lorsqu'elle rencontre « / ».

XPATH utilise essentiellement une méthode de type arborescence de répertoires pour décrire le chemin dans le document XML. Par exemple, utilisez « / » comme séparation entre les niveaux supérieur et inférieur. Le premier "/" représente le nœud racine du document (notez qu'il ne fait pas référence au nœud de balise le plus externe du document, mais au document lui-même). Par exemple, pour un fichier HTML, le nœud le plus externe doit être "/html".

Pour localiser une certaine balise HTML , vous pouvez utiliser un chemin absolu similaire au chemin du fichier, tel que page.xpath(u"/html/body/p"), qui trouvez le nœud du corps Trouvez toutes les balises p ; vous pouvez également utiliser un chemin relatif similaire au chemin du fichier, vous pouvez l'utiliser comme ceci : page.xpath(u"//p"), il trouvera toutes les balises p dans l'ensemble code html :

Nouvelles du monde uniquement sur cette page

　 Ah, et voici un peu plus de texte, au fait.
　　

.. . et ceci est un fragment analysé ...

Remarque : XPATH ne renvoie pas nécessairement le seul nœud, mais tous les nœuds qui remplissent les conditions. Comme indiqué ci-dessus, tant qu'il s'agit de la balise p dans le corps, qu'il s'agisse du nœud de premier niveau, de deuxième niveau ou de troisième niveau du corps, elle sera supprimée.

Si vous souhaitez affiner davantage la portée et localiser directement "

World News uniquement sur cette page

", que devez-vous faire ? Cela nécessite l'ajout de conditions de filtre. La méthode de filtrage consiste à utiliser "[""]" pour ajouter des conditions de filtre. Il existe une syntaxe de filtre dans lxml :

　p = page.xpath(u"/html/body/p[@style='font-size: 200%']")

Ou : p = page.xpath(u"//p[@style='font-size:200%']")

De cette façon, le nœud p avec le style font-size:200% dans le body est supprimé. Remarque : cette p variable est une liste d'objets lxml.etree._Element Le résultat de p[0].text est World News uniquement sur cette page, c'est-à-dire la valeur entre les balises ; p Le résultat de [0].values() est font-size : 200 %, c'est-à-dire toutes les valeurs d'attribut . Parmi eux, @style représente le style d'attribut. De même, vous pouvez également utiliser @name, @id, @value, @href, @src, @class....

If il n'y a rien de tel dans la balise Que faire des attributs ? Ensuite, vous pouvez utiliser text(), position() et d'autres fonctions pour filtrer. La fonction text() permet d'obtenir le texte contenu dans le nœud. Par exemple :

hello

world

< /p>, utilisez "p[text()='hello']" pour obtenir le p, et world est le text() de p . La fonction position() permet d'obtenir la position du nœud. Par exemple, "li[position()=2]" signifie obtenir le deuxième nœud li, qui peut également être omis en tant que "li[2]".

Mais vous devez faire attention à l'ordre de positionnement numérique et aux conditions de filtrage. Par exemple, "ul/li[5][@name='hello']" signifie prendre le cinquième élément li sous ul, et son nom doit être bonjour, sinon il reviendra vide. Mais si vous utilisez "ul/li[@name='hello'][5]", la signification est différente. Cela signifie trouver le cinquième nœud li avec le nom "hello" sous ul.

　　此外，“*”可以代替所有的节点名，比如用"/html/body/*/span"可以取出body下第二级的所有span，而不管它上一级是p还是p或是其它什么东东。

而 “descendant::”前缀可以指代任意多层的中间节点，它也可以被省略成一个“/”。比如在整个HTML文档中查找id为“leftmenu”的 p，可以用“/descendant::p[@id='leftmenu']”，也可以简单地使用“ //p[@id='leftmenu']”。

text = page.xpath(u"/descendant::*[text()]")表示任意多层的中间节点下任意标签之间的内容，也即实现蜘蛛抓取页面内容功能。以下内容使用text属性是取不到的：

<p class="news">
    1. <b>无流量站点清理公告</b>  2013-02-22<br />
    取不到的内容
    </p>
    <p class="news">
    2. <strong>无流量站点清理公告</strong>  2013-02-22<br />
取不到的内容
</p> <p class="news"> 3. <span>无流量站点清理公告</span>  2013-02-22<br />
取不到的内容
</p> <p class="news"> 4. <u>无流量站点清理公告</u>  2013-02-22<br />
取不到的内容
</p>

Copier après la connexion

这些“取不到的内容”使用这个是取不到的。怎么办呢？别担心，lxml还有一个属性叫做“tail”，它的意思是结束节点前面的内容，也就是说在“
”与“

”之间的内容。它的源码里面的意思是“text after end tag”

　　至于“following-sibling::”前缀就如其名所说，表示同一层的下一个节点。"following-sibling::*"就是任意下一个节点，而“following-sibling::ul”就是下一个ul节点。

　　如果script与style标签之间的内容影响解析页面，或者页面很不规则，可以使用lxml.html.clean模块。模块 lxml.html.clean 提供一个Cleaner 类来清理 HTML 页。它支持删除嵌入或脚本内容、特殊标记、 CSS 样式注释或者更多。

　　cleaner = Cleaner(style=True, scripts=True,page_structure=False, safe_attrs_only=False)

　　print cleaner.clean_html(html)

　　注意，page_structure,safe_attrs_only为False时保证页面的完整性，否则，这个Cleaner会把你的html结构与标签里的属性都给清理了。使用Cleaner类要十分小心，小心擦枪走火。

　　忽略大小写可以：

　　page = etree.HTML(html)
　　keyword_tag = page.xpath("//meta[translate(@name,'ABCDEFGHJIKLMNOPQRSTUVWXYZ', 'abcdefghjiklmnopqrstuvwxyz')='keywords']")

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

4 Il y a quelques semaines By DDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

3 Il y a quelques semaines By DDD

Inzoi: Comment postuler à l'école et à l'université

1 Il y a quelques mois By DDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

Où trouver la clé du bureau du site dans Atomfall

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7909

Tutoriel Java

1652

Tutoriel CakePHP

1411

Tutoriel Laravel

1303

Tutoriel PHP

1248

Afficher plus

Related knowledge

HTML est-il facile à apprendre pour les débutants? Apr 07, 2025 am 12:11 AM

HTML convient aux débutants car il est simple et facile à apprendre et peut rapidement voir les résultats. 1) La courbe d'apprentissage de HTML est fluide et facile à démarrer. 2) Il suffit de maîtriser les balises de base pour commencer à créer des pages Web. 3) Flexibilité élevée et peut être utilisée en combinaison avec CSS et JavaScript. 4) Les ressources d'apprentissage riches et les outils modernes soutiennent le processus d'apprentissage.

Les rôles de HTML, CSS et JavaScript: responsabilités de base Apr 08, 2025 pm 07:05 PM

HTML définit la structure Web, CSS est responsable du style et de la mise en page, et JavaScript donne une interaction dynamique. Les trois exercent leurs fonctions dans le développement Web et construisent conjointement un site Web coloré.

Comprendre HTML, CSS et JavaScript: un guide pour débutant Apr 12, 2025 am 12:02 AM

WebDevelopmentReliesOnHTML, CSS, etjavascript: 1) HTMLSTRUCTURESCONTENT, 2) CSSSTYLESIT, et3) JavascriptAdddsInterActivity, Forming TheasisofmodernweBEBExperiences.

Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Apr 04, 2025 pm 11:54 PM

GiteEpages STATIQUE Le déploiement du site Web a échoué: 404 Dépannage des erreurs et résolution lors de l'utilisation de Gitee ...

Quel est un exemple d'une balise de départ dans HTML? Apr 06, 2025 am 12:04 AM

Anexampleofastartingtaginhtmlis, qui abinginsaparagraph.startingtagsaressentialtinhtmlastheyinitiateelements, définit les éventualités, et la faculté de réduction des pages et de la construction de la création.

Comment utiliser CSS3 et JavaScript pour réaliser l'effet de la diffusion et de l'agrandissement des images environnantes après avoir cliqué? Apr 05, 2025 am 06:15 AM

Pour obtenir l'effet de la diffusion et de l'élargissement des images environnantes après avoir cliqué sur l'image, de nombreuses conceptions Web doivent obtenir un effet interactif: cliquez sur une certaine image pour faire les environs ...

HTML, CSS et JavaScript: outils essentiels pour les développeurs Web Apr 09, 2025 am 12:12 AM

HTML, CSS et JavaScript sont les trois piliers du développement Web. 1. HTML définit la structure de la page Web et utilise des balises telles que, etc. 2. CSS contrôle le style de page Web, en utilisant des sélecteurs et des attributs tels que la couleur, la taille de la police, etc. 3. JavaScript réalise les effets dynamiques et l'interaction, par la surveillance des événements et les opérations DOM.

Comment faire la distinction entre la fermeture d'un onglet de navigateur et la fermeture du navigateur entier à l'aide de JavaScript? Apr 04, 2025 pm 10:21 PM

Comment faire la distinction entre la fermeture des onglets et la fermeture du navigateur entier à l'aide de JavaScript sur votre navigateur? Pendant l'utilisation quotidienne du navigateur, les utilisateurs peuvent ...

See all articles