Explication détaillée de l'utilisation de HTMLParser (3)-tutoriel HTML-php.cn

Maison

interface Web

tutoriel HTML

Explication détaillée de l'utilisation de HTMLParser (3)

黄舟

Dec 29, 2016 pm 03:57 PM

html parser

Une fois que HTMLParser a parcouru le contenu de la page Web, il enregistre les résultats dans une structure arborescente (forêt). Il existe deux manières pour HTMLParser d'accéder au contenu du résultat. Utilisez Filtre et utilisez Visiteur.

(1) Classe Filter
Comme son nom l'indique, Filter consiste à filtrer les résultats et à obtenir le contenu requis. HTMLParser définit un total de 16 filtres différents dans le package org.htmlparser.filters, qui peuvent également être divisés en plusieurs catégories.
Filtre de classe de jugement :

TagNameFilter
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter

Copier après la connexion

Filtre d'opération logique :

AndFilter
NotFilter
OrFilter
XorFilter
其他Filter：
NodeClassFilter
StringFilter
LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter

Copier après la connexion

Toutes les classes de filtre implémentent l'interface org.htmlparser.NodeFilter. Cette interface n'a qu'une seule fonction principale :

boolean accept (Node node);

Copier après la connexion

(2) Prise en main de la classe de jugement FilterHTMLParser (2) - Contenu du nœud, ajoutez vous-même la partie import)

public static void main(String[] args) {
try{
Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );
// 这里是控制测试的部分，后面的例子修改的就是这个地方。
NodeFilter filter = new TagNameFilter ("DIV");
NodeList nodes = parser.extractAllNodesThatMatch(filter); 
if(nodes!=null) {
for (int i = 0; i < nodes.size(); i++) {
Node textnode = (Node) nodes.elementAt(i);
message("getText:"+textnode.getText());
message("=================================================");
}
} 
}
catch( Exception e ) { 
e.printStackTrace();
}
}

Copier après la connexion

Résultat de sortie :

getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

Copier après la connexion

On peut voir que les deux nœuds Div du fichier ont été supprimés. Les opérations suivantes peuvent être effectuées sur ces deux nœuds DIV

2.2 HasChildFilter
Jetons un œil à HasChildFilter. Quand je viens de voir ce filtre, j'ai pris pour acquis que ce filtre renvoyait une balise avec enfant. Directement initialisé un

NodeFilter filter = new HasChildFilter();

Copier après la connexion

Modifier le code :

NodeFilter innerFilter = new TagNameFilter ("DIV");
NodeFilter filter = new HasChildFilter(innerFilter);
NodeList nodes = parser.extractAllNodesThatMatch(filter);

Copier après la connexion

Résultat de sortie :

getText:body 
=================================================
getText:div id="top_main"
=================================================

Copier après la connexion

Comme vous pouvez le voir , La sortie est deux nœuds Tag avec sous-Tag DIV. (Le corps a le nœud enfant DIV "top_main" et "top_main" a le nœud enfant "logoindex".

Notez que HasChildFilter a également un constructeur :

public HasChildFilter (NodeFilter filter, boolean recursive)

Copier après la connexion

Si Si récursif est faux, seuls les nœuds enfants de premier niveau seront filtrés. Par exemple, dans l'exemple précédent, body et top_main ont tous deux des nœuds DIV dans les nœuds enfants de premier niveau, ils correspondent donc si nous utilisons le. méthode suivante. :

NodeFilter filter = new HasChildFilter( innerFilter, true );

Copier après la connexion

Résultat de sortie :

getText:html xmlns="http://www.w3.org/1999/xhtml"
=================================================
getText:body 
=================================================
getText:div id="top_main"
=================================================

Copier après la connexion

Vous pouvez voir qu'il y a un html xmlns="http:// www.w3.org/1999/xhtml", il s'agit du nœud (nœud racine) de la page HTML entière. Bien qu'il n'y ait pas de nœud DIV directement sous ce nœud, il y a un nœud DIV sous son corps de nœud enfant, donc c'est le cas. correspond également.

2.3 HasAttributeFilter
HasAttributeFilter a 3 constructeurs :

public HasAttributeFilter ();
public HasAttributeFilter (String attribute);
public HasAttributeFilter (String attribute, String value);

Copier après la connexion

Ce filtre peut correspondre à l'attribut contenant le nom spécifié, ou au nœud avec l'attribut spécifié comme la valeur spécifiée. Il est plus facile d'illustrer avec un exemple

Méthode d'appel 1 :

NodeFilter filter = new HasAttributeFilter();
NodeList nodes = parser.extractAllNodesThatMatch(filter);

Copier après la connexion

Résultat de sortie :

什么也没有输出。

Copier après la connexion

Méthode d'appel 2 :

NodeFilter filter = new HasAttributeFilter( "id" );
NodeList nodes = parser.extractAllNodesThatMatch(filter);

Copier après la connexion

Résultat de sortie :

getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

Copier après la connexion

Méthode d'appel 3 :

NodeFilter filter = new HasAttributeFilter( "id", "logoindex" );
NodeList nodes = parser.extractAllNodesThatMatch(filter);

Copier après la connexion

Résultat de sortie :

getText:div id="logoindex"
=================================================

Copier après la connexion

C'est très simple Haha

2.4 Autres colonnes de jugement Filtre
Les fonctions de HasParentFilter et HasSiblingFilter sont similaires à HasChildFilter. . Vous devriez le comprendre après l'avoir essayé vous-même. Le paramètre constructeur de

IsEqualFilter est un Node :

public IsEqualFilter (Node node) {
mNode = node;
}
accept函数也很简单：
public boolean accept (Node node) {
return (mNode == node);
}

Copier après la connexion

Pas besoin de trop expliquer (3) Opération logique. Filtre (4) Autres filtres : Premiers pas avec HTMLParser (2) - Contenu du nœud Nous avons déjà découvert les différents types de nœuds. Ce filtre peut filtrer en fonction du type.
Code de test :

<. 🎜>
Résultat. :

NodeFilter filter = new NodeClassFilter(RemarkNode.class);
NodeList nodes = parser.extractAllNodesThatMatch(filter);

Copier après la connexion

4.2 StringFilter

Ce filtre est utilisé pour filtrer les balises qui contiennent le contenu spécifié dans la chaîne affichée. et le contenu de la chaîne non affichable (comme les commentaires, les liens, etc.) ne sera pas affiché

getText:这是注释
=================================================
可以看到只有RemarkNode（注释）被输出了。

Copier après la connexion

Modifiez l'exemple de code :

Code de test : <🎜. >

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-title-www.baizeju.com</title></head>
<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">
<!--这是注释 白泽居-www.baizeju.com -->
白泽居-字符串1-www.baizeju.com
<a href="http://www.baizeju.com">白泽居-链接文本-www.baizeju.com</a>
</div>
白泽居-字符串2-www.baizeju.com
</div>
</body>
</html>

Copier après la connexion

Résultats de sortie :

NodeFilter filter = new StringFilter("www.baizeju.com");
NodeList nodes = parser.extractAllNodesThatMatch(filter);

Copier après la connexion

Vous pouvez voir que les balises contenant le titre, les deux chaînes de contenu et la chaîne de texte du lien sont toutes sorties, mais les commentaires et les balises de lien eux-mêmes ne sont pas affichés.

4.3 LinkStringFilter

getText:白泽居-title-www.baizeju.com
=================================================
getText:
白泽居-字符串1-www.baizeju.com
=================================================
getText:白泽居-链接文本-www.baizeju.com
=================================================
getText:
白泽居-字符串2-www.baizeju.com
=================================================

Copier après la connexion

Ce filtre est utilisé pour déterminer si le lien contient une chaîne spécifique et peut être utilisé pour filtrer les liens pointant vers un site Web spécifique.

Code de test :

Résultat de sortie :

NodeFilter filter = new LinkStringFilter("www.baizeju.com");
NodeList nodes = parser.extractAllNodesThatMatch(filter);

Copier après la connexion

4.4 Plusieurs autres filtres
Plusieurs autres filtres sont également basés sur des paires de chaînes différentes les domaines sont utilisés pour le jugement. La principale différence par rapport aux précédents est qu'ils prennent en charge les expressions régulières. Cela dépasse le cadre de cet article, vous pouvez l’expérimenter vous-même.

getText:a href="http://www.baizeju.com"
=================================================

Copier après la connexion

Les filtres introduits précédemment sont tous des filtres simples, qui ne peuvent filtrer que pour un seul type de condition. HTMLParser prend en charge la combinaison de types simples de filtres pour implémenter des conditions complexes. Le principe est le même que le fonctionnement logique des langages de programmation généraux.

3.1 AndFilter
AndFilter peut combiner deux types de filtres. Seuls les nœuds qui remplissent les conditions en même temps seront filtrés.
Code de test :

Résultat de sortie :

NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new AndFilter(filterID, filterChild);

Copier après la connexion

3.2 OrFilter
Remplacer le AndFilter précédent par OrFilter

Code de test :

getText:div id="logoindex"
=================================================

Copier après la connexion

Résultat de sortie :

NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new OrFilter(filterID, filterChild);

Copier après la connexion

3.3 NotFilter
Remplacer le AndFilter précédent par NotFilter

Code de test :

getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

Copier après la connexion

Résultat de sortie :

NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new NotFilter(new OrFilter(filterID, filterChild));

Copier après la connexion

À l'exception des quelques balises sorties dans la version 3.2 précédente, le reste des balises est ici.

3.4 XorFilter

getText:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
=================================================
getText:
=================================================
getText:head
=================================================
getText:meta http-equiv="Content-Type" content="text/html; charset=gb2312"
=================================================
getText:title
=================================================
getText:白泽居-www.baizeju.com
=================================================
getText:/title
=================================================
getText:/head
=================================================
getText:
=================================================
getText:html xmlns="http://www.w3.org/1999/xhtml"
=================================================
getText:
=================================================
getText:body 
=================================================
getText:
=================================================
getText:
=================================================
getText:
=================================================
getText:这是注释
=================================================
getText:
白泽居-www.baizeju.com
=================================================
getText:a href="http://www.baizeju.com"
=================================================
getText:白泽居-www.baizeju.com
=================================================
getText:/a
=================================================
getText:
=================================================
getText:/div
=================================================
getText:
白泽居-www.baizeju.com
=================================================
getText:/div
=================================================
getText:
=================================================
getText:/body
=================================================
getText:
=================================================
getText:/html
=================================================
getText:
=================================================

Copier après la connexion

Remplacer le AndFilter précédent par NotFilter

Code de test :

Résultat de sortie :

NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new XorFilter(filterID, filterChild);

Copier après la connexion

4.1 NodeClassFilter
Ce filtre est utilisé pour déterminer si le type de nœud est un type de nœud spécifique. Dans

2.1 TagNameFilter

getText:div id="top_main"
=================================================

Copier après la connexion

TabNameFilter est le filtre le plus simple à comprendre, filtrant en fonction du nom de la balise.

Voici le fichier HTML utilisé pour les tests :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title>< /head>
<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">
<!--这是注释-->
白泽居-www.baizeju.com
<a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>
</div>
白泽居-www.baizeju.com
</div>
</body>
</html>

Copier après la connexion

以上就是HTMLParser使用详解（3）的内容，更多相关内容请关注PHP中文网（www.php.cn）！

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

4 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

4 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

1 Il y a quelques mois By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7715

Tutoriel Java

1641

Tutoriel CakePHP

1395

Tutoriel Laravel

1289

Tutoriel PHP

1232

Afficher plus

Related knowledge

Bordure de tableau en HTML Sep 04, 2024 pm 04:49 PM

Guide de la bordure de tableau en HTML. Nous discutons ici de plusieurs façons de définir une bordure de tableau avec des exemples de bordure de tableau en HTML.

Tableau imbriqué en HTML Sep 04, 2024 pm 04:49 PM

Ceci est un guide des tableaux imbriqués en HTML. Nous discutons ici de la façon de créer un tableau dans le tableau ainsi que des exemples respectifs.

Marge gauche HTML Sep 04, 2024 pm 04:48 PM

Guide de la marge HTML gauche. Nous discutons ici d'un bref aperçu de la marge gauche HTML et de ses exemples ainsi que de son implémentation de code.

Disposition du tableau HTML Sep 04, 2024 pm 04:54 PM

Guide de mise en page des tableaux HTML. Nous discutons ici des valeurs de la mise en page des tableaux HTML ainsi que des exemples et des résultats en détail.

Espace réservé d'entrée HTML Sep 04, 2024 pm 04:54 PM

Guide de l'espace réservé de saisie HTML. Nous discutons ici des exemples d'espace réservé d'entrée HTML ainsi que des codes et des sorties.

Liste ordonnée HTML Sep 04, 2024 pm 04:43 PM

Guide de la liste ordonnée HTML. Ici, nous discutons également de l'introduction de la liste et des types HTML ordonnés ainsi que de leur exemple respectivement.

Déplacer du texte en HTML Sep 04, 2024 pm 04:45 PM

Guide pour déplacer du texte en HTML. Nous discutons ici d'une introduction, du fonctionnement des balises de sélection avec la syntaxe et des exemples à implémenter.

Bouton HTML onclick Sep 04, 2024 pm 04:49 PM

Guide du bouton HTML onclick. Nous discutons ici de leur introduction, de leur fonctionnement, des exemples et de l'événement onclick dans divers événements respectivement.

See all articles