qu'est-ce que l'analyseur HTML

WBOY
Libérer: 2022-01-18 11:40:50
original
3372 Les gens l'ont consulté

htmlparser est une bibliothèque d'analyse HTML pure écrite en Java ; htmlparser ne dépend pas d'autres fichiers de bibliothèque Java. Il est principalement utilisé pour transformer ou extraire du HTML. Il peut analyser le HTML de manière linéaire ou imbriquée et peut être compris comme un site Web. outil de capture d’informations sur les pages.

qu'est-ce que l'analyseur HTML

L'environnement d'exploitation de ce tutoriel : système Windows 10, version HTML5, ordinateur Dell G3.

Que signifie htmlparser ?

htmlparser est une bibliothèque d'analyse HTML purement écrite en Java. Elle ne dépend pas d'autres fichiers de bibliothèque Java et est principalement utilisée pour transformer ou extraire du HTML. Il peut analyser le HTML à très grande vitesse sans erreur. La dernière version de htmlparser est désormais la 2.1. Il n’est pas exagéré de dire que htmlparser est actuellement le meilleur outil d’analyse syntaxique HTML.

HTML Parser est une bibliothèque Java permettant d'analyser le HTML de manière linéaire ou imbriquée. Principalement utilisé pour la conversion ou l'extraction, il dispose de filtres, de visiteurs, de balises personnalisées et de JavaBeans faciles à utiliser. C'est un package rapide, puissant et bien testé.

Les deux cas d'utilisation de base gérés par l'analyseur sont l'extraction et la transformation (le cas d'utilisation de synthèse, créant une page HTML à partir de zéro, est mieux géré par d'autres outils plus proches de la source de données). Alors que les versions précédentes se concentraient sur l'extraction de données à partir de pages Web, la version 1.4 de HTMLParser apporte des améliorations substantielles dans la conversion des pages Web, en simplifiant la création et l'édition de balises et la sortie textuelle de la méthode toHtml().

En général, pour utiliser HTMLParser, vous devez être capable d'écrire du code dans le langage de programmation Java. Bien que certains exemples de programmes fournis puissent être utiles, vous devrez probablement (ou souhaiterez) créer les vôtres ou modifier les programmes fournis pour qu'ils correspondent à votre application prévue.

Pour utiliser cette bibliothèque, vous devez ajouter htmllexer.jar ou htmlparser.jar à votre chemin de classe lors de la compilation et de l'exécution. htmllexer.jar fournit un accès de bas niveau aux nœuds communs de chaîne, de note et d'étiquette sur la page de manière linéaire, plate et séquentielle. htmlparser.jar, qui contient des classes dans htmllexer.jar, permet d'accéder aux pages sous forme de séquences de balisage distinctives imbriquées contenant des chaînes, des commentaires et d'autres nœuds de balisage. Par conséquent, le résultat de l'appel de la méthode lexer nextNode() peut être :

quest-ce que lanalyseur HTML

La sortie de l'analyseur NodeIterator imbriquera les balises en tant qu'enfants de ,

):

quest-ce que lanalyseur HTML

L'analyseur essaie d'équilibrer les balises d'ouverture et de fermeture pour présenter la structure de la page, tandis que le lexer crache simplement les nœuds. Si votre application ne nécessite qu'une connaissance modeste de la structure des pages et concerne principalement un seul nœud indépendant, vous devriez envisager d'utiliser un lexer léger. Mais si votre application a besoin de comprendre la structure imbriquée de la page, telle que les tables de traitement, vous souhaiterez peut-être utiliser un analyseur complet.

Tutoriel recommandé : "Tutoriel vidéo HTML"

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!