htmlparser est une bibliothèque d'analyse HTML pure écrite en Java ; htmlparser ne dépend pas d'autres fichiers de bibliothèque Java. Il est principalement utilisé pour transformer ou extraire du HTML. Il peut analyser le HTML de manière linéaire ou imbriquée et peut être compris comme un site Web. outil de capture d’informations sur les pages.
L'environnement d'exploitation de ce tutoriel : système Windows 10, version HTML5, ordinateur Dell G3.
Que signifie htmlparser ?
htmlparser est une bibliothèque d'analyse HTML purement écrite en Java. Elle ne dépend pas d'autres fichiers de bibliothèque Java et est principalement utilisée pour transformer ou extraire du HTML. Il peut analyser le HTML à très grande vitesse sans erreur. La dernière version de htmlparser est désormais la 2.1. Il n’est pas exagéré de dire que htmlparser est actuellement le meilleur outil d’analyse syntaxique HTML.
HTML Parser est une bibliothèque Java permettant d'analyser le HTML de manière linéaire ou imbriquée. Principalement utilisé pour la conversion ou l'extraction, il dispose de filtres, de visiteurs, de balises personnalisées et de JavaBeans faciles à utiliser. C'est un package rapide, puissant et bien testé.
Les deux cas d'utilisation de base gérés par l'analyseur sont l'extraction et la transformation (le cas d'utilisation de synthèse, créant une page HTML à partir de zéro, est mieux géré par d'autres outils plus proches de la source de données). Alors que les versions précédentes se concentraient sur l'extraction de données à partir de pages Web, la version 1.4 de HTMLParser apporte des améliorations substantielles dans la conversion des pages Web, en simplifiant la création et l'édition de balises et la sortie textuelle de la méthode toHtml().
En général, pour utiliser HTMLParser, vous devez être capable d'écrire du code dans le langage de programmation Java. Bien que certains exemples de programmes fournis puissent être utiles, vous devrez probablement (ou souhaiterez) créer les vôtres ou modifier les programmes fournis pour qu'ils correspondent à votre application prévue.
Pour utiliser cette bibliothèque, vous devez ajouter htmllexer.jar ou htmlparser.jar à votre chemin de classe lors de la compilation et de l'exécution. htmllexer.jar fournit un accès de bas niveau aux nœuds communs de chaîne, de note et d'étiquette sur la page de manière linéaire, plate et séquentielle. htmlparser.jar, qui contient des classes dans htmllexer.jar, permet d'accéder aux pages sous forme de séquences de balisage distinctives imbriquées contenant des chaînes, des commentaires et d'autres nœuds de balisage. Par conséquent, le résultat de l'appel de la méthode lexer nextNode() peut être :
La sortie de l'analyseur NodeIterator imbriquera les balises en tant qu'enfants de ,
):L'analyseur essaie d'équilibrer les balises d'ouverture et de fermeture pour présenter la structure de la page, tandis que le lexer crache simplement les nœuds. Si votre application ne nécessite qu'une connaissance modeste de la structure des pages et concerne principalement un seul nœud indépendant, vous devriez envisager d'utiliser un lexer léger. Mais si votre application a besoin de comprendre la structure imbriquée de la page, telle que les tables de traitement, vous souhaiterez peut-être utiliser un analyseur complet.
Tutoriel recommandé : "Tutoriel vidéo HTML"
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!