Maison > Java > javaDidacticiel > Comment utiliser la fonction JSoup pour l'analyse HTML en Java

Comment utiliser la fonction JSoup pour l'analyse HTML en Java

WBOY
Libérer: 2023-06-26 13:41:33
original
1547 Les gens l'ont consulté

HTML est la représentation de base des pages Web. Si vous souhaitez obtenir et manipuler le contenu d'un document HTML en Java, vous devez utiliser un outil d'analyse open source, tel que la fonction JSoup. JSoup est une bibliothèque Java de traitement de documents HTML. Elle fournit un moyen très simple d'extraire des données et des éléments spécifiques de documents HTML. Cet article présentera l'utilisation de JSoup en Java.

  1. Importer JSoup

Tout d'abord, vous devez importer la bibliothèque JSoup dans votre projet Java. Vous pouvez trouver et télécharger JSoup dans le référentiel central Maven. Une fois le téléchargement terminé, décompressez le fichier JSoup.jar et importez-le dans votre projet Java.

  1. Créez un objet Document de JSoup

Dans votre code Java, créez un objet Document pour lire et analyser des documents HTML. Vous pouvez utiliser la méthode connect() dans la bibliothèque JSoup pour spécifier le chemin de l'URL à analyser, et JSoup téléchargera, analysera automatiquement le document HTML et renverra un objet Document, par exemple :

String url = "https://www.example.com";
Document doc = Jsoup.connect(url).get();
Copier après la connexion
  1. Extraire les éléments HTML

Avec l'objet Document, vous pouvez extraire des éléments HTML spécifiques du document HTML. Vous pouvez utiliser la méthode select() de l'objet Document et transmettre la syntaxe du sélecteur CSS pour filtrer les éléments souhaités, par exemple :

Element elementById = doc.select("#example-id").first();
Elements elementsByClass = doc.select(".example-class");
Copier après la connexion

Le code ci-dessus obtient les éléments correspondants via l'ID et le nom de classe respectivement. Vous pouvez également utiliser d'autres sélecteurs tels que le nom de balise, la valeur d'attribut ou le nom d'attribut.

  1. Manipulation des éléments HTML

Une fois que vous avez obtenu les éléments correspondants du document HTML, vous pouvez manipuler davantage ces éléments. Vous pouvez utiliser la méthode text() de l'objet Element pour obtenir le contenu textuel de l'élément, par exemple :

String textById = elementById.text();
String textByClass = elementsByClass.text();
Copier après la connexion

Vous pouvez également utiliser la méthode attributs() de l'objet Element pour obtenir les valeurs d'attribut de l'élément .

Element element = doc.select("a").first();
String href = element.attributes().get("href");
Copier après la connexion
  1. Gestion des formulaires HTML

En plus d'obtenir des éléments HTML, JSoup fournit également des outils pratiques pour traiter les formulaires HTML. Vous pouvez utiliser des méthodes dans l'objet Document, telles que les méthodes select(), attr() et text() pour modifier les valeurs des éléments du formulaire.

Document doc = Jsoup.parse("<form action='/my-url' method='post'>"
        + "<input type='text' name='username'/>"
        + "<input type='password' name='password'/>"
        + "<input type='submit' value='Login'/>"
        + "</form>");

Element formElement = doc.select("form").first();
formElement.attr("action", "login.jsp");
formElement.select("[name=username]").attr("value", "myUsername");
formElement.select("[name=password]").attr("value", "myPassword");
Copier après la connexion
  1. Gestion des erreurs

Lorsque vous utilisez JSoup pour analyser des documents HTML, des exceptions se produisent parfois. Par conséquent, dans votre code Java, vous devez gérer les exceptions IOException et ParseException levées par JSoup. Ces exceptions peuvent être interceptées à l'aide de blocs Try-catch.

try {
    Document doc = Jsoup.connect("http://example.com").get();
} catch (IOException e) {
    e.printStackTrace();
} catch (ParseException e) {
    e.printStackTrace();
}
Copier après la connexion

Résumé

Ce qui précède explique comment utiliser la fonction JSoup pour l'analyse HTML. Grâce à JSoup, vous pouvez facilement obtenir et exploiter des documents HTML en Java. En incluant la bibliothèque JSoup dans votre projet Java et en utilisant les objets Document, les sélecteurs et les API de JSoup pour manipuler correctement les éléments, vous pouvez facilement effectuer des tâches telles que la récupération de données et la modification de formulaires HTML.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal