Maison > Java > javaDidacticiel > le corps du texte

Comment extraire efficacement des données de balises HTML DIV avec un nom de classe spécifique en Java ?

Susan Sarandon
Libérer: 2024-10-24 17:03:02
original
272 Les gens l'ont consulté

How to Efficiently Extract Data from HTML DIV Tags with a Specific Class Name in Java?

Analyse HTML Java

Lorsque vous travaillez avec des applications de web scraping, il devient nécessaire d'extraire efficacement les données des pages HTML. Dans ce scénario, la tâche consiste à obtenir des données à partir de balises DIV spécifiques avec un nom de classe CSS donné. Bien que l'approche actuelle consistant à rechercher le nom de la classe dans chaque ligne HTML soit fonctionnelle, elle n'est peut-être pas optimale.

Jsoup comme alternative

Envisagez d'utiliser Jsoup bibliothèque pour le traitement HTML. Jsoup est conçu pour gérer le HTML mal formé et fournit une syntaxe pratique pour analyser le HTML en Java à l'aide de sélecteurs de balises de type jQuery.

Utiliser Jsoup

Pour utiliser Jsoup, suivez ces étapes :

  1. Importez la bibliothèque Jsoup dans votre projet.
  2. Créez un objet document Jsoup à partir du code source HTML.
  3. Utilisez la méthode select pour trouver le DIV balises avec le nom de classe CSS spécifié.
  4. Accédez aux données extraites à l'aide de méthodes telles que text() pour obtenir le contenu du texte ou attr("href") pour récupérer l'URL du lien.

Par exemple :

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

Document doc = Jsoup.parse(html);
Elements divs = doc.select("div.classname");

for (Element div : divs) {
    if (div.hasClass("classname")) {
        System.out.println("Text: " + div.text());
        System.out.println("Link: " + div.attr("href"));
    }
}</code>
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!