Java HTML Parsing
Bei der Arbeit mit Web-Scraping-Anwendungen ist es notwendig, Daten effektiv aus HTML-Seiten zu extrahieren. In diesem Szenario besteht die Aufgabe darin, Daten von bestimmten DIV-Tags mit einem bestimmten CSS-Klassennamen abzurufen. Der aktuelle Ansatz, in jeder HTML-Zeile nach dem Klassennamen zu suchen, ist zwar funktionsfähig, aber möglicherweise nicht optimal.
Jsoup als Alternative
Erwägen Sie die Verwendung von Jsoup Bibliothek für die HTML-Verarbeitung. Jsoup wurde entwickelt, um fehlerhaftes HTML zu verarbeiten und bietet eine praktische Syntax zum Parsen von HTML in Java mithilfe von jQuery-ähnlichen Tag-Selektoren.
Jsoup verwenden
Um Jsoup zu verwenden, befolgen Sie diese Schritte:
Zum Beispiel:
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; Document doc = Jsoup.parse(html); Elements divs = doc.select("div.classname"); for (Element div : divs) { if (div.hasClass("classname")) { System.out.println("Text: " + div.text()); System.out.println("Link: " + div.attr("href")); } }</code>
Das obige ist der detaillierte Inhalt vonWie extrahiere ich effizient Daten aus HTML-DIV-Tags mit einem bestimmten Klassennamen in Java?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!