JAVA explore les données des pages Web jsoup
Concernant les données d'exploration qui ont émergé ces dernières années, la plupart des gens utilisent Python pour explorer. Pour certaines personnes, elles ne savent toujours pas que Java peut également effectuer une exploration des données. Ensuite, l'éditeur partagera avec vous un article sur l'exploration des données de pages Web avec Java.
Le but de l'exploration des données est d'obtenir les informations de page renvoyées par la requête et de filtrer les données souhaitées.
Pour faire court, commençons ci-dessous :
1. Préparation de l'environnement
Si l'outil est Eclipse ou IDEA
Configurer maven
2 .Importer les dépendances liées à jsoup
lt;version>1.13.1< /version>
3. Commencez à configurer un projet pour écrire du code My. le code est le suivant :
public static void main(String[] args) throws Exception { Scanner sc = new Scanner(System.in) ; System.out.println("Veuillez entrer le mot-clé de recherche !!! "); String input = sc.next(); //Obtenir la demande d'URL, trouvez la demande ici vous-même String url = "https://search .xx.com/Search?keyword="+input; //Analyser le page Web (le document renvoyé par jsoup est ici l'objet document de page) Document document = Jsoup.parse(new URL(url), 30000); //All js Toutes les méthodes peuvent être utilisées ici, voici pour obtenir l'identifiant dans le div cible d'analyse Element element = document.getElementById("x_goodsList"); System.out.println(element.html()); //Obtenir le div cible d'analyse Toutes les balises li dans Elements elements = document.getElementsByTag("li "); //Parcourez tout le contenu de la balise li pour(Element el : elements){
//Parfois, il y a plus d'images à explorer. Tous les sites Web utilisent le chargement paresseux. L'attribut obtenu est source-data-lazy-img au lieu de src
/*
img est l'image explorée,
price est le prix exploré,
name est le nom du produit analysé
*/
String img = el.getElementsByTag("img").eq(0).attr("src"); .getElementsByClass("p-price").eq(0).text(); String name = el.getElementsByClass("p-name").eq(0).text(); ======================="); System.out.println(img); System.out.println(prix); System.out .println( name); >
Enfin, les amis qui sont intéressés par l'exploration de données devraient se dépêcher et essayer. Ici, je vais mettre fin à tous les comportements d'exploration illégaux, hahaha. . Grimpez et jouez, il n'y a rien à ne pas grimper.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le chargement de classe de Java implique le chargement, la liaison et l'initialisation des classes à l'aide d'un système hiérarchique avec Bootstrap, Extension et Application Classloaders. Le modèle de délégation parent garantit que les classes de base sont chargées en premier, affectant la classe de classe personnalisée LOA

L'article examine la mise en œuvre de la mise en cache à plusieurs niveaux en Java à l'aide de la caféine et du cache de goyave pour améliorer les performances de l'application. Il couvre les avantages de configuration, d'intégration et de performance, ainsi que la gestion de la politique de configuration et d'expulsion le meilleur PRA

L'article discute de l'utilisation de JPA pour la cartographie relationnelle des objets avec des fonctionnalités avancées comme la mise en cache et le chargement paresseux. Il couvre la configuration, la cartographie des entités et les meilleures pratiques pour optimiser les performances tout en mettant en évidence les pièges potentiels. [159 caractères]

L'article discute de l'utilisation de Maven et Gradle pour la gestion de projet Java, la construction de l'automatisation et la résolution de dépendance, en comparant leurs approches et leurs stratégies d'optimisation.
