Un partage pratique des robots d'exploration de sites Web-Tutoriel Python-php.cn

Un partage pratique des robots d'exploration de sites Web

零下一度

Libérer： 2017-07-27 17:02:24

original

1424 Les gens l'ont consulté

Contexte de la génération

Modifier

Avec le développement rapide d'Internet, le World Wide Web est devenu un vecteur de grandes quantités d'informations. Comment extraire et utiliser efficacement ces informations est devenu. un énorme défi. Les moteurs de recherche, tels que les moteurs de recherche généraux traditionnels AltaVista, Yahoo et Google, servent d'outil pour aider les gens à récupérer des informations et deviennent la porte d'entrée et le guide permettant aux utilisateurs d'accéder au World Wide Web. Cependant, ces moteurs de recherche généraux présentent également certaines limites, telles que :

(1) Les utilisateurs de différents domaines et horizons ont souvent des objectifs et des besoins de recherche différents. Les résultats renvoyés par les moteurs de recherche généraux incluent des pages Web de grande taille. un certain nombre d'utilisateurs ne s'en soucient pas.

(2) L'objectif d'un moteur de recherche général est d'atteindre la plus grande couverture réseau possible. La contradiction entre les ressources limitées du serveur du moteur de recherche et les ressources de données réseau illimitées va encore s'approfondir.

(3) Avec la richesse des formulaires de données sur le World Wide Web et le développement continu de la technologie des réseaux, différentes données telles que les images, les bases de données, les fichiers audio et vidéo multimédia apparaissent souvent en grande quantité dans les moteurs de recherche généraux. rechercher ces données qui sont denses en informations et ont une certaine structure Incompétent pour bien découvrir et acquérir.

(4) La plupart des moteurs de recherche généraux proposent une récupération basée sur des mots clés, et il est difficile de prendre en charge des requêtes basées sur des informations sémantiques.

Web Crawler

Afin de résoudre les problèmes ci-dessus, des robots d'exploration ciblés sur les ressources Web liées à l'exploration directionnelle ont vu le jour. Le robot d'exploration ciblé est un programme qui télécharge automatiquement des pages Web. Il accède de manière sélective aux pages Web et aux liens associés sur le World Wide Web en fonction d'objectifs d'exploration établis pour obtenir les informations requises. Contrairement aux robots d'exploration Web à usage général, les robots d'exploration ciblés ne recherchent pas une large couverture, mais se fixent pour objectif d'explorer les pages Web liées au contenu d'un sujet spécifique et de préparer les ressources de données pour les requêtes des utilisateurs orientées vers un sujet.

1 Focus sur le principe de fonctionnement des robots d'exploration et un aperçu des technologies clés

Un robot d'exploration Web est un programme qui extrait automatiquement des pages Web. Il télécharge des pages Web du World Wide Web pour les moteurs de recherche. et constitue un élément important des moteurs de recherche. Le robot d'exploration traditionnel part de l'URL d'une ou plusieurs pages Web initiales et obtient l'URL sur la page Web initiale. Pendant le processus d'exploration de la page Web, il extrait en permanence de nouvelles URL de la page actuelle et les met dans la file d'attente jusqu'à ce qu'elles soient certaines. les conditions d'arrêt du système sont remplies. Le flux de travail du robot d'exploration ciblé est plus compliqué. Il doit filtrer les liens sans rapport avec le sujet selon un certain algorithme d'analyse de page Web, conserver les liens utiles et les placer dans la file d'attente des URL en attente d'exploration. Ensuite, il sélectionnera l'URL de la page Web à explorer ensuite dans la file d'attente selon une certaine stratégie de recherche, et répétera le processus ci-dessus jusqu'à ce qu'il s'arrête lorsqu'une certaine condition du système est atteinte. De plus, toutes les pages Web explorées par les robots d'exploration seront stockées par le système, soumises à certaines analyses, filtrages et indexations pour des requêtes et des récupérations ultérieures pour les robots d'exploration ciblés, les résultats d'analyse obtenus dans ce processus peuvent également être fournis. futurs processus d’exploration.

Par rapport aux robots d'exploration Web généraux, les robots d'exploration ciblés doivent également résoudre trois problèmes principaux :

(1) Description ou définition de la cible d'exploration

(2) Analyse et filtrage de pages Web ou de données

(3) Stratégie de recherche d'URL.

Le robot d'exploration de sites Web explore principalement tout le contenu et les titres des articles sous le blog et les enregistre dans le répertoire de données. Les détails sont les suivants :

import requestsimport re

url = ''def get_html(url):#打开url并获取该url的所有html信息html_content = requests.get(url).text#从html_conten所有的html信息中匹配到所有博客的超链接地址href_list = re.findall(r'href=\"(.*)\"\>(.*)\<\/a\>', html_content)for line in href_list:#打开超链接地址line_html = requests.get(line[0])
        conten = line[1]
        line_content = line_html.text
        line_encoding = line_html.encodingprint('文章标题:%s，文章编码:%s'%(conten, line_encoding))
get_html(url)

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!