Bases de la technologie de base du moteur de recherche

Maison

développement back-end

tutoriel php

Bases de la technologie de base du moteur de recherche_php

微波

Jun 28, 2017 pm 03:37 PM

php 基础搜索引擎

Quand il s'agit de moteurs de recherche Web, la plupart des gens pensent à Yahoo. En effet, Yahoo a créé une ère de recherche sur Internet. Cependant, la technologie que Yahoo utilise actuellement pour effectuer des recherches sur le Web n’a pas été développée à l’origine par l’entreprise. En août 2000, Yahoo a adopté la technologie de Google (www.google.com), une société à risque fondée par des étudiants de l'Université de Stanford. La raison est très simple. Le moteur de recherche de Google peut rechercher les informations requises plus rapidement et avec plus de précision que la technologie précédemment utilisée par Yahoo.

Il nous est probablement impossible de concevoir et de développer nous-mêmes un moteur de recherche et une base de données puissants et efficaces dans un court laps de temps en termes de technologie et de fonds. Cependant, puisque Yahoo utilise la technologie d'autres personnes, nous le faisons. Ne pouvons-nous pas également utiliser les sites Web de moteurs de recherche prêts à l'emploi d'autres personnes ?

Analyse des idées de programmation

On peut imaginer ceci : simuler une requête, émettre une commande de recherche dans un format correspondant à un site Web d'un moteur de recherche, puis renvoyer les résultats de la recherche et analyser le code HTML des résultats, supprimez les caractères et codes redondants et enfin affichez-les sur notre propre page Web dans le format requis.

De cette façon, la clé du problème est que nous devons sélectionner des informations de recherche qui sont précises (pour que notre recherche soit plus significative) et rapides (car nous avons besoin de plus de temps pour analyser les résultats de la recherche. et les afficher), un site Web de recherche avec des résultats de recherche concis (pratique pour l'analyse et le dépouillement du code source HTML. En raison des diverses excellentes fonctionnalités du moteur de recherche de nouvelle génération Google, nous le choisissons ici comme exemple pour voir comment utiliser PHP pour). mettre en œuvre le traitement en arrière-plan de la recherche Google (www.google.com) et le processus d'affichage personnalisé frontal.

Voyons d’abord la composition des commandes de requête de Google. Accédez au site Web www.google.com, saisissez « abcd » dans la barre de requête et cliquez sur le bouton de requête. Nous pouvons constater que la barre d'adresse du navigateur se transforme en : « http://www.google.com/search?q=. abcd&btnG=Google %CB%D1%CB%F7&hl=zh-CN&lr=", on peut voir que Google transmet les paramètres de requête et soumet la commande de requête via la méthode get du formulaire. Nous pouvons utiliser la fonction file() en PHP pour simuler ce processus de requête.

Comprendre la fonction File()

Syntaxe : array file(string filename);

La valeur de retour est un tableau et tous les fichiers sont lus dans la variable tableau. Les fichiers ici peuvent être locaux ou distants. Les Fichiers distants doivent préciser le protocole utilisé. Par exemple : result=file("http://www.google.com/search?q=a ... mp;hl=zh-CN&lr="), cette instruction simulera notre requête pour le mot "abcd" sur Processus Google et transférez les résultats de la recherche vers le résultat de la variable du tableau sous forme d'éléments par ligne. Le fichier lu ici étant distant, le nom du protocole « http:// » ne peut pas manquer.

Si vous souhaitez que l'utilisateur saisisse des caractères de recherche pour toute recherche, nous pouvons créer une zone de texte de saisie et un bouton de soumission, et remplacer le caractère recherché "abcd" ci-dessus par une variable :
echo '

'; 🎜>
if (isset(mots-clés)) // PHP générera la variable kwywords après la soumission, ce qui nécessite que le programme suivant s'exécute après la soumission
{
urlencode(mots-clés); contenu d'entrée
result=file("http://www.google.com/search?q=". keywords."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr="); >/ /Remplacer les variables dans l'instruction de requête et enregistrer les résultats de la requête dans la variable du tableau result
result_string=join(" ", result); //Fusionner le tableau $result dans
string
, chaque tableau element Utiliser des espaces pour coller ... // Traitement ultérieur }
?>

Le programme ci-dessus peut déjà interroger en fonction du contenu saisi par l'utilisateur et renvoyer le résultat est synthétisé dans une variable chaîne $result_string. Veuillez noter que vous devez utiliser la fonction urlencode() pour encoder l'URL des entrées utilisateur, afin de pouvoir interroger les caractères chinois, les espaces et autres
caractères spéciaux
normalement. Cela simulera également la requête de Google de manière aussi réaliste. autant que possible pour garantir l'exactitude des résultats de la recherche. Analyse de Google

Pour faciliter la compréhension, supposons que ce dont nous avons réellement besoin est : le titre des résultats de recherche. URL et introduction, etc. Il s’agit d’une exigence simple et typique. De cette façon, tout ce que nous avons à faire est de supprimer l'en-tête et le pied de page des résultats de recherche Google, y compris le logo Google, la zone de saisie pour une nouvelle recherche, la description du résultat de recherche, etc., et de supprimer le code HTML original du résultat de recherche restant. éléments. Balise Format, remplacez-la par le format souhaité.

Pour ce faire, nous devons analyser soigneusement le code source HTML des résultats de recherche Google et trouver les modèles. Il n'est pas difficile de constater que le texte des résultats de recherche Google est toujours inclus entre la première balise

et l'avant-dernière balise

immédiatement suivi des caractères et du tableau, et cette combinaison "

Toutes les procédures suivantes se poursuivent dans la section « traitement ultérieur » de la procédure ci-dessus.

result_string = strstr( result_string, "

"); //Récupère la chaîne après result_string en commençant par le premier

pour supprimer l'en-tête Google
position= strpos( result_string," La position du

symbole de table
result_string= substr( result_string,0, position);//Intercepter la chaîne avant le premier

symbole de tableau pour supprimer la note de bas de page

Application et implémentation

OK, maintenant que nous avons obtenu l'épine dorsale du code source HTML utile, le problème restant est de savoir comment afficher le contenu indépendamment. Analysons ces éléments de résultats de recherche et découvrons les différences entre chaque élément. régulièrement séparés par
, c'est-à-dire que chacun est un paragraphe. Selon cette fonctionnalité, nous utilisons la fonction éclater() pour couper chaque entrée :

Syntaxe : éclater(séparateur de chaîne, chaîne de caractères)
Renvoie un tableau, et chaque petite chaîne divisée par séparateur est enregistrée dans le tableau

Donc :
result_array=explode("

", result_string). Utilisez la chaîne "

" pour couper les résultats

Nous obtiendrons un tableau result_array, où chaque élément est une entrée de résultat de recherche. Il ne nous reste plus qu'à étudier chaque entrée et son format d'affichage HTML. code, puis remplacez-le si nécessaire. Utilisez une boucle pour traiter chaque entrée dans result_array
for( i=0; i {
... //Traiter chaque entrée<.>}

Pour chaque entrée, nous pouvons facilement trouver certaines caractéristiques : chaque entrée est composée d'un titre, d'un résumé, d'une introduction, d'une catégorie, d'une URL, etc., et chaque partie est renvoyée à la ligne, c'est-à-dire qu'elle contient la marque every_item=explode("
", result_array[ i]);

De cette façon, nous obtenons un tableau each_item, où Every_item[0] est le titre, Every_item[1] et Every_item[2] sont deux lignes de résumé, si les en-têtes de Every_item[3], Every_item[4], etc. contiennent "Introduction :", "< font size=-1 color=#6f6f6f>Catégorie :< /font>" sont des caractères d'introduction ou de catégorie (car certaines entrées de résultat n'ont pas cet élément) , si l'en-tête contient "< font color=green>", il doit s'agir de l'URL. Nous utilisons souvent une
expression régulière
(omise) pour cette comparaison. C'est également très pratique si vous souhaitez la remplacer. , comme inclure un titre $every_item[0] lui-même a un lien. Nous souhaitons modifier cet attribut de lien pour qu'il ouvre le lien dans une nouvelle fenêtre : echo eregi_replace(' { ... // Traiter chaque élément Chaque élément sauf le premier élément (le premier élément est le titre, déjà affiché)
... //Plus de modifications de format
}

De cette façon, les attributs du lien sont modifiés , et bien d'autres sont affichés. La modification, la suppression et le remplacement du format peuvent tous être effectués en utilisant le remplacement régulier eregi_replace().

À ce stade, nous avons obtenu chaque élément de chaque élément de recherche, et pouvons modifier le format de chaque élément à volonté, et même y mettre un beau tableau. Cependant, un bon programme doit être capable de s'adapter à différents environnements d'exploitation, et ici ne fait pas exception. En fait, nous avons seulement discuté d'une méthode-cadre pour la suppression HTML des résultats de recherche. Pour le faire vraiment parfaitement, il y a beaucoup de choses à considérer. , comme Il affiche le nombre total de résultats de recherche, le nombre de pages en lesquelles il est divisé, etc. Il peut même supprimer la « catégorie », « l'introduction » et d'autres codes liés à Google, afin que les clients ne puissent pas voir le site Web d'origine sur tous. Cependant, nous pouvons tous extraire ces contenus et exigences en analysant le HTML. Désormais, chacun peut le faire lui-même et créer un moteur de recherche hautement personnalisé.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

Économie dans R.E.P.O. Expliqué (et enregistrer des fichiers)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Comment trouver le forgeron et déverrouiller les armes et la personnalisation des armes

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7569

Tutoriel CakePHP

1386

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

107

Afficher plus

Related knowledge

Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 apporte plusieurs nouvelles fonctionnalités, améliorations de sécurité et de performances avec une bonne quantité de dépréciations et de suppressions de fonctionnalités. Ce guide explique comment installer PHP 8.4 ou mettre à niveau vers PHP 8.4 sur Ubuntu, Debian ou leurs dérivés. Bien qu'il soit possible de compiler PHP à partir des sources, son installation à partir d'un référentiel APT comme expliqué ci-dessous est souvent plus rapide et plus sécurisée car ces référentiels fourniront les dernières corrections de bogues et mises à jour de sécurité à l'avenir.

Comment configurer Visual Studio Code (VS Code) pour le développement PHP Dec 20, 2024 am 11:31 AM

Visual Studio Code, également connu sous le nom de VS Code, est un éditeur de code source gratuit – ou environnement de développement intégré (IDE) – disponible pour tous les principaux systèmes d'exploitation. Avec une large collection d'extensions pour de nombreux langages de programmation, VS Code peut être c

7 fonctions PHP que je regrette de ne pas connaître auparavant Nov 13, 2024 am 09:42 AM

Si vous êtes un développeur PHP expérimenté, vous aurez peut-être le sentiment d'y être déjà allé et de l'avoir déjà fait. Vous avez développé un nombre important d'applications, débogué des millions de lignes de code et peaufiné de nombreux scripts pour réaliser des opérations.

Comment analysez-vous et traitez-vous HTML / XML dans PHP? Feb 07, 2025 am 11:57 AM

Ce tutoriel montre comment traiter efficacement les documents XML à l'aide de PHP. XML (Language de balisage extensible) est un langage de balisage basé sur le texte polyvalent conçu à la fois pour la lisibilité humaine et l'analyse de la machine. Il est couramment utilisé pour le stockage de données et

Expliquez les jetons Web JSON (JWT) et leur cas d'utilisation dans les API PHP. Apr 05, 2025 am 12:04 AM

JWT est une norme ouverte basée sur JSON, utilisée pour transmettre en toute sécurité des informations entre les parties, principalement pour l'authentification de l'identité et l'échange d'informations. 1. JWT se compose de trois parties: en-tête, charge utile et signature. 2. Le principe de travail de JWT comprend trois étapes: la génération de JWT, la vérification de la charge utile JWT et l'analyse. 3. Lorsque vous utilisez JWT pour l'authentification en PHP, JWT peut être généré et vérifié, et les informations sur le rôle et l'autorisation des utilisateurs peuvent être incluses dans l'utilisation avancée. 4. Les erreurs courantes incluent une défaillance de vérification de signature, l'expiration des jetons et la charge utile surdimensionnée. Les compétences de débogage incluent l'utilisation des outils de débogage et de l'exploitation forestière. 5. L'optimisation des performances et les meilleures pratiques incluent l'utilisation des algorithmes de signature appropriés, la définition des périodes de validité raisonnablement,

Programme PHP pour compter les voyelles dans une chaîne Feb 07, 2025 pm 12:12 PM

Une chaîne est une séquence de caractères, y compris des lettres, des nombres et des symboles. Ce tutoriel apprendra à calculer le nombre de voyelles dans une chaîne donnée en PHP en utilisant différentes méthodes. Les voyelles en anglais sont a, e, i, o, u, et elles peuvent être en majuscules ou en minuscules. Qu'est-ce qu'une voyelle? Les voyelles sont des caractères alphabétiques qui représentent une prononciation spécifique. Il y a cinq voyelles en anglais, y compris les majuscules et les minuscules: a, e, i, o, u Exemple 1 Entrée: String = "TutorialSpoint" Sortie: 6 expliquer Les voyelles dans la chaîne "TutorialSpoint" sont u, o, i, a, o, i. Il y a 6 yuans au total

Expliquez la liaison statique tardive en PHP (statique: :). Apr 03, 2025 am 12:04 AM

Liaison statique (statique: :) implémente la liaison statique tardive (LSB) dans PHP, permettant à des classes d'appel d'être référencées dans des contextes statiques plutôt que de définir des classes. 1) Le processus d'analyse est effectué au moment de l'exécution, 2) Recherchez la classe d'appel dans la relation de succession, 3) il peut apporter des frais généraux de performance.

Quelles sont les méthodes PHP Magic (__construct, __ destruct, __ call, __get, __set, etc.) et fournir des cas d'utilisation? Apr 03, 2025 am 12:03 AM

Quelles sont les méthodes magiques de PHP? Les méthodes magiques de PHP incluent: 1. \ _ \ _ Construct, utilisé pour initialiser les objets; 2. \ _ \ _ Destruct, utilisé pour nettoyer les ressources; 3. \ _ \ _ Appel, gérer les appels de méthode inexistants; 4. \ _ \ _ GET, Implémentez l'accès à l'attribut dynamique; 5. \ _ \ _ SET, Implémentez les paramètres d'attribut dynamique. Ces méthodes sont automatiquement appelées dans certaines situations, améliorant la flexibilité et l'efficacité du code.

See all articles