Ce didacticiel montre la construction d'un moteur de recherche de point de point de point dépassant les capacités WordPress en utilisant l'extraction structurée de DIFFBOT. Nous tirons parti de l'API de Diffbot pour ramper et rechercher, en utilisant un environnement amélioré de propriété pour le développement.
Avantages clés:
Implémentation:
Nous allons créer un moteur de recherche de point de point en deux étapes:
Le DIFFBOT CRAWLJOB:
Création d'un randonnée (en utilisant le client Diffbot PHP):
composer require swader/diffbot-php-client
job.php
include 'vendor/autoload.php'; use Swader\Diffbot\Diffbot; $diffbot = new Diffbot('my_token'); // Replace 'my_token' with your Diffbot token $job = $diffbot->crawl('sp_search'); $job ->setSeeds(['https://www.sitepoint.com']) ->notify('your_email@example.com') // Replace with your email ->setMaxToCrawl(1000000) ->setMaxToProcess(1000000) ->setRepeat(1) ->setMaxRounds(0) ->setPageProcessPatterns(['']) ->setOnlyProcessIfNew(1) ->setUrlCrawlPatterns(['^http://www.sitepoint.com', '^https://www.sitepoint.com']) ->setApi($diffbot->createArticleAPI('crawl')->setMeta(true)->setDiscussion(false)); $job->call();
Crée le Crawljob, visible dans l'interface DIFFBOT CRAWLBOT. php job.php
Recherche avec l'API de recherche:
Utilisez l'API de recherche pour interroger les données indexées:
$search = $diffbot->search('author:"Bruno Skvorc"'); $search->setCol('sp_search'); $result = $search->call(); // Display results (example) echo '<table><thead><tr><td>Title</td><td>Url</td></tr></thead><tbody>'; foreach ($search as $article) { echo '<tr><td>' . $article->getTitle() . '</td><td><a href="' . $article->getResolvedPageUrl() . '">Link</a></td></tr>'; } echo '</tbody></table>';
. Le statut Crawljob est vérifié à l'aide de $search->call(true);
. $diffbot->crawl('sp_search')->call();
Conclusion:
Diffbot fournit une solution puissante pour créer des moteurs de recherche personnalisés. Bien que potentiellement coûteux pour les particuliers, il offre des avantages importants pour les équipes et les organisations qui gèrent de grands sites Web. N'oubliez pas de respecter les conditions d'utilisation du site Web avant de ramper. La partie suivante se concentrera sur la construction de l'interface graphique du moteur de recherche.
Questions fréquemment posées (reformulé et consolidé):
Cette section répond aux questions courantes concernant la rampe, l'indexation et l'utilisation de diffbot pour l'extraction de données à grande échelle. La section FAQ d'origine est assez étendue et répétitive; Cette version condensée maintient les informations de base.
robots.txt
pour restreindre l'accès. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!