Dieses Tutorial zeigt, dass das Erstellen einer SEEPOINT -Suchmaschine mit der überträgenden WordPress -Funktionen unter Verwendung der strukturierten Datenextraktion von Diffbot übertrifft. Wir werden die API von Diffbot für das Kriechen und Suchen nutzen und ein Gehöft für die Entwicklung einsetzen.
Schlüsselvorteile:
Implementierung:
Wir erstellen eine SitePoint -Suchmaschine in zwei Schritten:
Der Diffbot -Crawljob:
Erstellen eines Crawljobs (unter Verwendung des Diffbot -PHP -Clients):
composer require swader/diffbot-php-client
job.php
: include 'vendor/autoload.php'; use Swader\Diffbot\Diffbot; $diffbot = new Diffbot('my_token'); // Replace 'my_token' with your Diffbot token $job = $diffbot->crawl('sp_search'); $job ->setSeeds(['https://www.sitepoint.com']) ->notify('your_email@example.com') // Replace with your email ->setMaxToCrawl(1000000) ->setMaxToProcess(1000000) ->setRepeat(1) ->setMaxRounds(0) ->setPageProcessPatterns(['']) ->setOnlyProcessIfNew(1) ->setUrlCrawlPatterns(['^http://www.sitepoint.com', '^https://www.sitepoint.com']) ->setApi($diffbot->createArticleAPI('crawl')->setMeta(true)->setDiscussion(false)); $job->call();
laufend php job.php
erstellt den Crawljob, der in der Diffbot -Crawbot -Schnittstelle sichtbar ist.
Suche nach der Such -API:
Verwenden Sie die Such -API, um die indizierten Daten abzufragen:
$search = $diffbot->search('author:"Bruno Skvorc"'); $search->setCol('sp_search'); $result = $search->call(); // Display results (example) echo '<table><thead><tr><td>Title</td><td>Url</td></tr></thead><tbody>'; foreach ($search as $article) { echo '<tr><td>' . $article->getTitle() . '</td><td><a href="' . $article->getResolvedPageUrl() . '">Link</a></td></tr>'; } echo '</tbody></table>';
Die Such -API unterstützt erweiterte Abfragen (Schlüsselwörter, Datumsbereiche, Felder, Boolesche Betreiber). Meta -Informationen sind über $search->call(true);
zugänglich. Der Crawljob -Status wird mit $diffbot->crawl('sp_search')->call();
.
Schlussfolgerung:
Diffbot bietet eine leistungsstarke Lösung zum Erstellen benutzerdefinierter Suchmaschinen. Für Einzelpersonen potenziell kostspielig, bietet Teams und Organisationen, die große Websites verwalten. Denken Sie daran, die Nutzungsbedingungen der Website vor dem Kriechen zu respektieren. Der nächste Teil konzentriert sich auf den Aufbau der GUI der Suchmaschine.
häufig gestellte Fragen (umformuliert und konsolidiert):
Dieser Abschnitt beantwortet gemeinsame Fragen zur Krabbeln, Indizierung und Verwendung von Diffbot für die Datenextraktion in großem Maßstab. Der ursprüngliche FAQ -Abschnitt ist ziemlich umfangreich und sich wiederholt. Diese kondensierte Version behält die Kerninformationen bei.
robots.txt
Datei, um den Zugriff einzuschränken. Das obige ist der detaillierte Inhalt vonKrabbeln und Durchsuchen von ganzen Domänen mit Diffbot. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!