用difbot爬行和搜索整个域-php教程-PHP中文网

首页

后端开发

php教程

用difbot爬行和搜索整个域

Feb 17, 2025 am 11:30 AM

>本教程演示了使用Diffbot的结构化数据提取构建站点搜索引擎超过WordPress功能。我们将利用Diffbot的API进行爬行和搜索，并采用宅基地改进的开发环境。

Crawling and Searching Entire Domains with Diffbot

键优点：

> diffbot的爬网有效索引并更新SitePoint的内容。它允许自定义蜘蛛网址，通知，爬网限，刷新间隔和新页面处理。
diffbot搜索API有效地搜索了索引数据，甚至使用关键字，日期范围，特定字段和布尔运算符。
实现：

我们将分两个步骤创建一个Sitepoint搜索引擎：

crawljob到index sitepoint.com，自动更新新内容。

a（在后续文章中）通过搜索API查询索引数据。

> diffbot crawljob：

基于模式（种子URL）的

蜘蛛URL。> >使用指定的API引擎（例如，用于站点点文章的API）处理蜘蛛网

> 创建：

composer require swader/diffbot-php-client运行

job.php

使用搜索API搜索

include 'vendor/autoload.php';
use Swader\Diffbot\Diffbot;
$diffbot = new Diffbot('my_token'); // Replace 'my_token' with your Diffbot token
$job = $diffbot-&gt;crawl('sp_search');
$job
    -&gt;setSeeds(['https://www.sitepoint.com'])
    -&gt;notify('your_email@example.com') // Replace with your email
    -&gt;setMaxToCrawl(1000000)
    -&gt;setMaxToProcess(1000000)
    -&gt;setRepeat(1)
    -&gt;setMaxRounds(0)
    -&gt;setPageProcessPatterns([''])
    -&gt;setOnlyProcessIfNew(1)
    -&gt;setUrlCrawlPatterns(['^http://www.sitepoint.com', '^https://www.sitepoint.com'])
    -&gt;setApi($diffbot-&gt;createArticleAPI('crawl')-&gt;setMeta(true)-&gt;setDiscussion(false));
$job-&gt;call();

登录后复制

使用搜索API查询索引数据：> php job.php

Crawling and Searching Entire Domains with Diffbot

搜索API支持高级查询（关键字，日期范围，字段，布尔运算符）。元信息可通过

访问。使用。

$search = $diffbot-&gt;search('author:"Bruno Skvorc"');
$search-&gt;setCol('sp_search');
$result = $search-&gt;call();

// Display results (example)
echo '<table><thead><tr><td>Title</td><td>Url</td></tr></thead><tbody>';
foreach ($search as $article) {
    echo '<tr><td>' . $article-&gt;getTitle() . '</td><td><a href="' . $article->getResolvedPageUrl() . '">Link</a></td></tr>';
}
echo '</tbody></table>';

登录后复制

结论：

difbot为创建自定义搜索引擎提供了强大的解决方案。虽然对个人来说可能是昂贵的，但它为管理大型网站的团队和组织提供了巨大的好处。请记住在爬行之前尊重网站服务条款。下一部分将着重于构建搜索引擎的GUI。

>经常询问的问题（改写和合并）：> >本节回答了有关爬网，索引和使用Difbot进行大规模数据提取的常见问题。原始的常见问题解答部分非常广泛和重复。该凝结版本维护核心信息。

Diffbot的工作方式>： difbot使用AI和机器学习从网页中提取结构化数据。

>>爬一个整个域：使用爬网API，指定域和参数。

Difbot的

> ai驱动的数据提取，易于使用的API，可伸缩性。

搜索引擎爬行： bots扫描网站，收集用于索引的数据。> 爬网的网站优化：

>使用清晰的网站结构，符合SEO友好的URL，META标签和常规内容更新。 SiteMap的角色：

：站点地图将爬虫引导到重要页面。 Google的搜索引擎如何工作：

基于算法和算法的结果排名。