このチュートリアルは、Diffbotの構造化データ抽出を使用してWordPress機能を超えるSitePoint検索エンジンの構築を示しています。 DiffbotのAPIをraw索して検索するために活用して、開発のために環境を改善する環境を採用します。
diffbotは、WordPressの機能を超えてカスタム検索エンジンの作成に優れています。
diffbot crawljob:
パターン(シードURL)に基づいて
クライアントのインストール:
crawljobを作成します。
検索APIで検索するjob.php
include 'vendor/autoload.php'; use Swader\Diffbot\Diffbot; $diffbot = new Diffbot('my_token'); // Replace 'my_token' with your Diffbot token $job = $diffbot->crawl('sp_search'); $job ->setSeeds(['https://www.sitepoint.com']) ->notify('your_email@example.com') // Replace with your email ->setMaxToCrawl(1000000) ->setMaxToProcess(1000000) ->setRepeat(1) ->setMaxRounds(0) ->setPageProcessPatterns(['']) ->setOnlyProcessIfNew(1) ->setUrlCrawlPatterns(['^http://www.sitepoint.com', '^https://www.sitepoint.com']) ->setApi($diffbot->createArticleAPI('crawl')->setMeta(true)->setDiscussion(false)); $job->call();
。php job.php
を使用してチェックされます
結論:
diffbotは、カスタム検索エンジンを作成するための強力なソリューションを提供します。個人にとっては潜在的に費用がかかりますが、大規模なWebサイトを管理するチームや組織に大きなメリットを提供します。 クロールする前にウェブサイトの利用規約を尊重することを忘れないでください。 次の部分では、検索エンジンのGUIの構築に焦点を当てます。
よくある質問(言い換えられ、統合された):
このセクションは、大規模なデータ抽出のために、クロール、インデックス作成、およびDiffbotの使用に関する一般的な質問に答えます。 元のFAQセクションは非常に広範で反復的です。この凝縮バージョンは、コア情報を維持します
以上がDiffbotでドメイン全体をrawって検索しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。