検索エンジン ボットの特定は、トラフィックの分類、スパムの除外、コンテンツの最適化に役立つため、Web サイトにとって非常に重要です。 PHP は、ボットを効果的に検出する方法を提供します。
ボットを検出する 1 つの方法には、HTTP ヘッダー データ内のユーザー エージェント文字列を検査することが含まれます。次の PHP コードは、正規表現を利用して一般的なボット パターンと一致します。
function _bot_detected() { return ( isset($_SERVER['HTTP_USER_AGENT']) && preg_match('/bot|crawl|slurp|spider|mediapartners/i', $_SERVER['HTTP_USER_AGENT']) ); }
このコードは、ユーザー エージェント文字列内の「bot」、「crawl」、「spider」などのキーワードをチェックします。大文字と小文字を区別しない (i) 修飾子により、大文字と小文字の両方のバリエーションが確実にキャプチャされます。
関数を使用するには、PHP スクリプトから関数を呼び出すだけです。
if (_bot_detected()) { // Perform actions specifically for bots, such as redirecting or logging }
ボット パターンのリストは、次のとおりではないことに注意することが重要です。網羅的な。新しいボットがリリースされると、それに応じて正規表現を更新する必要がある場合があります。また、ボット検出の精度をさらに高めるために、IP アドレスやリクエスト パターンなどの他の要素も考慮してください。
以上がPHP は正規表現を使用して検索エンジン ボットをどのように検出できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。