PHP の通常の先読みおよび遡及分析アプリケーション-PHPチュートリアル-php.cn

PHP の通常の先読みおよび遡及分析アプリケーション

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-06-13 13:04:33

オリジナル

964 人が閲覧しました

PHP の通常の先読みおよび遡及分析アプリケーション

ログ分析を行う人は、膨大な量のデータの中から特定のデータパターンを見つけるために、多くの場合、何千ものログエントリを処理する必要があり、多くの複雑な正規表現を記述する必要があります。たとえば、ログファイル内の特定の文字列を含まないエントリを列挙したり、特定の文字列で始まらないエントリを検索したりできます。

正規表現には先読みと後読みという概念があり、これら 2 つの用語は正規表現エンジンのマッチング動作を非常に明確に表しています。注意すべき点の 1 つは、通常のテーブルです。表現における「前」と「後」は、私たちが一般に理解している前後とは少し異なります。私たちは通常、テキストの先頭の方向を「前」、テキストの終わりの方向を「後」と呼ぶことに慣れています。ただし、正規表現エンジンの場合はです。これは、テキストの先頭から末尾まで解析を開始するため (解析方向は通常のオプションで制御できます)、テキストの末尾の方向については、次のようになります。この時点では通常のエンジンがまだその領域に到達していないため、テキストヘッドの方向を「前」と呼びます。通常のエンジンがすでにその領域を通過しているため、テキストヘッドの方向を「後」と呼びます。

いわゆる先読みとは、正規表現が特定の文字に一致するときに、事前に「解析されていないテキスト」を調べて、一致するパターンに一致するかどうかを確認することです。先読みとは、正規表現がすでに一致しています。テキストをチェックして、一致パターンと一致するかどうかを確認します。特定のマッチングパターンの一致または不一致は、ポジティブマッチングおよびネガティブマッチングとも呼ばれます。 。

最新の高度な正規表現エンジンは一般に先読みをサポートしていますが、先読みのサポートはそれほど広範囲ではないため、ここではニーズを達成するために否定的な先読みを使用します。

最初のグループは何も一致しませんでしたが、2 番目のグループは文字列全体と一致しました。先ほどの正規表現に戻って分析してみましょう。実際、通常のエンジンが領域 A を解析するとき、すでに Bエリアの前進作業を開始します。このとき、A 領域が Null - .* は元々空文字との一致が許可されており、A 領域が先読み条件を満たしている場合に一致が成功したことがわかりました。ロボットではなく「2009」の文字列。したがって、照合プロセス全体ですべてのエントリが正常に照合されます。

.* を先読み式に移動します