PHP 正規表現は主に、文字列のパターン分割、マッチング、検索、置換操作に使用されます。一部の単純な環境では正規表現の使用が効率的でない場合があるため、PHP 正規表現をより効果的に使用する方法を包括的に検討する必要があります。
私の PHP 正規表現入門は、インターネット上の記事から始まりました。この記事では、PHP 正規表現の使い方を簡単なものから奥深いものまで説明していますが、習得するにはまだ時間がかかります。個人的には、使っているうちに忘れてしまうので、難しい知識についてはこの記事を4~5回繰り返し読んで理解するのに時間がかかることもあります。この本を読み続けると、規則的なルールを適用する能力が大幅に向上することがわかります。
PHP 正規表現の定義:
文字の配置とパターンの一致を記述するために使用される文法規則。これは主に、文字列のパターン分割、マッチング、検索、置換操作に使用されます。
PHP の通常の関数:
PHP には 2 つの標準関数セットがあり、どちらも同様の関数を持っています。
1 つのセットは PCRE (Perl 互換正規表現) ライブラリによって提供されます。接頭辞「preg_」が付いた名前の関数;
POSIX (Unix のポータブル オペレーティング システム インターフェイス) によって提供される拡張機能のセット。接頭辞「ereg_」が付いた名前の関数を使用します (POSIX の通常の関数ライブラリは PHP 5.3 以降使用が推奨されなくなり、PHP 6 から削除されます)POSIX 規則性が歴史の舞台に登場しようとしており、PCRE と perl の形式が似ているため、perl と php の間で切り替える方が便利であるため、ここでは PCRE 規則性の使用に焦点を当てます。
PCRE 正規表現
PCRE は Perl Compare Regular Expression の略で、Perl 互換の正規表現を意味します。PCRE では、パターン式 (正規表現) は通常、「/apple/」のように 2 つのバックスラッシュ「/」で囲まれます。
正規表現のいくつかの重要な概念には、メタキャラクター、エスケープ、パターン単位 (繰り返し)、反意語、参照、およびアサーションが含まれます。これらの概念は、記事 [1] で簡単に理解して習得できます。
一般的に使用されるメタ文字:
メタキャラクターの説明A は文字列の先頭のアトムと一致します
Z は文字列の末尾のアトムと一致します
b 単語 /bis/ の境界に一致します 先頭が /isb/ である文字列に一致します 末尾が /bisb/ である文字列に一致します 区切り
B 単語の境界を除く任意の文字に一致します /Bis/ 単語「This」の「is」に一致します
d [0-9]
に相当する数値と一致します。
D は、[^0-9]に相当する数字を除く任意の文字に一致します。
w [0-9a-zA-Z_]に相当する英語の文字、数字、またはアンダースコアと一致します。
W は、[^0-9a-zA-Z_]に相当する英字、数字、アンダースコアを除く任意の文字に一致します。
s は [ftv]と同等の空白文字に一致します。
S [^ftv]と同等の空白文字を除く任意の文字と一致します。
f x0c または cL と同等のフォーム フィードと一致しますは、x0a または cJ
と同等の改行文字に一致します。
x0d または cM に相当するキャリッジリターンと一致しますt x09 または cl
と同等のタブ文字と一致します。
v x0b または ck に相当する垂直タブ文字と一致します。oNN は 8 進数と一致します
xNN は 16 進数と一致します
cC 制御文字と一致します
パターン修飾子:
パターン修飾子は、大文字と小文字を区別したり、複数の行を一致させたりする場合に特に使用されます。この修飾子をマスターすると、遭遇する多くの問題が解決されることがあります。i - 大文字と小文字の両方に一致します
M - 文字列を複数行として扱います
S - 文字列を単一行として扱い、改行を通常の文字として扱い、「.」を任意の文字と一致させます
X - パターン内の空白は無視されます
U - 最も近い文字列
と一致します
e - 置換された文字列を式として使用します形式: /apple/i は、大文字と小文字を区別せずに、「apple」または「Apple」などに一致します。 /i
PCRE のパターン単位:
//1 最初の属性を抽出します/^d{2} ([W])d{2}\1d{4}$ は、「12-31-2006」、「09/27/1996」、「86 01 4321」などの文字列に一致します。 。しかし、上記の正規表現は「12/34-5678」の形式と一致しません。これは、パターン「[W]」の結果「/」がすでに格納されているためです。次の位置「1」が を参照する場合、一致するパターンも文字「/」です。
マッチング結果を保存する必要がない場合は、非保存パターンユニット「(?:)」を使用してください
たとえば、/(?:abc)(DEF)\1g/ は「aEEg」と一致します。一部の正規表現では、非ストレージ モード単位を使用する必要があります。それ以外の場合は、後続の参照の順序を変更する必要があります。上記の例は、/(abc)(CEF)2g/ と書くこともできます。