1.正则表达式基础知识
含义:由普通字符和(a-z)和一些特殊字符组成的字符串模式
功能:有效性验证。
替换文本。
从一个字符串提取一个子字符串。
分类:POSIX和Perl
POSIX风格更容易掌握,但不能用于二进制模式,而perl相对比较复杂。
2.POSIX风格的正则表达式
1.编写正则表达式
表4.3 POSIX正则表达式语法格式列表
字 符
|
描 述
|
\
|
转义字符,用于转义特殊字符。例如,'.'匹配单个字符,'\.'匹配一个点号。'\-'匹配连字符'-','\\'匹配符号'\'
|
^
|
匹配输入字符串的开始位置。例如'^he'表示以'he'开头的字符串
|
$
|
匹配输入字符串的结束位置。例如,'ok$'表示以'ok'结尾的字符串
|
*
|
匹配前面的子表达式零次或多次。例如,'zo*'能匹配"z"以及"zoo"。*等价于{0,}
|
+
|
匹配前面的子表达式一次或多次。例如,'zo+'能匹配"zo"以及"zoo",但不能匹配"z"。+等价于{1,}
|
?
|
匹配前面的子表达式零次或一次。例如,'do(es)?'可以匹配"do"或"does"中的"do"。'?'等价于{0,1}
|
{n}
|
n是一个非负整数。匹配确定的n次。例如,'o{2}'不能匹配"Bob"中的'o',但是能匹配"food" 中的两个'o'
|
{n,}
|
n是一个非负整数。至少匹配n次。例如,'o{2,}'不能匹配"Bob"中的'o',但能匹配"foooood" 中的所有'o'。'o{1,}'等价于'o+'。'o{0,}'则等价于'o*'
|
{n,m}
|
m和n均为非负整数,其中n≤m。最少匹配n次且最多匹配m次。例如,"o{1,3}"将匹配"fooooood"中的前三个'o'。'o{0,1}'等价于'o?'。请注意在逗号和两个数之间不能有空格
|
?
|
当该字符紧跟在任何一个其他限制符(*, +, ?, {n}, {n,}, {n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少地匹配所搜索的字符串,而默认的贪婪模式则尽可能多地匹配所搜索的字符串。例如,对于字符串"oooo",'o+?'将匹配单个"o",而'o+' 将匹配所有'o'
|
.
|
匹配除"\n"之外的任何单个字符,要匹配包括'\n' 在内的任何字符,可以使用'[.\n]'的模式
|
(pattern)
|
匹配pattern并获取这一匹配。所获取的匹配保存到相应的数组中。要匹配圆括号字符,请使用 '\(' 或 '\)'
|
(?:pattern)
|
匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储。这在使用"或"|"来组合一个模式的各个部分时很有用。例如,'industr(?:y|ies).就是一个比'industry|industries'更简略的表达式
|
(?=pattern)
|
正向预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,'Windows(?=95|98|NT|2000)'能匹配"Windows 2000"中的"Windows",但不能匹配"Windows 3.1"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
|
(?!pattern)
|
负向预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows(?!95|98|NT|2000)'能匹配"'Windows 3.1"中的"Windows",但不能匹配"Windows 2000"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
|
x|y
|
匹配x或y。例如,'z|food' 能匹配"z"或"food",'(z|f)ood'则匹配"zood"或"food"
|
[xyz]
|
字符集合。匹配所包含的任意一个字符。例如,'[abc]'可以匹配"plain"中的'a'
|
[^xyz]
|
负值字符集合。匹配未包含的任意字符。例如,'[^abc]'可以匹配"plain"中的'p'
|
[a-z]
|
字符范围。匹配指定范围内的任意字符。例如,'[a-z]'可以匹配'a'到'z' 范围内的任意小写字母字符
|
[^a-z]
|
负值字符范围。匹配不在指定范围内的任意字符。例如,'[^a-z]'可以匹配不在'a' 到'z'范围内的任意字符
|
以下に簡単な正規表現の例をいくつか示します。
●'[A-Za-z0-9] ': 0 から 9 までのすべての大文字、小文字、および数字を表します。
●'^hello': hello で始まる文字列を表します。
●'world$': worldで終わる文字列を表します。
●'.at': 「cat」、「nat」など、「n」を除く任意の 1 文字で始まり「at」で終わる文字列を表します。
●'^[a-zA-Z]': 文字で始まる文字列を表します。
●'hi{2}': 文字 h の後に 2 つの i が続くこと、つまり hii を示します。
●'(go)+': 'gogo' など、少なくとも 1 つの 'go' 文字列を含む文字列を示します。
ID カード番号は通常、18 桁または 17 桁の後に X または Y の文字が続き、一致する必要があります。 ID 番号は次のように記述できます:
^[0-9]{17}([0-9]|X|Y)$
メールアドレスの正規表現は次のように記述できます:
^[a-zA-Z0 -9- ]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+$
2. 文字列マッチング
ereg() 関数と eregi() 関数
ereg( ) 関数 文字列が部分文字列に一致する場合を見つけて、一致した文字列の長さを返すことができます。また、パラメーターを使用して、一致した文字の配列を返すこともできます。構文形式は次のとおりです:
int ereg(string ($pattern), string $string [, array $regs])
コードをコピーします コードは次のとおりです:
/*この例では、文字列が ISO 形式 (YYYY-MM-DD) の日付であることを確認します */
$date="1988-08-09";
$len=ereg ('([0-9]{4} )-([0-9 ]{1,2})-([0-9]{1,2})', $date, $regs);//日付の形式は YYYY-MM-DD です
if ( $len)
{
echo " $regs[3].$regs[2].$regs[1]". "
"; //「09.08.1988」
echo $regs[0] を出力します。 "
"; / /出力 "1988-08-09"
echo $len; //出力 10
}
else
{
echo "間違った日付形式: $date";
3. 文字列置換
ereg_replace() 関数の構文形式は次のとおりです:
string ereg_replace(string $pattern, string $replacement, string $string)
説明: この関数は string $replacement を使用して文字列 $string の一部を置換します。 $pattern と一致し、置換された文字列を返します。一致するものが見つからない場合は、次のように
コードをコピーします:
$str="hello world" echo ereg_replace('[aeo]', 'x', $str ). "
"; // 'hxllx wxrld' を出力します
$res='
4.分割数组
使用split()函数可以完成与explode()函数一样的功能,而且可以根据给出的正则表达式来分割字符串,并返回一个数组。语法格式如下:
array split(string $pattern , string $string [, int $limit ])
5.产生正则表达式
3.Perl兼容的正则表达式
1.编写正则表达式
表4.4 Perl兼容正则表达式扩充的语法格式
字 符
|
描 述
|
\b
|
匹配一个单词边界,也就是指单词和空格间的位置。例如,'er\b'可以匹配"never"中的 'er',但不能匹配"verb"中的'er'
|
\B
|
匹配非单词边界。'er\B'能匹配"verb"中的'er',但不能匹配"never"中的'er'
|
\cx
|
匹配由x指明的控制字符。例如,'\cM'匹配一个Control-M或回车符。x的值必须为A~Z或a~z之一。否则,将'c'视为一个原义的'c'字符
|
\d
|
匹配一个数字字符。等价于'[0-9]'
|
\D
|
匹配一个非数字字符。等价于'[^0-9]'
|
\f
|
匹配一个换页符。等价于'\x0c'和'\cL'
|
\n
|
匹配一个换行符。等价于'\x0a'和'\cJ'
|
\r
|
匹配一个回车符。等价于'\x0d'和'\cM'
|
\s
|
匹配任何空白字符,包括空格、制表符、换页符等。等价于' [ \f\n\r\t\v] '
|
\S
|
匹配任何非空白字符。等价于' [^ \f\n\r\t\v] '
|
\t
|
匹配一个制表符。等价于'\x09'和'\cI'
|
\v
|
匹配一个垂直制表符。等价于'\x0b'和'\cK'
|
\w
|
匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'
|
\W
|
匹配任何非单词字符,等价于'[^A-Za-z0-9_]'
|
\xn
|
匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'\x41' 匹配"A"。'\x041'则等价于'\x04' & "1"。正则表达式中可以使用ASCII编码
|
\num
|
匹配num,其中num是一个正整数。对所获取的匹配的引用。例如,'(.)\1'匹配两个连续的相同字符
|
\n
|
标志一个八进制转义值或一个后向引用。如果\n之前至少有n个获取得子表达式,则n为后向引用。否则,如果n为八进制数字(0~7),则n为一个八进制转义值
|
\nm
|
标志一个八进制转义值或一个后向引用。如果\nm之前至少有nm个获取得子表达式,则 nm为后向引用。如果\nm之前至少有n个获取,则n为一个后跟文字m的后向引用。如果前面的条件都不满足,若 n和m均为八进制数字(0~7),则\nm将匹配八进制转义值nm
|
\nml
|
如果n为八进制数字(0~3),且m和l均为八进制数字(0~7),则匹配八进制转义值nml
|
\un
|
匹配n,其中n是用4个十六进制数字表示的Unicode字符。例如,'\u00A9'匹配版权符号(©)
|
2. 文字列一致
preg_match() 関数は文字列検索を実行します。 構文形式は次のとおりです:
int preg_match(string $pattern, string $subject [, array $matches [, int $flags ]])
説明: この関数のこの構造は ereg() 関数に似ています。この関数は、$subject 文字列から、$pattern で指定された正規表現に一致するコンテンツを検索します。
preg_match() 関数は、$pattern が一致した回数を返します。 preg_match() 関数は最初の一致後に検索を停止するため、0 回 (一致なし) または 1 回のいずれかです
preg_match_all() もあります。これは、最初の一致の末尾から文字列全体が検索されるまで検索を続けます。 。
preg_match_all() 関数のパラメータ $flags は、次の 3 つの値を取ることができます:
●PREG_PATTERN_ORDER。デフォルトの項目は、$matches[0] がすべてのパターン一致の配列、
$matches[1] が最初の括弧内のサブパターンと一致する文字列の配列、などを意味します。
●PREG_SET_ORDER。このフラグが設定されている場合、$matches[0] は最初の一致セットの配列、$matches[1] は 2 番目の一致セットの配列、というようになります。
●PREG_OFFSET_CAPTURE。 PREG_OFFSET_CAPTURE は、他の 2 つのタグと組み合わせて使用できます。このタグが設定されている場合、一致する結果ごとに関連する文字列オフセットも返されます。
3. 文字列の置換
preg_replace() 関数を使用すると、関数 ereg_replace() と同じ関数を完了し、文字列内で一致する部分文字列を検索し、その部分文字列を指定された文字列に置き換えることができます。
構文形式は次のとおりです:
mixed preg_replace(mixed $pattern,mixed $replacement,mixed $subject [, int $limit])
4. 文字列の分割
preg_split() 関数は文字列を分割する境界として正規表現を使用できます。 、部分文字列を配列に格納して返します。これは、split() 関数と似ています。
構文形式は次のとおりです:
array preg_split(string $pattern, string $subject [, int $limit [, int $flags ]])
注: この関数は大文字と小文字が区別され、$subject を含む配列を返します。 $pattern と一致する境界で区切られた部分文字列を含む行。
$limit はオプションのパラメーターです。指定すると、最大 $limit の文字列が返されます。省略するか、-1 を指定すると、制限はありません。
$flags の値は次の 3 つです:
●PREG_SPLIT_NO_EMPTY。このフラグが設定されている場合、関数は空ではない文字列のみを返します。
●PREG_SPLIT_DELIM_CAPTURE。このフラグが設定されている場合、区切り文字パターン内の括弧式の一致もキャプチャされて返されます。
PREG_SPLIT_OFFSET_CAPTURE。このフラグが設定されている場合、一致が発生するたびに、関連付けられた文字列オフセットも返されます。
4.3 例 - フォームの内容を確認する
[例 4.4] 正規表現を使用して、ユーザーが入力したフォームの内容が形式要件を満たしているかどうかを確認します。
新しい EX4_4_Hpage.php ファイルを作成し、次のコードを入力します。
コードをコピーします コードは次のとおりです:
include 'EX4_4_Hpage.php' //ファイルEX4_4Hpage.phpをインクルードします
$id=$_POST['ID'];
$pwd=$ _POST['PWD'];
$phone=$_POST['EMAIL'];
$checkid=preg_match('/^w{1,10 }$/', $id); //文字列が10文字以内かどうかを確認します
$checkpwd=preg_match('/^d{4,14}$/',$pwd); //文字列が10文字以内かどうかを確認しますと 14 桁の番号
$checkphone=preg_match('/^1d{10}$/',$phone); //1 から始まる 11 桁の番号かどうかを確認します
//メール アドレスの有効性を確認します
$ checkEmail=preg_match('/ ^[a-zA-Z0-9_-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+$/',$Email) ;
if($checkid&& $checkpwd&&$checkphone&&$checkEmail) //両方が 1 の場合、登録は成功です
else
echo "登録に失敗しました
?>
新建EX4_4_Ppage.php文件,输入以下代码:
2. 文字列一致
preg_match() 関数は文字列検索を実行します。 構文形式は次のとおりです:
int preg_match(string $pattern, string $subject [, array $matches [, int $flags ]])
説明: この関数のこの構造は ereg() 関数に似ています。この関数は、$subject 文字列から、$pattern で指定された正規表現に一致するコンテンツを検索します。
preg_match() 関数は、$pattern が一致した回数を返します。 preg_match() 関数は最初の一致後に検索を停止するため、0 回 (一致なし) または 1 回のいずれかです
preg_match_all() もあります。これは、最初の一致の末尾から文字列全体が検索されるまで検索を続けます。 。
preg_match_all() 関数のパラメータ $flags は、次の 3 つの値を取ることができます:
●PREG_PATTERN_ORDER。デフォルトの項目は、$matches[0] がすべてのパターン一致の配列、
$matches[1] が最初の括弧内のサブパターンと一致する文字列の配列、などを意味します。
●PREG_SET_ORDER。このフラグが設定されている場合、$matches[0] は最初の一致セットの配列、$matches[1] は 2 番目の一致セットの配列、というようになります。
●PREG_OFFSET_CAPTURE。 PREG_OFFSET_CAPTURE は、他の 2 つのタグと組み合わせて使用できます。このタグが設定されている場合、一致する結果ごとに関連する文字列オフセットも返されます。
3. 文字列の置換
preg_replace() 関数を使用すると、関数 ereg_replace() と同じ関数を完了し、文字列内で一致する部分文字列を検索し、その部分文字列を指定された文字列に置き換えることができます。
構文形式は次のとおりです:
mixed preg_replace(mixed $pattern,mixed $replacement,mixed $subject [, int $limit])
4. 文字列の分割
preg_split() 関数は文字列を分割する境界として正規表現を使用できます。 、部分文字列を配列に格納して返します。これは、split() 関数と似ています。
構文形式は次のとおりです:
array preg_split(string $pattern, string $subject [, int $limit [, int $flags ]])
注: この関数は大文字と小文字が区別され、$subject を含む配列を返します。 $pattern と一致する境界で区切られた部分文字列を含む行。
$limit はオプションのパラメーターです。指定すると、最大 $limit の文字列が返されます。省略するか、-1 を指定すると、制限はありません。
$flags の値は次の 3 つです:
●PREG_SPLIT_NO_EMPTY。このフラグが設定されている場合、関数は空ではない文字列のみを返します。
●PREG_SPLIT_DELIM_CAPTURE。このフラグが設定されている場合、区切り文字パターン内の括弧式の一致もキャプチャされて返されます。
PREG_SPLIT_OFFSET_CAPTURE。このフラグが設定されている場合、一致が発生するたびに、関連付けられた文字列オフセットも返されます。
4.3 例 - フォームの内容を確認する
[例 4.4] 正規表現を使用して、ユーザーが入力したフォームの内容が形式要件を満たしているかどうかを確認します。
新しい EX4_4_Hpage.php ファイルを作成し、次のコードを入力します。
コードをコピーします コードは次のとおりです:
include 'EX4_4_Hpage.php' //ファイルEX4_4Hpage.phpをインクルードします
$id=$_POST['ID'];
$pwd=$ _POST['PWD'];
$phone=$_POST['EMAIL'];
$checkid=preg_match('/^w{1,10 }$/', $id); //文字列が10文字以内かどうかを確認します
$checkpwd=preg_match('/^d{4,14}$/',$pwd); //文字列が10文字以内かどうかを確認しますと 14 桁の番号
$checkphone=preg_match('/^1d{10}$/',$phone); //1 から始まる 11 桁の番号かどうかを確認します
//メール アドレスの有効性を確認します
$ checkEmail=preg_match('/ ^[a-zA-Z0-9_-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+$/',$Email) ;
if($checkid&& $checkpwd&&$checkphone&&$checkEmail) //両方が 1 の場合、登録は成功です
else
echo "登録に失敗しました
?>
新建EX4_4_Ppage.php文件,输入以下代码:
复制代码 代码如下:
include 'EX4_4_Hpage.php'; //包含文件EX4_4Hpage.php
$id=$_POST['ID'];
$pwd=$_POST['PWD'];
$phone=$_POST['PHONE'];
$Email=$_POST['EMAIL'];
$checkid=preg_match('/^\w{1,10}$/',$id); //检查字符串是否在10个字符以内
$checkpwd=preg_match('/^\d{4,14}$/',$pwd); //检查是否在4-14个字符之间
$checkphone=preg_match('/^1\d{10}$/',$phone); //检查是否是以1开头的11位数子
//检查Email地址的合法性
$checkEmail=preg_match('/^[a-zA-Z0-9_\-]+@[a-zA-Z0-9\-]+\.[a-zA-Z0-9\-\.]+$/',$Email);
if($checkid&&$checkpwd&&$checkphone&&$checkEmail) //如果都为1,则注册成功
echo "注册成功!";
else
echo "注册失败,格式不对";
?>
http://www.bkjia.com/PHPjc/323889.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/323889.html技術記事 1. 正規表現の基礎知識 意味:通常の文字と(a-z)および一部の特殊文字で構成される文字列パターン 機能:正当性の検証。 置換テキスト。 文字列から...
を抽出します