第4章 数据处理-php正则表达式-郑阿奇(续)
1.正则表达式基础知识
含义:由普通字符和(a-z)和一些特殊字符组成的字符串模式
功能:有效性验证。
替换文本。
从一个字符串提取一个子字符串。
分类:POSIX和Perl
POSIX风格更容易掌握,但不能用于二进制模式,而perl相对比较复杂。
2.POSIX风格的正则表达式
1.编写正则表达式
表4.3 POSIX正则表达式语法格式列表
字 符 |
描 述 |
\ |
转义字符,用于转义特殊字符。例如,'.'匹配单个字符,'\.'匹配一个点号。'\-'匹配连字符'-','\\'匹配符号'\' |
^ |
匹配输入字符串的开始位置。例如'^he'表示以'he'开头的字符串 |
$ |
匹配输入字符串的结束位置。例如,'ok$'表示以'ok'结尾的字符串 |
* |
匹配前面的子表达式零次或多次。例如,'zo*'能匹配"z"以及"zoo"。*等价于{0,} |
+ |
匹配前面的子表达式一次或多次。例如,'zo+'能匹配"zo"以及"zoo",但不能匹配"z"。+等价于{1,} |
? |
匹配前面的子表达式零次或一次。例如,'do(es)?'可以匹配"do"或"does"中的"do"。'?'等价于{0,1} |
{n} |
n是一个非负整数。匹配确定的n次。例如,'o{2}'不能匹配"Bob"中的'o',但是能匹配"food" 中的两个'o' |
{n,} |
n是一个非负整数。至少匹配n次。例如,'o{2,}'不能匹配"Bob"中的'o',但能匹配"foooood" 中的所有'o'。'o{1,}'等价于'o+'。'o{0,}'则等价于'o*' |
{n,m} |
m和n均为非负整数,其中n≤m。最少匹配n次且最多匹配m次。例如,"o{1,3}"将匹配"fooooood"中的前三个'o'。'o{0,1}'等价于'o?'。请注意在逗号和两个数之间不能有空格 |
? |
当该字符紧跟在任何一个其他限制符(*, +, ?, {n}, {n,}, {n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少地匹配所搜索的字符串,而默认的贪婪模式则尽可能多地匹配所搜索的字符串。例如,对于字符串"oooo",'o+?'将匹配单个"o",而'o+' 将匹配所有'o' |
. |
匹配除"\n"之外的任何单个字符,要匹配包括'\n' 在内的任何字符,可以使用'[.\n]'的模式 |
(pattern) |
匹配pattern并获取这一匹配。所获取的匹配保存到相应的数组中。要匹配圆括号字符,请使用 '\(' 或 '\)' |
(?:pattern) |
匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储。这在使用"或"|"来组合一个模式的各个部分时很有用。例如,'industr(?:y|ies).就是一个比'industry|industries'更简略的表达式 |
(?=pattern) |
正向预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,'Windows(?=95|98|NT|2000)'能匹配"Windows 2000"中的"Windows",但不能匹配"Windows 3.1"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始 |
(?!pattern) |
负向预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows(?!95|98|NT|2000)'能匹配"'Windows 3.1"中的"Windows",但不能匹配"Windows 2000"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始 |
x|y |
匹配x或y。例如,'z|food' 能匹配"z"或"food",'(z|f)ood'则匹配"zood"或"food" |
[xyz] |
字符集合。匹配所包含的任意一个字符。例如,'[abc]'可以匹配"plain"中的'a' |
[^xyz] |
负值字符集合。匹配未包含的任意字符。例如,'[^abc]'可以匹配"plain"中的'p' |
[a-z] |
字符范围。匹配指定范围内的任意字符。例如,'[a-z]'可以匹配'a'到'z' 范围内的任意小写字母字符 |
[^a-z] |
负值字符范围。匹配不在指定范围内的任意字符。例如,'[^a-z]'可以匹配不在'a' 到'z'范围内的任意字符 |
●'[A-Za-z0-9] ':表示所有的大写字母、小写字母及0到9的数字。
●'^hello':表示以hello开始的字符串。
●'world$':表示以world结尾的字符串。
●'.at':表示以除"\n"外的任意单个字符开头并以"at"结尾的字符串,如"cat"、"nat"等。
●'^[a-zA-Z]':表示一个以字母开头的字符串。
●'hi{2}':表示字母h后跟着两个i即hii。
●'(go)+':表示至少含有一个'go'字符串的字符串,如'gogo'
身份证号码一般由18位数字或17位数字后面加一个X或Y字母组成,要匹配身份证号码,可以写作:
^[0-9]{17}([0-9]|X|Y)$
Email地址的正则表达式可以写作:
^[a-zA-Z0-9\-]+@[a-zA-Z0-9\-]+\.[a-zA-Z0-9\-\.]+$
2.字符串的匹配
ereg()和eregi()函数
使用ereg()函数可以查找字符串与子字符串匹配的情况,并返回匹配字符串的长度,还可以借助参数返回匹配字符的数组。语法格式如下:
int ereg(string ($pattern) , string $string [, array $regs ])
复制代码 代码如下:
/*本例检查字符串是否是ISO格式的日期(YYYY-MM-DD) */
$date="1988-08-09";
$len=ereg ('([0-9]{4})-([0-9]{1,2})-([0-9]{1,2})', $date, $regs);//日期格式为YYYY-MM-DD
if ($len)
{
echo "$regs[3].$regs[2].$regs[1]". "
"; //输出"09.08.1988"
echo $regs[0] ."
"; //输出"1988-08-09"
echo $len; //输出10
}
else
{
echo "错误的日期格式: $date";
}
?>
3.字符串的替换
ereg_replace()函数语法格式如下:
string ereg_replace(string $pattern , string $replacement , string $string)
说明:函数使用字符串$replacement替换字符串$string中与$pattern匹配的部分,并返回替换后的字符串。若未找到匹配项,则原样返回
复制代码 代码如下:
$str="hello world";
echo ereg_replace('[aeo]', 'x',$str). "
"; //输出'hxllx wxrld'
$res='hello';
echo ereg_replace('hello', $res,$str); //使用超链接替换'hello'
?>
4.分割数组
使用split()函数可以完成与explode()函数一样的功能,而且可以根据给出的正则表达式来分割字符串,并返回一个数组。语法格式如下:
array split(string $pattern , string $string [, int $limit ])
5.产生正则表达式
3.Perl兼容的正则表达式
1.编写正则表达式
表4.4 Perl兼容正则表达式扩充的语法格式
字 符 |
描 述 |
\b |
匹配一个单词边界,也就是指单词和空格间的位置。例如,'er\b'可以匹配"never"中的 'er',但不能匹配"verb"中的'er' |
\B |
匹配非单词边界。'er\B'能匹配"verb"中的'er',但不能匹配"never"中的'er' |
\cx |
匹配由x指明的控制字符。例如,'\cM'匹配一个Control-M或回车符。x的值必须为A~Z或a~z之一。否则,将'c'视为一个原义的'c'字符 |
\d |
匹配一个数字字符。等价于'[0-9]' |
\D |
匹配一个非数字字符。等价于'[^0-9]' |
\f |
匹配一个换页符。等价于'\x0c'和'\cL' |
\n |
匹配一个换行符。等价于'\x0a'和'\cJ' |
\r |
匹配一个回车符。等价于'\x0d'和'\cM' |
\s |
匹配任何空白字符,包括空格、制表符、换页符等。等价于' [ \f\n\r\t\v] ' |
\S |
匹配任何非空白字符。等价于' [^ \f\n\r\t\v] ' |
\t |
匹配一个制表符。等价于'\x09'和'\cI' |
\v |
匹配一个垂直制表符。等价于'\x0b'和'\cK' |
\w |
匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]' |
\W |
匹配任何非单词字符,等价于'[^A-Za-z0-9_]' |
\xn |
匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'\x41' 匹配"A"。'\x041'则等价于'\x04' & "1"。正则表达式中可以使用ASCII编码 |
\num |
匹配num,其中num是一个正整数。对所获取的匹配的引用。例如,'(.)\1'匹配两个连续的相同字符 |
\n |
标志一个八进制转义值或一个后向引用。如果\n之前至少有n个获取得子表达式,则n为后向引用。否则,如果n为八进制数字(0~7),则n为一个八进制转义值 |
\nm |
标志一个八进制转义值或一个后向引用。如果\nm之前至少有nm个获取得子表达式,则 nm为后向引用。如果\nm之前至少有n个获取,则n为一个后跟文字m的后向引用。如果前面的条件都不满足,若 n和m均为八进制数字(0~7),则\nm将匹配八进制转义值nm |
\nml |
如果n为八进制数字(0~3),且m和l均为八进制数字(0~7),则匹配八进制转义值nml |
\un |
匹配n,其中n是用4个十六进制数字表示的Unicode字符。例如,'\u00A9'匹配版权符号(©) |
preg_match()函数进行字符串的查找,语法格式如下:
int preg_match(string $pattern , string $subject [, array $matches [, int $flags ]])
说明:该函数的结构与ereg()函数类似,在$subject字符串中搜索与$pattern给出的正则表达式相匹配的内容。
preg_match()函数返回$pattern所匹配的次数。不是0次(没有匹配)就是1次,因为preg_match()函数在第一次匹配之后将停止搜索
还有一个是preg_match_all(),从第一个匹配的末尾开始继续搜索,直到搜索完整个字符串。
preg_match_all()函数参数$flags的值可以取以下三种:
●PREG_PATTERN_ORDER。默认项,表示$matches[0]为全部模式匹配的数组,
$matches[1]为第一个括号中的子模式所匹配的字符串组成的数组,以此类推。
●PREG_SET_ORDER。如果设定此标记,则$matches[0]为第一组匹配项的数组,$matches[1]为第二组匹配项的数组,以此类推。
●PREG_OFFSET_CAPTURE。PREG_OFFSET_CAPTURE可以和其他两个标记组合使用,
如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符串偏移量。
3.字符串的替换
使用preg_replace()函数能够完成与函数ereg_replace()相同的功能,在字符串中查找匹配的子字符串,并用指定字符串替换子字符串。
语法格式如下:
mixed preg_replace(mixed $pattern , mixed $replacement , mixed $subject [, int $limit ])
4.字符串的分割
preg_split()函数可以使用正则表达式作为边界分割一个字符串,并将子字符串存入一个数组返回,作用与split()函数类似。
语法格式如下:
array preg_split(string $pattern , string $subject [, int $limit [, int $flags ]])
说明:本函数区分大小写,返回一个数组,数组包含$subject中沿着与$pattern匹配的边界所分割的子串。
$limit是可选参数,如果指定则最多返回$limit个字串,如果省略或为-1,则没有限制。
$flags的值可以是以下三种:
●PREG_SPLIT_NO_EMPTY。如果设定本标记,则函数只返回非空的字符串。
●PREG_SPLIT_DELIM_CAPTURE。如果设定本标记,定界符模式中的括号表达式的匹配项也会被捕获并返回。
PREG_SPLIT_OFFSET_CAPTURE。如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符串偏移量。
4.3实例-验证表单内容
【例4.4】 使用正则表达式验证用户输入的表单内容是否满足格式要求。
新建EX4_4_Hpage.php文件,输入以下代码。
复制代码 代码如下:
include 'EX4_4_Hpage.php'; //包含文件EX4_4Hpage.php
$id=$_POST['ID'];
$pwd=$_POST['PWD'];
$phone=$_POST['PHONE'];
$Email=$_POST['EMAIL'];
$checkid=preg_match('/^\w{1,10}$/',$id); //检查字符串是否在10个字符以内
$checkpwd=preg_match('/^\d{4,14}$/',$pwd); //检查是否在4~14个数字之间
$checkphone=preg_match('/^1\d{10}$/',$phone); //检查是否是以1开头的11位数字
//检查Email地址的合法性
$checkEmail=preg_match('/^[a-zA-Z0-9_\-]+@[a-zA-Z0-9\-]+\.[a-zA-Z0-9\-\.]+$/',$Email);
if($checkid&&$checkpwd&&$checkphone&&$checkEmail) //如果都为1,则注册成功
echo "注册成功!";
else
echo "注册失败,格式不对";
?>
新建EX4_4_Ppage.php文件,输入以下代码:
2.字符串匹配
preg_match()函数进行字符串的查找,语法格式如下:
int preg_match(string $pattern , string $subject [, array $matches [, int $flags ]])
说明:该函数的结构与ereg()函数类似,在$subject字符串中搜索与$pattern给出的正则表达式相匹配的内容。
preg_match()函数返回$pattern所匹配的次数。不是0次(没有匹配)就是1次,因为preg_match()函数在第一次匹配之后将停止搜索
还有一个是preg_match_all(),从第一个匹配的末尾开始继续搜索,直到搜索完整个字符串。
preg_match_all()函数参数$flags的值可以取以下三种:
●PREG_PATTERN_ORDER。默认项,表示$matches[0]为全部模式匹配的数组,
$matches[1]为第一个括号中的子模式所匹配的字符串组成的数组,以此类推。
●PREG_SET_ORDER。如果设定此标记,则$matches[0]为第一组匹配项的数组,$matches[1]为第二组匹配项的数组,以此类推。
●PREG_OFFSET_CAPTURE。PREG_OFFSET_CAPTURE可以和其他两个标记组合使用,
如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符串偏移量。
3.字符串的替换
使用preg_replace()函数能够完成与函数ereg_replace()相同的功能,在字符串中查找匹配的子字符串,并用指定字符串替换子字符串。
语法格式如下:
mixed preg_replace(mixed $pattern , mixed $replacement , mixed $subject [, int $limit ])
4.字符串的分割
preg_split()函数可以使用正则表达式作为边界分割一个字符串,并将子字符串存入一个数组返回,作用与split()函数类似。
语法格式如下:
array preg_split(string $pattern , string $subject [, int $limit [, int $flags ]])
说明:本函数区分大小写,返回一个数组,数组包含$subject中沿着与$pattern匹配的边界所分割的子串。
$limit是可选参数,如果指定则最多返回$limit个字串,如果省略或为-1,则没有限制。
$flags的值可以是以下三种:
●PREG_SPLIT_NO_EMPTY。如果设定本标记,则函数只返回非空的字符串。
●PREG_SPLIT_DELIM_CAPTURE。如果设定本标记,定界符模式中的括号表达式的匹配项也会被捕获并返回。
PREG_SPLIT_OFFSET_CAPTURE。如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符串偏移量。
4.3实例-验证表单内容
【例4.4】 使用正则表达式验证用户输入的表单内容是否满足格式要求。
新建EX4_4_Hpage.php文件,输入以下代码。
复制代码 代码如下:
include 'EX4_4_Hpage.php'; //包含文件EX4_4Hpage.php
$id=$_POST['ID'];
$pwd=$_POST['PWD'];
$phone=$_POST['PHONE'];
$Email=$_POST['EMAIL'];
$checkid=preg_match('/^\w{1,10}$/',$id); //检查字符串是否在10个字符以内
$checkpwd=preg_match('/^\d{4,14}$/',$pwd); //检查是否在4~14个数字之间
$checkphone=preg_match('/^1\d{10}$/',$phone); //检查是否是以1开头的11位数字
//检查Email地址的合法性
$checkEmail=preg_match('/^[a-zA-Z0-9_\-]+@[a-zA-Z0-9\-]+\.[a-zA-Z0-9\-\.]+$/',$Email);
if($checkid&&$checkpwd&&$checkphone&&$checkEmail) //如果都为1,则注册成功
echo "注册成功!";
else
echo "注册失败,格式不对";
?>
新建EX4_4_Ppage.php文件,输入以下代码:
复制代码 代码如下:
include 'EX4_4_Hpage.php'; //包含文件EX4_4Hpage.php
$id=$_POST['ID'];
$pwd=$_POST['PWD'];
$phone=$_POST['PHONE'];
$Email=$_POST['EMAIL'];
$checkid=preg_match('/^\w{1,10}$/',$id); //检查字符串是否在10个字符以内
$checkpwd=preg_match('/^\d{4,14}$/',$pwd); //检查是否在4-14个字符之间
$checkphone=preg_match('/^1\d{10}$/',$phone); //检查是否是以1开头的11位数子
//检查Email地址的合法性
$checkEmail=preg_match('/^[a-zA-Z0-9_\-]+@[a-zA-Z0-9\-]+\.[a-zA-Z0-9\-\.]+$/',$Email);
if($checkid&&$checkpwd&&$checkphone&&$checkEmail) //如果都为1,则注册成功
echo "注册成功!";
else
echo "注册失败,格式不对";
?>

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP에서 eol의 의미와 코드 예제에 대한 심층적인 이해 PHP 프로그래밍에서 eol은 줄의 끝인 "EndOfLine"을 나타내는 일반적인 용어입니다. 운영 체제에 따라 줄의 끝이 다르게 표현될 수 있는데, 이는 eol이라는 개념으로 이어집니다. Windows 시스템에서는 줄 끝이 캐리지 리턴()과 줄 바꿈(), 즉 ""로 구성되지만 Unix/Linux 시스템에서는 줄 끝이 줄 바꿈()으로만 표시됩니다. 이다, "". 이러한 차이로 인해 운영 체제가 달라질 수 있습니다.

Kuaishou는 중국 최고의 짧은 동영상 플랫폼으로서 많은 사용자를 보유하고 있으며 비공개 메시징 기능은 사용자 간의 상호 작용을 위한 중요한 채널입니다. 그러나 일부 사용자는 비공개 메시지에 콘텐츠를 표시하는 기능이 불편하다고 생각하여 이 기능을 선택적으로 끌 수 있기를 원할 수 있습니다. 1. Kuaishou 비공개 메시지의 콘텐츠 표시 기능을 끄는 방법은 무엇입니까? 1. Kuaishou 앱을 열고 개인 계정에 로그인하세요. 2. Kuaishou 메인 인터페이스에 들어가서 오른쪽 하단에 있는 "내" 버튼을 클릭하여 개인 센터에 들어갑니다. 3. 개인센터 페이지에서 아바타를 클릭하여 개인설정에 진입합니다. 4. 개인 설정 페이지에서 "개인 정보 설정" 옵션을 찾아 클릭하여 들어갑니다. 5. 개인정보 설정 페이지에서 "비공개 메시지에 콘텐츠 표시" 옵션을 찾아 클릭하여 들어갑니다. 6. 비공개 메시지 표시 내용 설정 페이지에서 '비공개 메시지 표시 내용' 기능을 꺼주세요.

Golang 정규 표현식은 파이프 문자 |를 사용하여 여러 단어 또는 문자열을 일치시키고 각 옵션을 논리적 OR 표현식으로 구분합니다. 예: "fox" 또는 "dog"와 일치: fox|dog은 "quick", "brown" 또는 "lazy"와 일치: (quick|brown|lazy)는 "Go", "Python" 또는 "Java"와 일치: Go| Python |Java는 단어 또는 4자리 우편번호와 일치합니다: ([a-zA

Golang은 동시성, 효율적인 메모리 관리, 기본 데이터 구조 및 풍부한 타사 라이브러리를 통해 데이터 처리 효율성을 향상시킵니다. 구체적인 장점은 다음과 같습니다. 병렬 처리: 코루틴은 동시에 여러 작업 실행을 지원합니다. 효율적인 메모리 관리: 가비지 수집 메커니즘이 자동으로 메모리를 관리합니다. 효율적인 데이터 구조: 슬라이스, 맵, 채널과 같은 데이터 구조는 데이터에 빠르게 액세스하고 처리합니다. 타사 라이브러리: fasthttp 및 x/text와 같은 다양한 데이터 처리 라이브러리를 포함합니다.

WICC 코인이란 무엇입니까? WICC 코인은 WaykiChainCoin의 약자로, 블록체인 기술을 기반으로 한 디지털 화폐입니다. 효율적이고 확장 가능하며 안전한 공개 체인인 WaykiChain은 기업과 개발자에게 완전한 블록체인 인프라와 혁신적인 도구를 제공하기 위해 최선을 다하고 있습니다. WaykiChain 생태계의 핵심 토큰인 WICC 코인은 플랫폼에서 중요한 역할을 합니다. WICC 통화의 특징 1. 안전하고 신뢰할 수 있음: WaykiChain은 DPoS 합의 알고리즘을 채택하고 신뢰할 수 있는 분산 잠금 메커니즘과 합의 메커니즘을 갖추고 있어 높은 수준의 네트워크 보안을 보장합니다. 2. 효율성 및 확장성: WaykiChain은 밀리초 수준의 거래 확인 속도를 가지며 초당 수천 건의 거래를 처리할 수 있습니다.

MySQL 호스트 이름의 의미 및 구체적인 사용법 MySQL은 다양한 웹 애플리케이션에서 널리 사용되는 인기 있는 오픈 소스 관계형 데이터베이스 관리 시스템입니다. MySQL에서 호스트 이름은 데이터베이스 서버에 연결된 호스트의 이름을 지정하는 데 사용되는 중요한 개념입니다. 이번 글에서는 MySQL 호스트네임의 의미와 실제 개발에서 어떻게 활용하는지 자세히 설명하겠습니다. MySQL 호스트 이름의 의미: MySQL에서 호스트 이름은 허용되는 연결을 지정하는 데 사용됩니다.

Redis를 사용하여 Laravel 애플리케이션의 데이터 처리 효율성을 향상하세요. 인터넷 애플리케이션의 지속적인 개발로 인해 데이터 처리 효율성은 개발자의 초점 중 하나가 되었습니다. Laravel 프레임워크를 기반으로 애플리케이션을 개발할 때 Redis를 사용하여 데이터 처리 효율성을 향상하고 데이터에 대한 빠른 액세스 및 캐싱을 달성할 수 있습니다. 이 글에서는 Laravel 애플리케이션에서 데이터 처리를 위해 Redis를 사용하는 방법을 소개하고 구체적인 코드 예제를 제공합니다. 1. Redis 소개 Redis는 고성능 메모리 데이터입니다.

Laravel과 CodeIgniter의 데이터 처리 기능을 비교해 보세요. ORM: Laravel은 클래스-객체 관계형 매핑을 제공하는 EloquentORM을 사용하는 반면, CodeIgniter는 데이터베이스 모델을 PHP 클래스의 하위 클래스로 표현하기 위해 ActiveRecord를 사용합니다. 쿼리 빌더: Laravel에는 유연한 체인 쿼리 API가 있는 반면, CodeIgniter의 쿼리 빌더는 더 간단하고 배열 기반입니다. 데이터 검증: Laravel은 사용자 정의 검증 규칙을 지원하는 Validator 클래스를 제공하는 반면, CodeIgniter는 내장된 검증 기능이 적고 사용자 정의 규칙을 수동으로 코딩해야 합니다. 실제 사례: 사용자 등록 예시에서는 Lar를 보여줍니다.
