解析posix与perl标准的正则表达式区别

Maison

développement back-end

tutoriel php

解析posix与perl标准的正则表达式区别_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 21, 2016 pm 03:05 PM

perl posix et 区别标准正则 de 缩写表达式解析

正则表达式（Regular Expression，缩写为regexp，regex或regxp)，又称正规表达式、正规表示式或常规表达式或正规化表示法或正规表示法，是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里，正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在Perl中就内建了一个功能强大的在正则表达式引擎。正则表达式这个概念最初是由 Unix中的工具软件（例如sed和grep）普及开的。（摘自维基百科）

PHP同时使用两套正则表达式规则，一套是由电气和电子工程师协会（IEEE）制定的POSIX Extended 1003.2兼容正则（事实上PHP对此标准的支持并不完善），另一套来自PCRE（Perl Compatible Regular Expression）库提供PERL兼容正则，这是个开放源代码的软件，作者为 Philip Hazel。

使用POSIX兼容规则的函数有：
ereg_replace()
ereg()
eregi()
eregi_replace()
split()
spliti()
sql_regcase()
mb_ereg_match()
mb_ereg_replace()
mb_ereg_search_getpos()
mb_ereg_search_getregs()
mb_ereg_search_init()
mb_ereg_search_pos()
mb_ereg_search_regs()
mb_ereg_search_setpos()
mb_ereg_search()
mb_ereg()
mb_eregi_replace()
mb_eregi()
mb_regex_encoding()
mb_regex_set_options()
mb_split()

使用PERL兼容规则的函数有：
preg_grep()
preg_replace_callback()
preg_match_all()
preg_match()
preg_quote()
preg_split()
preg_replace()

定界符：

POSIX兼容正则没有定界符，函数的相应参数会被认为是正则。

PERL兼容正则可以使用任何不是字母、数字或反斜线（\）的字符作为定界符，如果作为定界符的字符必须被用在表达式本身中，则需要用反斜线转义。也可以使用()，{}，[] 和作为定界符

修正符：

POSIX兼容正则没有修正符。

PERL兼容正则中可能使用的修正符（修正符中的空格和换行被忽略，其它字符会导致错误）：

i (PCRE_CASELESS)：
匹配时忽略大小写。

m（PCRE_MULTILINE）：
当设定了此修正符，行起始(^)和行结束($)除了匹配整个字符串开头和结束外，还分别匹配其中的换行符(\n)的之后和之前。

s（PCRE_DOTALL）：
如果设定了此修正符，模式中的圆点元字符（.）匹配所有的字符，包括换行符。没有此设定的话，则不包括换行符。

x（PCRE_EXTENDED）：
如果设定了此修正符，模式中的空白字符除了被转义的或在字符类中的以外完全被忽略。

e：
如果设定了此修正符，preg_replace() 在替换字符串中对逆向引用作正常的替换，将其作为 PHP 代码求值，并用其结果来替换所搜索的字符串。只有 preg_replace() 使用此修正符，其它 PCRE 函数将忽略之。

A（PCRE_ANCHORED）：
如果设定了此修正符，模式被强制为“anchored”，即强制仅从目标字符串的开头开始匹配。

D（PCRE_DOLLAR_ENDONLY）：
如果设定了此修正符，模式中的行结束($)仅匹配目标字符串的结尾。没有此选项时，如果最后一个字符是换行符的话，也会被匹配在里面。如果设定了 m 修正符则忽略此选项。

S：
当一个模式将被使用若干次时，为加速匹配起见值得先对其进行分析。如果设定了此修正符则会进行额外的分析。目前，分析一个模式仅对没有单一固定起始字符的 non-anchored 模式有用。

U（PCRE_UNGREEDY）：
使“?”的默认匹配成为贪婪状态的。

X（PCRE_EXTRA）：
模式中的任何反斜线后面跟上一个没有特殊意义的字母导致一个错误，从而保留此组合以备将来扩充。默认情况下，一个反斜线后面跟一个没有特殊意义的字母被当成该字母本身。

u（PCRE_UTF8）：
模式字符串被当成UTF-8。

逻辑区隔：
POSIX兼容正则和PERL兼容正则的逻辑区隔符号作用和使用方法完全一致：
[]：包含任选一操作的相关信息。
{}：包含匹配次数的相关信息。
()：包含一个逻辑区间的相关信息，可被用来进行引用操作。
|：表示“或”，[ab]和a|b是等价的。

元字符与“[]”相关：

有两组不同的元字符：一种是模式中除了方括号内都能被识别的，还有一种是在方括号“[]”内被识别的。

POSIX兼容正则和PERL兼容正则“[]之外”“一致”的元字符：
\ 有数种用途的通用转义符
^ 匹配字符串的开头
$ 匹配字符串的结尾
? 匹配0或者1
* 匹配 0 个或多个前面指定类型的字符
+ 匹配 1 个或多个前面指定类型的字符

POSIX兼容正则和PERL兼容正则“[]之外”“不一致”的元字符：
. PERL兼容正则匹配除了换行符外的任意一个字符
. POSIX兼容正则匹配任意一个字符

POSIX兼容正则和PERL兼容正则“[]之内”“一致”的元字符：
\ 有数种用途的通用转义符
^ 取反字符，但仅当其为第一个字符时有效
- 指定字符ASCII范围，仔细研究ASCII码，你会发现[W-c]等价于[WXYZ\\^_`abc]

POSIX兼容正则和PERL兼容正则“[]之内”“不一致”的元字符：
- POSIX兼容正则中[a-c-e]的指定会抛出错误。
- PERL兼容正则中[a-c-e]的指定等价于[a-e]。

匹配次数与“{}”相关：
POSIX兼容正则和PERL兼容正则在匹配次数方面完全一致：
{2}：表示匹配前面的字符2次
{2,}：表示匹配前面的字符2次或多次，默认都是贪婪（尽可能多）的匹配
{2,4}：表示匹配前面的字符2次或4次

逻辑区间与“()”相关：
使用()包含起来的区域是一个逻辑区间，逻辑区间的主要作用是体现出一些字符出现的逻辑次序，另一个用处就是可以用来引用（可以将此区间内的值引用给一个变量）。后一个作用比较奇特：
$str = "http://www.163.com/";
// POSIX兼容正则：
echo ereg_replace("(.+)","\\1",$str);
// PERL兼容正则：
echo preg_replace("/(.+)/","$1",$str);
// 显示两个链接
?>

在引用的时候，括号是可以嵌套的，逻辑次序是按照“(”出现的次序来标定的。

类型匹配：
POSIX兼容正则：
[:upper:]：匹配所有的大写字母
[:lower:]：匹配所有的小写字母
[:alpha:]：匹配所有的字母
[:alnum:]：匹配所有的字母和数字
[:digit:]：匹配所有的数字
[:xdigit:]：匹配所有的十六进制字符，等价于[0-9A-Fa-f]
[:punct:]：匹配所有的标点符号，等价于 [.,"'?!;:]
[:blank:]：匹配空格和TAB，等价于[ \t]
[:space:]：匹配所有的空白字符，等价于[ \t\n\r\f\v]
[:cntrl:]：匹配所有ASCII 0到31之间的控制符。
[:graph:]：匹配所有的可打印字符，等价于：[^ \t\n\r\f\v]
[:print:]：匹配所有的可打印字符和空格，等价于：[^\t\n\r\f\v]
[.c.]：功能不明
[=c=]：功能不明
[:<:>[:>:]：匹配单词的结尾

PERL兼容正则（这里可以看出PERL正则的强大）：
\a alarm，即 BEL 字符（'0）
\cx "control-x"，其中 x 是任意字符
\e escape（'0B）
\f 换页符 formfeed（'0C）
\n 换行符 newline（'0A）
\r 回车符 carriage return（'0D）
\t 制表符 tab（'0）
\xhh 十六进制代码为 hh 的字符
\ddd 八进制代码为 ddd 的字符，或 backreference
\d 任一十进制数字
\D 任一非十进制数的字符
\s 任一空白字符
\S 任一非空白字符
\w 任一“字”的字符
\W 任一“非字”的字符
\b 字分界线
\B 非字分界线
\A 目标的开头（独立于多行模式）
\Z 目标的结尾或位于结尾的换行符前（独立于多行模式）
\z 目标的结尾（独立于多行模式）
\G 目标中的第一个匹配位置

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7464

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

La différence entre le multithreading et le C # asynchrone Apr 03, 2025 pm 02:57 PM

La différence entre le multithreading et l'asynchrone est que le multithreading exécute plusieurs threads en même temps, tandis que les opérations effectuent de manière asynchrone sans bloquer le thread actuel. Le multithreading est utilisé pour les tâches à forte intensité de calcul, tandis que de manière asynchrone est utilisée pour l'interaction utilisateur. L'avantage du multi-threading est d'améliorer les performances informatiques, tandis que l'avantage des asynchrones est de ne pas bloquer les threads d'interface utilisateur. Le choix du multithreading ou asynchrone dépend de la nature de la tâche: les tâches à forte intensité de calcul utilisent le multithreading, les tâches qui interagissent avec les ressources externes et doivent maintenir la réactivité de l'interface utilisateur à utiliser asynchrone.

Quelle est la fonction de la somme du langage C? Apr 03, 2025 pm 02:21 PM

Il n'y a pas de fonction de somme intégrée dans le langage C, il doit donc être écrit par vous-même. La somme peut être obtenue en traversant le tableau et en accumulant des éléments: Version de boucle: la somme est calculée à l'aide de la longueur de boucle et du tableau. Version du pointeur: Utilisez des pointeurs pour pointer des éléments de tableau, et un résumé efficace est réalisé grâce à des pointeurs d'auto-incitation. Allouer dynamiquement la version du tableau: allouer dynamiquement les tableaux et gérer la mémoire vous-même, en veillant à ce que la mémoire allouée soit libérée pour empêcher les fuites de mémoire.

La différence entre char et wchar_t dans le langage C Apr 03, 2025 pm 03:09 PM

Dans le langage C, la principale différence entre Char et WCHAR_T est le codage des caractères: Char utilise ASCII ou étend ASCII, WCHAR_T utilise Unicode; Char prend 1 à 2 octets, WCHAR_T occupe 2-4 octets; Char convient au texte anglais, WCHAR_T convient au texte multilingue; Le char est largement pris en charge, WCHAR_T dépend de la prise en charge du compilateur et du système d'exploitation Unicode; Le char est limité dans la gamme de caractères, WCHAR_T a une gamme de caractères plus grande et des fonctions spéciales sont utilisées pour les opérations arithmétiques.

Y a-t-il une application mobile qui peut convertir XML en PDF? Apr 02, 2025 pm 08:54 PM

Une application qui convertit le XML directement en PDF ne peut être trouvée car ce sont deux formats fondamentalement différents. XML est utilisé pour stocker des données, tandis que PDF est utilisé pour afficher des documents. Pour terminer la transformation, vous pouvez utiliser des langages de programmation et des bibliothèques telles que Python et ReportLab pour analyser les données XML et générer des documents PDF.

Quelle est la différence entre la structure de définition des mots clés `var` et« type »dans le langage Go? Apr 02, 2025 pm 12:57 PM

Deux façons de définir les structures dans le langage GO: la différence entre les mots clés VAR et le type. Lorsque vous définissez des structures, GO Language voit souvent deux façons d'écrire différentes: d'abord ...

Quelles sont les exigences de base pour les fonctions de langue C Apr 03, 2025 pm 10:06 PM

Les fonctions de langue C sont la base de la modularisation du code et de la construction de programmes. Ils se composent de déclarations (en-têtes de fonction) et de définitions (corps de fonction). Le langage C utilise des valeurs pour transmettre les paramètres par défaut, mais les variables externes peuvent également être modifiées à l'aide d'adresse Pass. Les fonctions peuvent avoir ou ne pas avoir de valeur de retour et le type de valeur de retour doit être cohérent avec la déclaration. La dénomination de la fonction doit être claire et facile à comprendre, en utilisant un chameau ou une nomenclature de soulignement. Suivez le principe de responsabilité unique et gardez la simplicité de la fonction pour améliorer la maintenabilité et la lisibilité.

Comment utiliser XPath pour rechercher à partir d'un nœud DOM spécifié en JavaScript? Apr 04, 2025 pm 11:15 PM

Explication détaillée de la méthode de recherche XPATH sous les nœuds DOM en JavaScript, nous devons souvent trouver des nœuds spécifiques de l'arbre Dom basé sur les expressions XPath. Si vous avez besoin de ...

Quelles sont les différences et les connexions entre C et C #? Apr 03, 2025 pm 10:36 PM

Bien que C et C # aient des similitudes, ils sont complètement différents: C est une gestion manuelle de la mémoire manuelle et un langage dépendant de la plate-forme utilisé pour la programmation système; C # est un langage orienté objet, des ordures et un langage indépendant de la plate-forme utilisé pour le bureau, l'application Web et le développement de jeux.

See all articles