バランスの取れたグループ正規表現の詳細な説明-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

バランスの取れたグループ正規表現の詳細な説明

微波

Jun 28, 2017 pm 01:37 PM

バランス通常表現

この記事は主に正規表現を紹介します - バランスのとれたグループの詳細な説明です

この記事はあなたに適していますか?

この記事の本質を理解するには、通常のマッチング原則の基礎を理解しておく必要があります。たとえば、「.*?」はテキストコンテンツ「asp163」と一致します。正規表現について少し知っている人なら誰でもそれが一致することを知っていますが、その一致プロセスを知っていますか?これについてよく理解していない場合は、次の内容が適していない可能性があります。おそらく、内容が難しすぎて、バランスグループの使用法が理解できない可能性があります。したがって、まず正規表現 NFA エンジンのマッチング原理を理解することをお勧めします。分かりやすい説明をまとめるのに少し時間がかかりますが、この内容で期待した効果が得られるかはわかりません。ゆっくり改善してください~ (注: これは 2010 年に書きました。時間があるときに、読者として読んでください。問題のある部分を修正し、いくつかの例を追加して、できるだけ理解しやすいようにします。)

一般的な通常のチュートリアルでのバランスのとれたグループの紹介

ネスト可能な階層構造に一致させたい場合は、バランスのとれたグループを使用する必要があります。たとえば、「xx aa> yy」のような string 内の最長の山括弧内のコンテンツをキャプチャするにはどうすればよいでしょうか?

ここでは次の構文構造を使用する必要があります:
(?<group>) キャプチャしたコンテンツにグループという名前を付け、スタックにプッシュします(?<group>) 把捕获的内容命名为group,并压入堆栈
(?<-group>) 从堆栈上弹出最后压入堆栈的名为group的捕获内容，如果堆栈本来为空，则本分组的匹配失败
(?(group)yes|no) 如果堆栈上存在以名为group的捕获内容的话，继续匹配yes部分的表达式，否则继续匹配no部分
(?!) 顺序否定环视，由于没有后缀表达式，试图匹配总是失败

如果你不是一个程序员（或者你是一个对堆栈的概念不熟的程序员），你就这样理解上面的三种语法吧：第一个就是在黑板上写一个（或再写一个）"group"，第二个就是从黑板上擦掉一个"group"，第三个就是看黑板上写的还有没有"group"，如果有就继续匹配yes部分，否则就匹配no部分。
我们需要做的是每碰到了左括号，就在黑板上写一个"group"，每碰到一个右括号，就擦掉一个，到了最后就看看黑板上还有没有－如果有那就证明左括号比右括号多，那匹配就应该失败（为了能看得更清楚一点，我用了(?'group')的语法）：

<         #最外层的左括号
 [^<>]*     #最外层的左括号后面的不是括号的内容
 (
  (
   (?&#39;Open&#39;<) #碰到了左括号，在黑板上写一个"Open"
   [^<>>]*   #匹配左括号后面的不是括号的内容
  )+
  (
   (?&#39;-Open&#39;>) #碰到了右括号，擦掉一个"Open"
   [^<>]*   #匹配右括号后面不是括号的内容
  )+
 )*
 (?(Open)(?!))  #在遇到最外层的右括号前面，判断黑板上还有没有没擦掉的"Open"；如果有，则匹配失败
>         #最外层的右括号

ログイン後にコピー

我为什么写这篇文章

看了上面的介绍，你明白了吗？在我未理解正则表达式匹配原理之前，看上面对于平衡组的介绍，似懂非懂，且只能当做模板记住，而不能灵活运用。因此查阅大量有关正则方面的资料，这里尤其感谢lxcnn的技术文档及《精通正则表达式》这本书，让我对正则表达式有了更深入、更系统的理解，因此，在它们的基础之上，我就结合自己的学习经历做个小结，一来做为学习笔记存档，另外，如果能解决你的疑惑，也是件让人高兴的事。
我先暂不分析上面的代码，先讲解一下关于平衡组相关的概念及知识。
下面表达式匹配测试工具为：Expresso，本站也提供它的完美破解版下载。

平衡组的概念及作用

平衡组，故名思义，平衡即对称，主要是结合几种正则语法规则，提供对配对出现的嵌套结构的匹配。平衡组有狭义与广义两种定义，狭义平衡组指(?Expression) 语法，而广义平衡组并不是固定的语法规则，而是几种语法规则的综合运用，我们平时所说的平衡组通常指的是广义平衡组。本文中如无特殊说明，平衡组这种简写指的是广义平衡组。
平衡组的匹配原理
平衡组的匹配原理可以用堆栈来解释，先举个例子，再根据例子进行解释。

源字符串：a+(b*(c+d))/e+f-(g/(h-i))*j<br/>正则表达式：((?<Open>()|(?<−Open>)|[^()])*(?(Open)(?!)))
需求说明：匹配成对出现的()中的内容
输出：(b*(c+d)) 和 (g/(h-i))(?<-group> ) 最後にスタックにプッシュされたグループという名前のキャプチャされたコンテンツをスタックからポップします。スタックが元々空の場合、このグループのマッチングは失敗します
(?(group)yes|no) スタック上に group という名前のキャプチャされたコンテンツがある場合は、式の Yes 部分との一致を継続し、それ以外の場合は no 部分との一致を継続します

(?!) そこからのシーケンスは探索を無効にします。は接尾辞式ではありません。合計を一致させようとしてください。これは失敗です

あなたがプログラマーでない場合 (またはスタックの概念に慣れていないプログラマーである場合)、上記の 3 つの構文は次のように理解できます。 1 つ目は黒板に「グループ」を書く (または別の 1 つを書く)、2 つ目は黒板から「グループ」を消す、そして 3 つ目は黒板にまだ「グループ」が書かれているかどうかを確認することです。存在する場合は、引き続き「はい」部分と一致し、そうでない場合は「いいえ」部分と一致します。

私たちがしなければならないことは、左括弧に遭遇するたびに、黒板に「グループ」と書き、右括弧に遭遇するたびに、最後に黒板に何か残っているかどうかを確認します。左括弧が右括弧より多い場合、一致は失敗するはずです (より明確に見るために、(?'group') の構文を使用しました):

 \(        #普通字符“(”
  (       #分组构造，用来限定量词“*”修饰范围
   (?<Open>\() #命名捕获组，遇到开括弧“Open”计数加1
   |      #分支结构
   (?<-Open>\)) #狭义平衡组，遇到闭括弧“Open”计数减1
   |      #分支结构
   [^()]+    #非括弧的其它任意字符
  )*       #以上子串出现0次或任意多次
  (?(Open)(?!)) #判断是否还有“Open”，有则说明不配对，什么都不匹配
 \)       #普通闭括弧

ログイン後にコピー

🎜🎜なぜ書いたかこの記事🎜🎜🎜上記の「はじめに」を読んで、理解できましたか?正規表現マッチングの原理を理解する前に、上記のバランスドグループの紹介を見ると、分かるようで理解できず、テンプレートとしてしか覚えられず、柔軟に活用できませんでした。そのため、正規表現についての情報をたくさん読みました。特に、正規表現をより深く体系的に理解できるようになった lxcnn の技術ドキュメントと書籍「Mastering Regular Expressions」に感謝しています。以上、私自身の学習経験をもとにまとめてみましたので、まずは学習ノートとして残しておきますので、疑問点が解決できれば幸いです。 🎜今回は上記のコードの分析は行いませんが、まずはバランスグループに関する概念や知識について説明します。 🎜次の表現一致テストツールは Expresso です。このサイトでは、ダウンロード用の完璧なクラックバージョンも提供しています。 🎜🎜🎜バランスグループの概念と機能🎜🎜🎜バランスグループは、その名前が示すように、主にいくつかの正規の文法規則を組み合わせて、ペアで現れる入れ子構造のマッチングを提供します。バランスグループには狭義と広義の 2 つの定義があります。狭義のバランスグループは (?Expression) 文法を指しますが、広義のバランスグループは固定的な文法規則ではなく包括的なものです。いくつかの文法規則を適用することで、通常、いわゆるバランスのとれたグループは、一般化されたバランスのとれたグループを指します。この記事で特に指定がない限り、バランスグループの略語は一般化されたバランスグループを指します。 🎜バランス型グループのマッチング原理🎜 バランス型グループのマッチング原理は、最初に例を挙げ、次にその例に基づいて説明します。 🎜🎜ソース文字列: a+(b*(c+d))/e+f-(g/(h-i))*j🎜正規表現: ((?< Open> ()|(?<−Open>)|[^()])*(?(Open)(?!)))🎜要件の説明: () のペアのコンテンツと一致します🎜出力: < code>(b*(c+d)) and (g/(h-i))🎜上記の正規表現コードを別々の行に記述し、階層的に見えるようにコメントを追加しました🎜

<table>
<tr>
<td id="td1"> </td>
<td id="td2">
<table>
<tr>
<td>snhame</td>
<td>f</td>
</tr>
</table>
</td>
<td></td>
</tr> </table>

ログイン後にコピー

🎜ネストされたコードの場合この例では、開始タグと終了タグが決定され、次のステップでは中間の文字が 3 つのカテゴリに分けられます。 1 つは「(」、もう 1 つは「)」で、残りはこれら 2 文字以外の任意の文字です。 🎜🎜すると、バランスグループのマッチング原理は次のようになります🎜

1、先找到第一个“(”，作为匹配的开始。即上面的第1行，匹配了：a+(b*(c+d))/e+f-(g/(h-i))*j （红色显示部分）

2、在第1步以后，每匹配到一个“(”，就入栈一个Open捕获组，计数加1

3、在第1步以后，每匹配到一个“)”，就出栈最近入栈的Open捕获组，计数减1

也就是讲，上面的第一行正则“$”匹配了：a+(b*(c+d))/e+f-(g/(h-i))*j （红色显示部分）
然后，匹配到c前面的“(”，此时，计数加1；继续匹配，匹配到d后面的“)”，计算减1；——注意喽：此时堆栈中的计数是0，正则还是会向前继续匹配的，但是，如果匹配到“)”的话，比如，这个例子中d))（红色显示的括号）——引擎此时将控制权交给(?(Open)(?!))，判断堆栈中是否为0，如果为0，则执行匹配“no”分支，由于这个条件判断结构中没有“no”分支，所以什么都不做，把控制权交给接下来的“$”
这个正则表达式“\)”可匹配接下来的)，即b))（红色显示的括号）

4、后面的 (?(Open)(?!))用来保证堆栈中Open捕获组计数是否为0，也就是“(”和“)”是配对出现的

5、最后的“)”，作为匹配的结束

匹配过程

首先匹配第一个“(”，然后一直匹配，直到出现以下两种情况之一时，把控制权交给(?(Open)(?!))：
a)堆栈中Open计数已为0，此时再遇到“)”
b)匹配到字符串结束符
这时控制权交给(?(Open)(?!))，判断Open是否有匹配，由于此时计数为0，没有匹配，那么就匹配“no”分支，由于这个条件判断结构中没有“no”分支，所以什么都不做，把控制权交给接下来的“\)”
如果上面遇到的是情况a)，那么此时“\)”可以匹配接下来的“)”，匹配成功；
如果上面遇到的是情况b)，那么此时会进行回溯，直到“\)”匹配成功为止，否则报告整个表达式匹配失败。
由于.NET中的狭义平衡组“(?<Close-Open>Expression)”结构，可以动态的对堆栈中捕获组进行计数，匹配到一个开始标记，入栈，计数加1，匹配到一个结束标记，出栈，计数减1，最后再判断堆栈中是否还有Open，有则说明开始和结束标记不配对出现，不匹配，进行回溯或报告匹配失败；如果没有，则说明开始和结束标记配对出现，继续进行后面子表达式的匹配。
需要对“(?!)”进行一下说明，它属于顺序否定环视，完整的语法是“(?!Expression)”。由于这里的“Expression”不存在，表示这里不是一个位置，所以试图尝试匹配总是失败的，作用就是在Open不配对出现时，报告匹配失败。

下面在看个例子：

<table>
<tr>
<td id="td1"> </td>
<td id="td2">
<table>
<tr>
<td>snhame</td>
<td>f</td>
</tr>
</table>
</td>
<td></td>
</tr> </table>

ログイン後にコピー

以上为部分的HTML代码.现在我们的问题是要提取出其的标签并将其删除掉，以往我们惯用的方法都是直接去取,像[\s\S]+?\，不过问题出来了,我们提取到的不是我们想要的内容,而是

<td id="td2">
<table>
<tr>
<td>snhame</td>

ログイン後にコピー

原因也很简单,它和离他最近的标签匹配上了,不过它不知道这个标签不是它的-_-，是不是就是?符号的原因呢,我们去掉让他无限制贪婪,可这下问题更大了,什么乱七八糟的东东它都匹配到了

<td id="td2">
<table>
<tr>
<td>snhame</td>
f

ログイン後にコピー

这个结果也不是我们想要的。那么我就用“平衡组”来解决吧。

]*>((?]*>)+|(?<-mm>)|[\s\S])*?(?(mm)(?!))

匹配的结果是

<td id="td2">
<table>
<tr>
<td>snhame</td>
f

ログイン後にコピー

这正是我们想要的
注意，我开始写成这样的方式

<td\s*id="td2"[^>]*>((?<mm><td[^>]*>)+|(?<-mm></td>)|[\s\S])*(?(mm)(?!))</td>

ログイン後にコピー

匹配的结果是

<td id="td2">
<table>
<tr>
<td>snhame</td>
f

ログイン後にコピー

一个问题
以下代码只是做为一个问题探讨
文本内容：e+f(-(g/(h-i))*j

正则表达式：

\(
 (
  (?<mm>\()
  |
  (?<-mm>\))
  |
  .
 )*?
 (?(mm)(?!))
\)

ログイン後にコピー

匹配的结果是：(-(g/(h-i))

以上がバランスの取れたグループ正規表現の詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7715

Java チュートリアル

1641

CakePHP チュートリアル

1395

Laravel チュートリアル

1289

PHP チュートリアル

1232

Related knowledge

PHP正規表現で何かで始まる文字列を置換する方法 Mar 24, 2023 pm 02:57 PM

PHP 正規表現は、テキストの処理と変換のための強力なツールです。テキストコンテンツを解析し、特定のパターンに従って置換またはインターセプトすることで、テキスト情報を効果的に管理できます。その中でも、正規表現の一般的な応用例は、特定の文字で始まる文字列を置換することです。

Golang 正規表現を使用して複数の単語または文字列を照合するにはどうすればよいですか? May 31, 2024 am 10:32 AM

正規表現を使用してPHPで漢字を削除する方法 Mar 03, 2023 am 10:12 AM

正規表現を使用して PHP で中国語を削除する方法: 1. PHP サンプルファイルを作成する; 2. 中国語と英語を含む文字列を定義する; 3. "preg_replace('/([\x80-\xff]*)/i', '',$a);" 通常の方法では、クエリ結果から中国語の文字を削除できます。

通常のマッチングを使用してphpでhtmlタグを削除する方法 Mar 21, 2023 pm 05:17 PM

この記事では、PHP 正規表現を使用して HTML タグを削除し、HTML 文字列からプレーンテキストコンテンツを抽出する方法を学びます。 HTML タグを削除する方法を示すために、まず HTML タグを含む文字列を定義しましょう。

Windows 11、10で左右のオーディオサウンドのバランスをとる方法 May 02, 2023 pm 04:37 PM

PC をスムーズに動作させるには、システムのすべての機能とサービスが適切に機能している必要があります。画像やビデオの品質から、ナビゲーションやサウンドシステムまで。これらのいずれかで問題が発生し、グラフィックス、ビデオ、サウンドなどの問題に直面し始めます。定期的なユーザーであるかどうかに関係なく、サウンドサービスが毎日適切に動作する必要があります。ただし、場合によっては、サウンドサービスでさまざまな問題に直面することがあります。その 1 つは、左側のサウンドまたは右側のサウンドが正しく動作しないことです。これは、特にビデオを見ているとき、オンライン会議に参加または主催しているとき、音楽を聴いているときなどに煩わしい場合があります。この問題は主に、システムの左右の音の不均衡によって引き起こされます。そこで、ここでは Windows 11 PC で左右のサウンドのバランスをとるのに役立つ修正をリストしました。

PHP 正規表現を使用して URL が HTTPS プロトコルであるかどうかを確認する方法 Jun 24, 2023 am 08:16 AM

Web サイトのセキュリティはますます注目を集めており、HTTPS プロトコルを使用してデータ送信のセキュリティを確保することが、現在の Web サイト開発の重要な部分となっています。 PHP 開発において、正規表現を使用して URL が HTTPS プロトコルであるかどうかを確認するにはどうすればよいですか?ここで私たちはそれを知りに来ました。正規表現正規表現は、ルールを記述するために使用される表現です。テキストを処理するための強力なツールであり、テキストの一致、検索、置換に広く使用されています。 PHP 開発では、正規表現を使用して URL 内の http と一致させることができます。

PHP 正規表現を使用して中国語置換関数を実装するためのヒントを共有する Mar 24, 2024 pm 05:57 PM

PHP 正規表現を使用して中国語の置換機能を実装するためのヒントを共有する Web 開発では、中国語のコンテンツを置換する必要がある状況によく遭遇します。人気のサーバーサイドスクリプト言語として、PHP は中国語の置換を簡単に実現できる強力な正規表現機能を提供します。この記事では、正規表現を使用して PHP で中国語置換を実装するためのテクニックをいくつか紹介し、具体的なコード例を示します。 1. preg_replace 関数を使用して中国語置換を実装します PHP の preg_replace 関数を使用できます

PHP 定期置換例: 置換スキルを素早くマスター Feb 29, 2024 pm 06:33 PM

PHP の定期置き換え例: 置き換えスキルをすぐにマスターするインターネットの発展に伴い、Web サイトの開発はますます一般的になりました。 Web サイトの開発では、文字列の置換が必要になることがよくあります。正規表現は、文字列をすばやく検索して置換できる非常に強力なツールです。この記事では、PHP 言語で正規表現を使用して置換操作を実行する方法を紹介し、読者が置換テクニックをすぐに習得できるように具体的なコード例を示します。 1.PHPのpreg_replace関数、pregを使用できます

See all articles

バランスの取れたグループ正規表現の詳細な説明

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック