正規表示式教程之位置匹配詳解

高洛峰
發布: 2023-03-04 17:44:01
原創
1973 人瀏覽過

本文實例講述了正規表示式教程之位置匹配。分享給大家供大家參考,具體如下:

注:在所有例子中正則表達式匹配結果包含在源文本中的【和】之間,有的例子會使用Java來實現,如果是java本身正則表達式的用法,會在對應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。

一、問題引入

如果想匹配一段文本中的某個單字(暫不考慮多行模式,將在後面介紹),我們可能會像下面這樣:

文本:Yesterday is history, tomorrow is a mystery, but today is a gift.

正則表達式:is

結果:Yesterday 【is】 h【is】tory, tomorrow is】 a mystery, but today 【is】a giftrow is】 a mystery, but today 【is】a gift.要配對單字is,但把其他單字中包含的is​​也配對出來了。要解決這個問題,使用邊界界定符,也就是在正規表示式裡用一些元字元來表示我們想要讓匹配操作在什麼位置(或邊界)發生。

二、單字邊界

一種常用的邊界是由限定符b指定的單字邊界,b用來匹配單字的開始和結尾。更確切地說,它是匹配這樣一個位置,這個位置位於一個能夠用來構成單字的字元(字母、數字、底線,也就是與w相符的字元)和一個不能用來構成單字的字元(與W相符的字元)之間。來看前面的例子:

文本:Yesterday is history, tomorrow is a mystery, but today is a gift.

正則表達式:bisb

結果:Yesterday 【is】 . today 【is】 a gift.

分析:在原始文本中,單字is的前後都有一個空格,而這與模式bisb相符(空格是用來分隔單字的字元之一)。而單字history中也包含了is,因為它的前後分別有一個字符h和t,這兩個字符都不能與b匹配。

如果不符合一個單字邊界,則使用B。如:

文本:Please enter the nine-digit id as it appears on your color - coded pass-key.

正則表達式:B-B

結果:Please enter the 【nine-gitcaetalpoo color - coded 【pass-key】.

分析:B-B將匹配一個前後都不是單字邊界的連字符,nine-digit和pass-key中連字符前後都沒有空格,所以能夠匹配,而color - coded中連字符前後都有空格,所以不能匹配。

三、字串邊界

單字邊界可以用來進行與單字相關的位置配對(單字開頭、結束、整個單字等等)。而字串邊界也有著類似的用途,只不過是用來進行與字串相關的位置匹配(字串開頭、結束、整個字串等等)。用來定義字串邊界的元字元有兩個:一個是用來定義字串開頭的^,另一個是用來定義字串結尾的$。

例如要檢查一個XML文件的合法性,合法的XML文件都以這樣形式開頭:

文本:

<?xml version="1.0" encoding="UTF-8"?>
<project basedir="." default="ear">
</project>
登入後複製

   

正則表達式:^s

結果:



分析:^匹配一個字串的開頭位置,所以^s*將匹配一個字串的開頭位置和隨後的零個或多個空白字符,因為標籤前面允許有空格、製表符、換行符等空白字元。

$元字元符的用法除了位置上的差異外,與^用法完全一樣。例如,檢查一個html頁面是否以結尾,可以用模式:s*$

四、多行匹配模式

正規表達式可以透過一些特殊的元字符來改變另外一些元字符的行為。可以透過(?m) 來啟用多行匹配模式。多行匹配模式將使得正規表示式引擎把行分隔符號當作一個字串分隔符號來對待。在多行匹配模式下,^不僅匹配正常的字串開頭,還將匹配行分隔符號(換行符)後面的開始位置,$不僅匹配正常的字串結尾,還將匹配行分隔符號(換行符)後面的結束位置。

在使用時,(?m)必須出現在整個模式的最前面。例如,透過正規表示式把一段java程式碼中的單行註解(以//開始)內容全部找出來。

文字:

publicDownloadingDialog(Frame parent){
     //Callsuper constructor, specifying that dialog box is modal.
     super(parent,true);
     //Setdialog box title.
     setTitle("E-mailClient");
     //Instructwindow not to close when the "X" is clicked.
     setDefaultCloseOperation(DO_NOTHING_ON_CLOSE);
     //Puta message with a nice border in this dialog box.
     JPanelcontentPanel = new JPanel();
     contentPanel.setBorder(BorderFactory.createEmptyBorder(5,5, 5, 5));
     contentPanel.add(newJLabel("Downloading messages..."));
     setContentPane(contentPanel);
     //Sizedialog box to components.
     pack();
     //Centerdialog box over application.
     setLocationRelativeTo(parent);
}
登入後複製

   

正規表示式:(?m)^s*//.*$

結果:

publicDownloadingDialog(Frame parent){
【 //Call superconstructor, specifying that dialog box is modal.】
super(parent,true);
【 //Set dialog boxtitle.】
setTitle("E-mailClient");
【 //Instruct windownot to close when the "X" is clicked.】
setDefaultCloseOperation(DO_NOTHING_ON_CLOSE);
【 //Put a messagewith a nice border in this dialog box.】
JPanelcontentPanel = new JPanel();
contentPanel.setBorder(BorderFactory.createEmptyBorder(5,5, 5, 5));
contentPanel.add(newJLabel("Downloading messages..."));
setContentPane(contentPanel);
【 //Size dialog boxto components.】
pack();
【 //Center dialogbox over application.】
setLocationRelativeTo(parent);
}

分析:^\s*//.*$将匹配一个字符串的开始,然后是任意多个空白字符,再后面是//,再往后是任意文本,最后是一个字符串的结束。不过这个模式只能找出第一条注释,加上(?m)前缀后,将把换行符视为一个字符串分隔符,这样就可以把每一行注释匹配出来了。

java代码实现如下(文本保存在text.txt文件中):

public static String getTextFromFile(String path) throws Exception{
  BufferedReader br = new BufferedReader(new FileReader(new File(path)));
  StringBuilder sb = new StringBuilder();
  char[] cbuf = new char[1024];
  int len = 0;
  while(br.ready() && (len = br.read(cbuf)) > 0){
    br.read(cbuf);
    sb.append(cbuf, 0, len);
  }
    br.close();
  return sb.toString();
}
public static void multilineMatch() throws Exception{
  String text = getTextFromFile("E:/text.txt");
  String regex = "(?m)^\\s*//.*$";
  Matcher m = Pattern.compile(regex).matcher(text);
  while(m.find()){
    System.out.println(m.group());
  }
}
登入後複製

   

输出结果如下:

//Call super constructor, specifying that dialog box is modal.
//Set dialog box title.
//Instruct window not to close when the "X" is clicked.
//Put a message with a nice border in this dialog box.
//Size dialog box to components.
//Center dialog box over application.

五、小结

正则表达式不仅可以用来匹配任意长度的文本块,还可以用来匹配出现在字符串中特定位置的文本。\b用来指定一个单词边界(\B刚好相反)。^和$用来指定单词边界。如果与(?m)配合使用,^和$还将匹配在一个换行符处开头或结尾的字符串。在接下来的文章中将介绍子表达式的使用。

希望本文所述对大家正则表达式学习有所帮助。

更多正则表达式教程之位置匹配详解相关文章请关注PHP中文网!


來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!