身為PHP程式設計師,我們少不了和日期正規表示式接觸,那麼身為程式設計師的你究竟對日期正則表達式有多少解決思路呢?本文我們那就帶大家一起深入學習日期正規表示式。
1 概述
日期正規一般是對格式有要求,且資料不是直接由使用者輸入時使用。因應用場景的不同,寫出的正規也不同,複雜程度也自然不同。正規的書寫需要根據具體情況具體分析,一個基本原則就是:只寫適當的,不寫複雜的。
對於日期提取,只要能與非日期區分開,寫最簡單的正則即可,如
\d{4}-\d{2}-\d{2}
如果可以在源字符串中唯一定位yyyy-MM-dd格式的日期,則可用做提取。
對於驗證,如果只是驗證字元組成及格式是沒有太大意義的,還要加入規則的校驗。由於閏年的存在,使得日期的校驗正則變得比較複雜。
先來檢視日期的有效範圍以及什麼是閏年。
2 日期的規則
#2.1 日期的有效範圍
#對於日期的有效範圍,不同的應用情境會有所不同。
MSDN中定義的DateTime物件的有效範圍是:0001-01-01 00:00:00到9999-12-31 23:59:59。
UNIX時間戳的0依ISO 8601規範為 :1970-01-01T00:00:00Z。
而實際應用中,日期的範圍基本上不會超出DateTime所規定的範圍,所以正規驗證取其中常用的日期範圍即可。
2.2 什麼是閏年
#(以下摘自百度百科)
閏年(leap year)是為了彌補因人為曆法規定造成的年度天數與地球實際公轉週期的時間差而設立的。補上時間差的年份為閏年。
地球繞日運行週期為365天5小時48分46秒(合365.24219天),即一回歸年(tropical year)。公曆的平年只有365日,比回歸年短約0.2422 日,每四年累積約一天,把這一天加於2月末(即2月29日),使當年時間長度變為366日,這一年就為閏年。
要注意的是,現在的公曆是根據羅馬人的「儒略曆」改編而得。由於當時沒有了解到每年要多算出0.0078天的問題,從西元前46年,到16世紀,一共累計多出了10天。為此,當時的教宗格雷果裡十三世,將1582年10月5日人為規定為10月15日。並開始了新閏年規定。即規定公曆年份是整百數的,必須是400的倍數才是閏年,不是400的倍數的就是平年。例如,1700年、1800年和1900年為平年,2000年為閏年。此後,平均每年長度為365.2425天,約4年出現1天的偏差。以每四年一個閏年計算,平均每年就要多算出0.0078天,經過四百年就會多出大約3天來,因此,每四百年中要減少三個閏年。閏年的計算,歸結起來就是通常說的:四年一閏;百年不閏,四百年再閏。
2.3 日期的格式
根據不同的語言文化,日期的連字符會有所不同,通常有以下幾種格式:
yyyyMMdd
yyyy-MM-dd
yyyy/MM/dd
yyyy.MM.dd
3
日期正規表示式建構
3.1 規則分析
寫出複雜正則的常用方法,就是先把不相關的需求分開開,分別寫出對應的正則,然後組合,檢查一下相互的關聯關係以及影響,基本上就可以得出對應的正則。
依閏年的定義可知,日期可以有幾種分類方法。
3.1.1 根據天數是否與年份有關劃分為兩類
與年份無關的一類中,根據每月天數的不同,又可細分為兩類
1、3、5、 7、8、10、12月為1-31日
4、6、9、11月為1-30日
與年份有關的一類中
平年2月為1-28日
閏年2月為1-29日
所有年份的所有月份都包含1-28日
所有年份除2月外都包含29和30日
所有年份1、3、5、7、8、10、12月都包含31日
閏年2月包含29日
3.1.2 依包含日期不同可分割為四類
3.1.3 分類方法選擇
因為日期分類之後的實現,是要通過(exp1|exp2|exp3)這種分支結構來實現的,而分支結構是從左側分支依次向右開始嘗試匹配,當有一個分支匹配成功時,就不再向右嘗試,否則嘗試所有分支後並報告失敗。
分支的多少,每個分支的複雜程度都會影響配對效率,考慮到被驗證日期機率分佈,絕大多數都是落到1-28日內,所以採用第二種分類方法,會有效提高匹配效率。
3.2 正規實作
採用3.1.2節的分類方法,就可以針對每一個規則寫出對應的正則,以下暫按MM-dd格式進行實現。
先考虑与年份无关的前三条规则,年份可统一写作
(?!0000)[0-9]{4}
下面仅考虑月和日的正则
包括平年在内的所有年份的月份都包含1-28日
(0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])
包括平年在内的所有年份除2月外都包含29和30日
(0[13-9]|1[0-2])-(29|30)
包括平年在内的所有年份1、3、5、7、8、10、12月都包含31日
(0[13578]|1[02])-31)
合起来就是除闰年的2月29日外的其它所有日期
(?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)
接下来考虑闰年的实现
闰年2月包含29日
这里的月和日是固定的,就是02-29,只有年是变化的。
可通过以下代码输出所有的闰年年份,考察规则
for (int i = 1; i < 10000; i++){ if ((i % 4 == 0 && i % 100 != 0) || i % 400 == 0){ richTextBox2.Text += string.Format("{0:0000}", i) + "\n"; } }
根据闰年的规则,很容易整理出规则,四年一闰;
([0-9]{2}(0[48]|[2468][048]|[13579][26])
百年不闰,四百年再闰。
(0[48]|[2468][048]|[13579][26])00
合起来就是所有闰年的2月29日
([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)
四条规则都已实现,且互相间没有影响,合起来就是所有符合DateTime范围的日期的正则
^((?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)|([0-9]{2}(0[48]|[2468] [048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)$
考虑到这个正则表达式仅仅是用作验证,所以捕获组没有意义,只会占用资源,影响匹配效率,所以可以使用非捕获组来进行优化。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468] [048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
以上正则年份0001-9999,格式yyyy-MM-dd。可以通过以下代码验证正则的有效性和性能
DateTime dt = new DateTime(1, 1, 1); DateTime endDay = new DateTime(9999, 12, 31); Stopwatch sw = new Stopwatch(); sw.Start(); Regex dateRegex = new Regex(@"^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$"); //Regex dateRegex = new Regex(@"^((?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)|([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)$"); Console.WriteLine("开始日期: " + dt.ToString("yyyy-MM-dd")); while (dt < endDay){ if (!dateRegex.IsMatch(dt.ToString("yyyy-MM-dd"))){ Console.WriteLine(dt.ToString("yyyy-MM-dd") + " false"); } dt = dt.AddDays(1); } if (!dateRegex.IsMatch(dt.ToString("yyyy-MM-dd"))){ Console.WriteLine(dt.ToString("yyyy-MM-dd") + " false"); } Console.WriteLine("结束日期: " + dt.ToString("yyyy-MM-dd")); sw.Stop(); Console.WriteLine("测试用时: " + sw.ElapsedMilliseconds + "ms"); Console.WriteLine("测试完成!"); Console.ReadLine();
4 日期正则表达式扩展
4.1 “年月日”形式扩展
以上实现的是yyyy-MM-dd格式的日期验证,考虑到连字符的不同,以及月和日可能为M和d,即yyyy-M-d的格式,可以对以上正则进行扩展
^(?:(?!0000)[0-9]{4}([-/.]?)(?:(?:0?[1-9]|1[0-2])([-/.]?)(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])([-/.]?)(?:29|30)|(?:0?[13578]|1[02]) ([-/.]?)31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)([-/.]?)0?2([-/.]?)29)$
使用反向引用进行简化,年份0001-9999,格式yyyy-MM-dd或yyyy-M-d,连字符可以没有或是“-”、“/”、“.”之一。
^(?:(?!0000)[0-9]{4}([-/.]?)(?:(?:0?[1-9]|1[0-2])\1(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])\1(?:29|30)| (?:0?[13578]|1[02])\1(?:31))|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)([-/.]?)0?2\2(?:29))$
这就是“年月日”这种形式最全的一个正则了,不同含义部分以不同颜色标识,可以根据自己的需要进行栽剪。
4.2 其它形式扩展
了解了以上正则各部分代表的含义,互相间的关系后,就很容易扩展成其它格式的日期正则,如dd/MM/yyyy这种“日月年”格式的日期。
^(?:(?:(?:0?[1-9]|1[0-9]|2[0-8])([-/.]?)(?:0?[1-9]|1[0-2])|(?:29|30)([-/.]?)(?:0?[13-9]|1[0-2])|31([-/.]?) (?:0?[13578]|1[02]))([-/.]?)(?!0000)[0-9]{4}|29([-/.]?)0?2([-/.]?) (?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00))$
这种格式需要注意的就是不能用反向引用来进行优了。连字符等可根据自己的需求栽剪。
4.3 添加时间的扩展
时间的规格很明确,也很简单,基本上就HH:mm:ss和H:m:s两种形式。
([01][0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]
合入到日期的正则中,yyyy-MM-dd HH:mm:ss
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)| (?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579] [26])00)-02-29)\s+([01][0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]$
4.4 年份定制
以上所有涉及到平年的年份里,使用的是0001-9999。当然,年份也可以根据闰年规则定制。
如年份1600-9999,格式yyyy-MM-dd或yyyy-M-d,连字符可以没有或是“-”、“/”、“.”之一。
^(?:(?:1[6-9]|[2-9][0-9])[0-9]{2}([-/.]?)(?:(?:0?[1-9]|1[0-2])\1(?:0?[1-9]|1[0-9]|2[0-8])| (?:0?[13-9]|1[0-2])\1(?:29|30)|(?:0?[13578]|1[02])\1(?:31))|(?:(?:1[6-9]|[2-9][0-9]) (?:0[48]|[2468][048]|[13579][26])|(?:16|[2468][048]|[3579][26])00)([-/.]?)0?2\2(?:29))$
5 特别说明
以上正则采用的是最基本的正则语法规则,绝大多数采用传统NFA引擎的语言都可以支持,包括JavaScript、Java、.NET等。
另外需求说明的是,虽然日期的规则相对明确,可以采用这种方式裁剪来得到符合要求的日期正则,但是并不推荐这样使用正则,正则的强大在于它的灵活性,可以根据需求,量身打造最合适的正则,如果只是用来套用模板,那正则也就不称其为正则了。
正则的语法规则并不多,而且很容易入门,掌握语法规则,量体裁衣,才是正则之“道”。
6 应用
一、首先看需求
日期的输入:
手动输入,可输入两种格式yyyymmdd或yyyy-mm-dd
二、解决思路
用户手动输入日期,需要验证输入的日期格式
用户可能的输入情况可以分为以下几种:
(1).输入为空或者为空格
(2).输入非日期格式
根据保存到数据库中的日期格式,保存的格式为yyyy-mm-dd,所以用户在输入yyyymmdd后需要进行转换,转换成yyyy-mm-dd。
思路:
验证日期格式,首现想到的是VS的验证控件,但是因为需要验证的控件有几十个,使用验证控件就需要一个个的拉控件,如果后期需要修改也很麻烦,而通过JS实现控制,再通过正则表达式对日期进行验证。
三、JS实现
//验证日期 function date(id) { var idvalue = document.getElementById(id).value; //通过查找元素 var tmpStr = ""; var strReturn = ""; //调用trim()去掉空格,因为js不支持trim() var iIdNo = trim(idvalue); //正则表达式,判断日期格式,包括日期的界限,日期的格式,平年和闰年 var v = idvalue.match(/^((((1[6-9]|[2-9]\d)\d{2})-(0?[13578]|1[02])-(0?[1-9]|[12]\d|3[01]))|(((1[6-9]|[2-9]\d)\d{2})-(0?[13456789]|1[012])-(0?[1-9]|[12]\d|30))|(((1[6-9]|[2-9]\d)\d{2})-0?2-(0?[1-9]|1\d|2[0-8]))|(((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00))-0?2-29-))$/); //输入为空时跳过检测 if (iIdNo.length == 0) { return false; } //自动更改日期格式为yyyy-mm-dd if (iIdNo.length == 8) { tmpStr = iIdNo.substring(0, 8); tmpStr = tmpStr.substring(0, 4) + "-" + tmpStr.substring(4, 6) + "-" + tmpStr.substring(6, 8) document.getElementById(id).value = tmpStr; document.getElementById(id).focus(); } //验证,判断日期格式 if ((iIdNo.length != 8) && !v) { strReturn = "日期格式错误,提示:19990101或1999-01-01"; alert(strReturn); document.getElementById(id).select(); return false; } } //运用正则表达式去除字符串两端空格(因为js不支持trim()) function trim(str) { return str.replace(/(^\s*)|(\s*$)/g, ""); } //前台调用(获得焦点触发) <input class="txtenterschooldate" size="14" type="text" id="txtenterschooldate" name="txtenterschooldate" onblur="date('txtenterschooldate')"/>
以上内容就是关于日期正则表达式的思路详解,如果大家觉得有用那就赶紧收藏起来吧。
相关推荐:
以上是日期正規表示式總結的詳細內容。更多資訊請關注PHP中文網其他相關文章!