PHP正規表現マッチング中国語問題解析まとめ

WBOY
リリース: 2016-06-13 12:01:32
オリジナル
1009 人が閲覧しました

コードをコピーします コードは次のとおりです:


$str = '中華人民共和国 123456789abcdefg';
echo preg_match(" /^[u4e00 -u9fa5_a-zA-Z0-9]{3,15}$",$strName);


上記のコードを実行して、どのようなプロンプトがあるか確認してください。

警告: preg_match(): コンパイルに失敗しました: PCRE は、F:wwwrootphptest.php の 2 行目のオフセット 3 で L、l、N、P、p、U、u、または X をサポートしていません
次の Perl エスケープ シーケンスは PHP 正規表現ではサポートされていないことが判明しました: L、l、N、P、p、U、u、または X

UTF-8 モードでは、"x{. . .}" の場合、中括弧内の内容は 16 進数を表す文字列です。

元の 16 進エスケープ シーケンス xhh は、値が 127 より大きい場合、2 バイトの UTF-8 文字と一致します。
したがって、
は次のように解決できます

コードをコピーします コードは次のとおりです:


preg_match ("/^[ x80-xff_a-zA-Z0-9]{3,15}$",$strName);
preg_match('/[x{2460}-x{2468}]/u', $ str);



内部コード化された中国語の文字と一致する
彼が提供した方法に従ってテストします。コードは次のとおりです:

コードをコピーします コードは次のとおりです:


$str = "php programming"
if (preg_match("/^[x{2460}- x{2468}] $/u",$str) ) {
print("この文字列はすべて中国語です");
} else {
print("この文字列はすべて中国語ではありません" );
}



今回も中国語かどうかの判断を間違えていたことが分かりました。しかし、xで表現される16進数のデータなのに、jsで用意されているx4e00~x9fa5の範囲と違うのはなぜでしょうか?そこで、次のコードに変更しました。

コードをコピー コードは次のとおりです。


$str = " php プログラミング";
if (preg_match("/^[x4e00-x9fa5] $/u",$str)) {
print("文字列はすべて中国語です");
} else {
print("文字列はすべて中国語ではありません");
}



これは確実に成功したと思っていましたが、予想外に警告が再び発生しました:
警告: preg_match() [function.preg-match]: コンパイルに失敗しました: test.php の 3 行目のオフセット 6 にある無効な UTF-8 文字列

他にも間違った式があるようなので、調べて比較してくださいこの記事の式で、「4e00」と「9fa5」をそれぞれ「{」と「}」で囲みました。再度実行したところ、それが非常に正確であることがわかりました。

コードをコピー コードは次のとおりです。


$str = "phpプログラミング"
if (preg_match("/^[x{4e00}- x {9fa5}] $/u",$str)) {
print("この文字列はすべて中国語です");
} else {
print("この文字列はすべて中国語ではありません" ) ;
}



PHP で UTF-8 エンコーディングで正規表現を使用して中国語の文字を照合するための最終的な正しい表現を知っています—/^[x{4e00}-x {9fa5 }] $/u,

ようやくまとめました

コードをコピーします コードは次のとおりです:


//if (preg_match("/^[".chr(0xa1)."-".chr(0xff)."] $/", $str)) { // GB2312 の場合
if (preg_match(“/^[x7f-xff] $/”, $str)) { //gb2312 と互換性あり、utf-8
echo "正しい入力" } else; {
echo “Wrong input ”;
}


2 バイト文字エンコード範囲

1. GBK (GB2312/GB18030)
x00 -xff GBK 2 バイトエンコード範囲
x20-x7f ASCII
xa1-xff 中国語 gb2312
x80-xff 中国語 gbk

2. UTF-8 (Unicode)

u4e00-u9fa5 (中国語)
x3130-x318F (韓国語
xAC00-xD7A3 (韓国語)
u0800-u4e00 (日本語)
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のおすすめ
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート