php教程 php手册 php中文汉字替换与模式匹配的问题!!请大家必看!

php中文汉字替换与模式匹配的问题!!请大家必看!

Jun 21, 2016 am 09:15 AM
ascii match quot replace

汉字|问题|中文

作者: bluedoor
原帖地址:http://www.anbbs.com/anbbs/index.php?f_id=3&page=1
  这两天正在做一个关键字加亮显示的程序,写好的程序在本地测试也跑得好好的,可是一上去页面就出现一堆一堆的乱码,别说加亮了,简直就是没的看!

  我就找错误,找来找去,发现英文没有问题,遇到汉字容易出问题,有的时候遇到汉字必出问题。

  总结一下:

  当使用模式匹配的时候,如:preg_match_all($pat,……)与preg_replace($pat,……)……

  容易出问题的情况如下:
  preg_match_all("/(汉字)+/ism","我是汉字,看你把我怎么着!",$m_a);
  这个模式很简单就是匹配出“汉字”。这种情况模式中包含汉字可以成功匹配出来,但是也不要高兴得太早,结果不确定,为什么不确定你慢慢往下看。

  必出现问题情况如下:
  preg_match_all("/[汉字]+/ism","我是汉字,看你把我怎么着!",$m_a);
  本想匹配出现“汉”、“字”或者“汉字”。这个必出现问题,匹配的结果一大群乱码,没准还会出个死循环呢。为什么会出现这种情况?是因为PHP内部使用不是UNICODE,不支持多字节文字,所以一个"汉字"就被当成4bytes的ASCII去进行模式匹配,不出错才怪呢!

  后来我又试试重新写一下模式匹配,发现一种似乎(为什么说似乎?往后看)方法可以解决:
  preg_match_all("/(汉|字)+/ism","我是汉字,看你把我怎么着!",$m_a);

  这样写可以匹配出“汉”、“字”或者“汉字”,$m_a中的结果

Array
(
[0] => Array
(
[0] => 汉字
)

[1] => Array
(
[0] => 字
)

)

  怎么样全匹配的字符串出现了吧!可是高兴得太早了,后来在实际中用还是会经常出问题!再去找问题,终于找到问题的根了!PHP不支持多字节文字,所以在进行模式匹配与字符操作的时候都是内码转化后进行的(我不知道这样说对不对),举个实例吧:

  eregi_replace("性","没有" , "有责任感");这个操作就是要把字符串"有责任感"中"性"字替换成"没有",最后的结果是什么?因为"有责任感"中没有"性"就个字,结果应该是没有执行替换操作返回"有责任感",可是结果竟然是"用挥叙任感"!

  没想到吧!为什么?看一下ASCII码你就明白了,2个ASCII码代码一个汉字"有责任感"的ASCII编码依次为:211,208(有),212,240(责),200,206(任),184,208(感) 

  而"性"的编码为:208,212(性),恰好与有的第2字节和责的第1字节组合是一致的!所以PHP就认识找到相同的模式进行匹配,拆成一半的汉字再与替换后的字串进行组合,所以就出错了!

  当时我想最常用的str_replace(),应该不会有问题的,但是事实上str_replace()执行同样的操作也会出错!现在我想以前进行汉字替换实在是太幸运了!可能是那个时候进行的汉字替换都是比较长的汉字串吧,不太容易出现以上的情况。即使没有出问题,也要知道那是不安全的!

  问题是有的,工作还要继续做,克服的困难也就::::现在的自我了。

  好在想起一组PHP的扩展模块,Multibyte String Functions,添加许多支持多字节文字的操作的函数,如:ereg_replace() 对应着mb_ereg_replace() 等等。具体的函数说明请查询相关的文章。

  总结:对于中文汉字安全的操作最好是使用Multibyte String Functions。



본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

하나의 ASCII 문자가 몇 바이트를 차지합니까? 하나의 ASCII 문자가 몇 바이트를 차지합니까? Mar 09, 2023 pm 03:49 PM

하나의 ASCII 문자는 1바이트를 차지합니다. ASCII 코드 문자는 컴퓨터에서 7비트 또는 8비트 바이너리 인코딩으로 표현되며 1바이트로 저장됩니다. 즉, 하나의 ASCII 코드가 1바이트를 차지합니다. ASCII 코드는 표준 ASCII 코드와 확장 ASCII 코드로 나눌 수 있습니다. 표준 ASCII 코드는 7비트 이진수(나머지 1개의 이진수는 0)를 사용하여 대문자와 소문자를 모두 나타냅니다. 숫자 0~9. 미국 영어에 사용되는 구두점 및 특수 제어 문자입니다.

PHP의 ASCII 값 변환에 대해 빠르게 알아보기 PHP의 ASCII 값 변환에 대해 빠르게 알아보기 Mar 28, 2024 pm 06:42 PM

PHP의 ASCII 값 변환은 프로그래밍에서 자주 발생하는 문제입니다. ASCII(American Standard Code for Information Interchange)는 문자를 숫자로 변환하는 표준 인코딩 시스템입니다. PHP에서는 ASCII 코드를 통해 문자와 숫자를 변환해야 하는 경우가 많습니다. 이 기사에서는 PHP에서 ASCII 값을 변환하는 방법을 소개하고 구체적인 코드 예제를 제공합니다. 1. 캐릭터 변경

Jul 25, 2023 pm 01:18 PM

MySQL은 데이터를 처리하고 운영하는 다양한 기능을 제공하는 일반적으로 사용되는 관계형 데이터베이스 관리 시스템입니다. 그 중 REPLACE 함수는 문자열의 지정된 부분을 바꾸는 데 사용됩니다. 이 기사에서는 MySQL에서 문자열 교체를 위해 REPLACE 함수를 사용하는 방법을 소개하고 코드 예제를 통해 사용법을 보여줍니다. 먼저 REPLACE 함수의 구문인 REPLACE(str,search_str,replace_str)를 살펴보겠습니다.

Python의 문자열 검색 및 바꾸기 기술은 무엇입니까? Python의 문자열 검색 및 바꾸기 기술은 무엇입니까? Oct 20, 2023 am 11:42 AM

Python의 문자열 검색 및 바꾸기 기술은 무엇입니까? (특정 코드 예) Python에서 문자열은 일반적인 데이터 유형이므로 일상적인 프로그래밍에서 문자열 검색 및 바꾸기 작업을 자주 접하게 됩니다. 이 기사에서는 특정 코드 예제와 함께 몇 가지 일반적인 문자열 검색 및 대체 기술을 소개합니다. 문자열에서 특정 하위 문자열을 찾으려면 문자열의 find() 메서드나 index() 메서드를 사용할 수 있습니다. find() 메소드는 문자열에서 부분 문자열이 처음 나타나는 인덱스를 반환합니다.

php提交表单通过后,弹出的对话框怎样在当前页弹出,该如何解决 php提交表单通过后,弹出的对话框怎样在当前页弹出,该如何解决 Jun 13, 2016 am 10:23 AM

php提交表单通过后,弹出的对话框怎样在当前页弹出php提交表单通过后,弹出的对话框怎样在当前页弹出而不是在空白页弹出?想实现这样的效果:而不是空白页弹出:------解决方案--------------------如果你的验证用PHP在后端,那么就用Ajax;仅供参考:HTML code

PHP는 문자열의 첫 번째 문자의 ASCII 값을 반환합니다. PHP는 문자열의 첫 번째 문자의 ASCII 값을 반환합니다. Mar 21, 2024 am 11:01 AM

이 글에서는 PHP가 반환하는 문자열의 첫 번째 문자의 ASCII 값에 대해 자세히 설명할 것입니다. 편집자는 이것이 매우 실용적이라고 생각하므로 이 글을 읽으신 후 뭔가를 얻으실 수 있기를 바랍니다. PHP는 문자열의 첫 번째 문자에 대한 ASCII 값을 반환합니다. 소개 PHP에서 문자열의 첫 번째 문자에 대한 ASCII 값을 얻는 것은 문자열 처리 및 문자 인코딩에 대한 기본 지식이 필요한 일반적인 작업입니다. ASCII 값은 컴퓨터 시스템에서 문자의 숫자 값을 나타내는 데 사용되며 문자 비교, 데이터 전송 및 저장에 중요합니다. 문자열의 첫 번째 문자에 대한 ASCII 값을 가져오는 프로세스에는 다음 단계가 포함됩니다. 문자열 가져오기: ASCII 값을 가져오려는 문자열을 결정합니다. 변수 또는 문자열 상수일 수 있습니다.

유니코드와 ASCII의 차이점은 무엇입니까 유니코드와 ASCII의 차이점은 무엇입니까 Sep 06, 2023 am 11:56 AM

유니코드와 ASCII의 차이점에는 인코딩 범위, 저장 공간 및 호환성이 다릅니다. 자세한 소개: 1. 인코딩 범위는 다릅니다. ASCII의 인코딩 범위는 주로 영문자를 나타내는 데 사용됩니다. 유니코드의 인코딩 범위는 훨씬 더 넓으며 거의 ​​모든 언어 문자를 나타낼 수 있습니다. 공백은 다릅니다. ASCII는 일반적으로 문자를 저장하는 데 1바이트를 사용하는 반면, 유니코드는 문자를 저장하는 데 2바이트 이상을 사용할 수 있습니다.

PHP 문자열을 ASCII 코드로 정확하게 변환하는 방법 PHP 문자열을 ASCII 코드로 정확하게 변환하는 방법 Mar 27, 2024 am 10:48 AM

"PHP 문자열을 ASCII 코드로 정확하게 변환하려면 구체적인 코드 예제가 필요합니다." 프로그래밍 분야에서 ASCII(American Standard Code for Information Interchange) 코드는 컴퓨터 시스템에서 문자를 표현하는 데 사용되는 표준 인코딩 시스템입니다. PHP에서는 일부 작업이나 처리를 위해 문자열을 ASCII 코드로 변환해야 하는 경우가 많습니다. PHP에서 문자열을 ASCII로 정확하게 변환하는 방법은 다음과 같습니다.

See all articles