PHP 언어 수준에서는 유니코드 문자 집합을 지원하지 않지만 대부분의 문제는 UTF-8 인코딩을 통해 해결할 수 있습니다.
가장 좋은 방법은 입력 인코딩을 명확하게 알고(모르는 경우 감지) 내부적으로 UTF-8 인코딩으로 균일하게 변환하고, 출력 인코딩도 균일하게 UTF-8 인코딩하는 것입니다.
유니코드 문자셋을 운영할 때 반드시 mbstring 확장자를 설치하고 네이티브 문자열 함수 대신 해당 함수를 사용해 주시기 바랍니다. 예를 들어 UTF-8 PHP 코드로 인코딩된 파일이 있는데 strlen() 함수를 사용하는 것이 잘못된 경우에는 mb_strlen() 함수를 대신 사용하세요.
mbstring 확장의 대부분의 기능은 인코딩(내부 인코딩)을 기반으로 처리되어야 합니다. UTF-8 인코딩을 균일하게 사용하십시오. 이 중 대부분은 PHP.INI에서 구성할 수 있습니다.
PHP 5.6부터 default_charset 구성은 mbstring.http_input, mbstring.http_output을 대체할 수 있습니다.
또 다른 중요한 구성은 mbstring.언어입니다. 기본값은 Neutral(UTF-8)입니다.
파일 인코딩과 mbstring 확장자의 내부 인코딩은 동일한 개념이 아닙니다.
요약:
mbstring 확장과 관련된 PHP.INI 부분에는 UTF-8을 최대한 많이 사용하세요.
기본 문자열 연산 기능 대신 mbstring 확장 기능을 사용해 주세요.
관련 함수 사용 시에는 반드시 운용하는 문자의 인코딩을 이해하시기 바랍니다. 해당 함수 사용 시에는 htmlentities 등 UTF-8 인코딩 매개변수를 표시합니다. 세 번째 매개변수 () 함수는 UTF-8로 작성되었습니다.
다음은 파일을 열고 싶지만 파일 내용이 어떤 인코딩인지 모르는 경우의 예입니다. 처리는 어떻게 해야 하나요?
열 때 UTF-8로 균일하게 변환한 후 내용을 수정한 후 다시 원래 인코딩으로 변환하여 파일에 저장하는 것이 가장 좋습니다. 코드를 살펴보세요.
if ( mb_internal_encoding()!="UTF-8") { mb_internal_encoding("UTF-8"); } $file = "file.txt"; //一个编码为gbk的中文文件 $str= file_get_contents($file); //不管来源是什么编码,统一显示的时候转换为 UTF-8 if (mb_check_encoding($str,"GBK")) $str = mb_convert_encoding($str,"UTF-8",“GBK”); $str ="修改内容"; $str = mb_convert_encoding($str,$srcbm,"UTF-8"); //原样转回去 file_put_contents($file,$str);
이는 비교적 간단합니다. 먼저 Mysql이 UTF-8인지 확인하세요. 그런 다음 Mysql 클라이언트는 연결 시 UTF-8도 유지합니다. 특히 PHP에서 imysql 또는 PDO 확장이 Mysql에 연결되면 UTF-8이 연결 인코딩으로 설정됩니다. 양쪽이 일치하면 일반적으로 문제가 발생하지 않습니다.
이는 비교적 간단합니다. 즉, 출력 콘텐츠가 웹 페이지인 경우 문자열 처리 출력은 항상 UTF-로 유지되어야 합니다. 8; 동시에 PHP.INI에서는 default_charset도 UTF-8로 명확하게 설정되어 있습니다. HTML의 메타 태그도 UTF-8로 명확하게 표시되어 있습니다.
이제 괜찮나요? 아니요, 서버와 브라우저에서 사용자가 UTF-8 인코딩을 사용할 수 있도록 허용하더라도 사용자의 행동은 구속력이 없습니다. 다른 인코딩으로 문자를 입력하거나 파일을 업로드할 수도 있습니다. 다른 인코딩으로 설정했는데 어떻게 해야 하나요? 사용자의 인코딩은 mb_http_input() 및 mb_check_encoding() 함수를 통해 감지한 다음 내부적으로 UTF-8로 변환할 수 있습니다. 모든 수준에서 최종 처리가 UTF-8 인코딩인지 확인하세요. 즉, 입력이 어떤 인코딩인지 알 수 있는 방법이 필요하며, 처리 후 제어 출력의 인코딩은 UTF-8입니다.
mbstring.encoding_translation 지시어와 mb_Detect_encoding() 함수를 사용하는 것은 더 이상 사용되지 않습니다. 반나절 동안 나를 고문했습니다.
운영 체제로 인해 PHP는 유니코드 파일 이름을 처리할 때 처리 메커니즘이 다릅니다.
Linux에서는 파일 이름이 항상 UTF-8로 인코딩되지만, 중국어 Windows 환경에서는 파일 이름이 항상 GBK로 인코딩됩니다.
예를 들어 설명하겠습니다:
//命令行程序函数,运行在中文版 Windows 10 操作系统 ,文件编码为 UTF-8 function filenameexample() { $filename = "测试.txt" ; $gbk_filename = iconv("UTF-8","GBK",$filename); file_put_contents($gbk_filename, "测试"); echo file_get_contents($gbk_filename); } function scandirexample() { $arr = scandir("./tmp"); foreach ($arr as $v) { if ($v == "." || $v =="..") continue ; $filename = iconv( "GBK","UTF-8",$v ) ; $content = file_get_contents("./tmp/" . $v ); } }
Windows 및 Linux와 호환되는 프로그램을 작성하지 않으려면 다음과 같이 파일 이름을 urlencode할 수 있습니다.
function urlencodeexample() { $filename = "测试2.txt" ; $urlencodefilename = urlencode($filename) ; file_put_contents($urlencodefilename, "测试"); echo file_get_contents($urlencodefilename); }
PHP 사용 header() 함수가 파일을 다운로드할 때 브라우저와 운영 체제도 고려해야 합니다(대부분의 사람들은 Windows를 사용합니다). Chrome의 경우 출력 파일 이름 인코딩이 UTF-8일 수 있으며 Chrome이 자동으로 변환합니다. GBK로 인코딩된 파일 이름입니다.
IE 하위 버전의 경우 운영 체제 환경을 상속하므로 다운로드한 파일 이름이 중국어인 경우 UTF-8 인코딩으로 변환해야 하며, 그렇지 않으면 다운로드 시 파일 이름이 깨져서 표시됩니다. . 코드를 통해 설명하세요:
$agent=$_SERVER["HTTP_USER_AGENT"]; if(strpos($agent,'MSIE')!==false { $filename = iconv("UTF-8","GBK","附件.txt"); header("Content-Disposition: attachment; filename=\"$filename\""); }