이 글은 제가 몇 년 전 검색 엔진 프로젝트를 진행하면서 해결하지 못한 문제의 종결이라고 볼 수 있습니다. 별로 쓸모가 없지만 아쉬운 점 중 하나를 보상할 수는 있습니다. .
당시 장면은 이렇습니다. 보통 사람들의 습관은 항상 검색창에 일반 검색어를 입력하고 검색하는 것인데, 자신이 똑똑하다고 생각하고 URL을 복사하는 사용자도 항상 있습니다. 그런 다음 매개변수를 변경하고 http://www.xxx.com/search?keyword = 중국어(IE에 표시됨, Chrome 및 Firefox 등의 경우 주소 표시줄에 중국어가 표시됨)와 유사하게 액세스합니다. 사용자가 제출한 요청이 IE에서 http://www.xxx.com/search?keyword = 중국어인 경우 서버(웹 처리 백엔드)가 이 문자를 전혀 인식하지 못하는 경우입니다. 백엔드에 요청을 제출하면 해당 매개변수는 iso-8859-1 사양의 URLEncode여야 합니다. 웹 프로그램을 작성할 때 IE는 인코딩을 수동으로 변환해야 하지만 Chrome과 Firefox는 이를 변환할 수 있습니다. 전송 중에 자동으로 변환됩니다.
백엔드에서 문자를 인식할 수 없습니다. 이는 흔히 잘못된 문자라고 부르는 현상입니다. 이런 종류의 잘못된 코드가 나타나는 이유는 디코딩 오류 때문이기도 합니다. 우리 웹 컨테이너(Java의 jetty/tomcat/jboss 및 Python의 django와 유사한 프레임워크)는 이때 IE에서 제출된 문자열을 자동으로 UrlDecode합니다. 인코딩되지 않은 문자는 디코딩되어 다시는 돌아오지 않을 수도 있습니다. (나처럼 이런 왜곡된 코드를 보고 아파서 병원에 달려간 사람이 얼마나 많습니까?)
실제로 이 문제에 대한 두 가지 해결책이 있습니다. 첫 번째는 웹 백엔드에 도달하기 전입니다(사용자가 주소 표시줄에서 Enter를 직접 누르기 때문에 js 레이어에서는 수행할 수 없습니다). 즉, 인코딩되지 않은 문자를 URL 인코딩하기 위해 서버의 프런트 엔드(nginx)에서 전처리가 수행됩니다. 두 번째는 웹 컨테이너에서 서블릿 처리 매개변수를 디코딩하는 로직을 다시 컴파일하여 URL 디코딩이 필요한지 여부를 결정하는 것입니다.
구현의 어려움을 고려하여 첫 번째 방법을 선택했습니다. nginx에서 처리하고 nginx에서 lua를 사용하여 매개변수를 트랜스코딩한 다음 웹 백엔드로 역프록시하는 것입니다.
여기서는 프로젝트에 따라 다릅니다. 프로젝트가 UTF-8로 인코딩되었는지 GBK로 인코딩되었는지, 고객 환경이 UTF-8인지 GBK인지 등 주의해야 할 몇 가지 상황이 있습니다. 예를 들어 내 시스템은 브라우저가 있는 Windows이므로 내 클라이언트의 인코딩은 GBK이고 내 프로젝트는 UTF-8이므로 urlencoding 전에 GBK를 변환해야 합니다. 》UTF-8 작업.
set_by_lua $arg_name ' local iconv = require("luaiconv") local cd = iconv.new( "utf-8","gbk") if(string.find(ngx.var.arg_name,"%")){ ngx.var.arg_name, err = cd:iconv(ngx.var.arg_name) } return ngx.escape_uri(ngx.var.arg_name) ';
3년 전만 해도 IE 주소 표시줄에 한자를 수동으로 입력하는 기능을 처리할 수 있는 유일한 검색 엔진은 Google이었습니다. 그러나 지금 돌이켜보면 이미 많은 회사에서 이를 처리했습니다.
위 내용은 관련 내용을 포함하여 IE 브라우저의 주소창에 param에 중국어를 직접 입력하여 발생하는 문자 깨짐 문제에 대한 해결 방법을 소개하고 있으며, PHP 튜토리얼에 관심이 있는 친구들에게 도움이 되기를 바랍니다.