중국어 urlencode 뒤의 %XX는 각각 1바이트를 나타냅니다.
따라서 urlencode('中')의 결과는 %XX%XX%XX(utf-8 인코딩)입니다
중국어 urlencode 뒤의 %XX는 각각 1바이트를 나타냅니다.
따라서 urlencode('中')의 결과는 %XX%XX%XX(utf-8 인코딩)입니다
네, 유니코드가 너무 많은 메모리 공간을 차지하고, 변함없이 확장되는 문제를 해결하기 위해 utf-8 사양이 등장했습니다.
싱글바이트 기호의 경우 바이트의 첫 번째 비트는 0으로 설정되고 다음 7비트는 이 기호의 유니코드 코드입니다. 따라서 영문자의 경우 UTF-8 인코딩과 ASCII 코드가 동일합니다.
n바이트 기호(n>1)의 경우 첫 번째 바이트의 처음 n 비트는 1로 설정되고 n번째 비트는 0으로 설정되며 다음 바이트의 처음 2비트는 10으로 설정합니다. 언급되지 않은 나머지 이진 비트는 모두 이 기호의 유니코드 코드입니다.
즉, UTF-8의 인코딩 결과는 가변 길이입니다. 中
문자의 UTF-8 인코딩은 E4B8AD
이므로 해당 urlencode는 中
입니다.
예, URL 인코딩은 단순히 특수 기호 및 ASCII가 아닌 문자의 데이터를 16진수로 표현한 다음 각 바이트 앞에 백분율 기호(즉, 2개의 16진수 숫자)를 추가합니다. 특수하지 않은 ASCII 문자의 경우 URL 인코딩은 그 자체입니다.
동일한 한자에 대해 GBK 인코딩이면 2바이트, UTF-8이면 3바이트가 됩니다.
물론, 더 골치 아픈 것은 URL 인코딩이 혼란스럽다는 점입니다. 예를 들어 어떤 곳에서는
을 사용하여 공간을 표현하고, 다른 곳에서는
을 사용하여 구체적인 상황을 자세히 분석해야 합니다. 전자는 urlencode
함수에 해당하고, 후자는 rawurlencode
함수에 해당합니다. 보통 전자는 폼 데이터(?
뒤 부분인 URL의 쿼리 포함)에 사용되고, 후자는 URL 경로(host 뒤, 쿼리 전 부분)