> 백엔드 개발 > PHP 튜토리얼 > urlencode 뒤의 각 %XX는 바이트를 나타냅니까?

urlencode 뒤의 각 %XX는 바이트를 나타냅니까?

WBOY
풀어 주다: 2016-08-04 09:19:30
원래의
1196명이 탐색했습니다.

중국어 urlencode 뒤의 %XX는 각각 1바이트를 나타냅니다.
따라서 urlencode('中')의 결과는 %XX%XX%XX(utf-8 인코딩)입니다

답글 내용:

중국어 urlencode 뒤의 %XX는 각각 1바이트를 나타냅니다.
따라서 urlencode('中')의 결과는 %XX%XX%XX(utf-8 인코딩)입니다

네, 유니코드가 너무 많은 메모리 공간을 차지하고, 변함없이 확장되는 문제를 해결하기 위해 utf-8 사양이 등장했습니다.

  1. 싱글바이트 기호의 경우 바이트의 첫 번째 비트는 0으로 설정되고 다음 7비트는 이 기호의 유니코드 코드입니다. 따라서 영문자의 경우 UTF-8 인코딩과 ASCII 코드가 동일합니다.

  2. n바이트 기호(n>1)의 경우 첫 번째 바이트의 처음 n 비트는 1로 설정되고 n번째 비트는 0으로 설정되며 다음 바이트의 처음 2비트는 10으로 설정합니다. 언급되지 않은 나머지 이진 비트는 모두 이 기호의 유니코드 코드입니다.

즉, UTF-8의 인코딩 결과는 가변 길이입니다.
문자의 UTF-8 인코딩은 E4B8AD이므로 해당 urlencode는 입니다.

예, URL 인코딩은 단순히 특수 기호 및 ASCII가 아닌 문자의 데이터를 16진수로 표현한 다음 각 바이트 앞에 백분율 기호(즉, 2개의 16진수 숫자)를 추가합니다. 특수하지 않은 ASCII 문자의 경우 URL 인코딩은 그 자체입니다.

동일한 한자에 대해 GBK 인코딩이면 2바이트, UTF-8이면 3바이트가 됩니다.

물론, 더 골치 아픈 것은 URL 인코딩이 혼란스럽다는 점입니다. 예를 들어 어떤 곳에서는 을 사용하여 공간을 표현하고, 다른 곳에서는 을 사용하여 구체적인 상황을 자세히 분석해야 합니다. 전자는 urlencode 함수에 해당하고, 후자는 rawurlencode 함수에 해당합니다. 보통 전자는 폼 데이터(? 뒤 부분인 URL의 쿼리 포함)에 사용되고, 후자는 URL 경로(host 뒤, 쿼리 전 부분)

에서 사용됩니다.
관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿