> 백엔드 개발 > C++ > C에서 UTF-8로 인코딩된 std::string의 실제 길이를 결정하는 방법은 무엇입니까?

C에서 UTF-8로 인코딩된 std::string의 실제 길이를 결정하는 방법은 무엇입니까?

Linda Hamilton
풀어 주다: 2024-10-27 20:43:30
원래의
422명이 탐색했습니다.

How to Determine the True Length of a UTF-8 Encoded std::string in C  ?

UTF-8로 인코딩된 std::string의 실제 길이 결정

C에서 std::string은 다음의 배열입니다. 문자는 각각 1바이트의 메모리를 차지합니다. 그러나 UTF-8 인코딩의 경우 단일 문자는 여러 바이트의 시퀀스를 사용하여 표현될 수 있습니다. 이로 인해 str.length()에 의해 보고된 문자열 길이와 실제 문자 길이 사이에 불일치가 발생합니다.

UTF-8 문자 인코딩 표준에 따라 바이트는 다음과 같은 시퀀스로 그룹화됩니다. 시퀀스 길이를 나타내는 첫 번째 바이트:

  • 0x00000000 - 0x0000007F: 1바이트
  • 0x00000080 - 0x000007FF: 2바이트
  • 0x00000800 - 0x0000FF FF: 3바이트
  • 0x00010000 - 0x001FFFFF: 4바이트

UTF-8로 인코딩된 std::string의 실제 길이를 확인하려면 다음 접근 방식을 사용할 수 있습니다.

  1. *s 연산자를 사용하여 문자열을 문자별로 반복합니다.
  2. 각 문자에 대해 첫 번째 바이트(& 연산자 사용)가 연속 바이트 패턴(10xxxxxx)과 일치하는지 확인합니다.

첫 번째 바이트가 연속 패턴과 일치하지 않으면 길이 수를 늘립니다. 이는 새로운 문자 시퀀스의 시작을 나타냅니다.

다음은 구현 예입니다.

<code class="c++">int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;</code>
로그인 후 복사

이 접근 방식을 따르면 UTF-8로 인코딩된 표준의 실제 길이를 정확하게 결정할 수 있습니다. :string, 문자 계산, 문자열 조작, 데이터 구문 분석 등 다양한 작업에 필수적입니다.

위 내용은 C에서 UTF-8로 인코딩된 std::string의 실제 길이를 결정하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿