지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집 > 백엔드 개발 > C++ > C에서 UTF-8로 인코딩된 std::string의 실제 길이를 결정하는 방법은 무엇입니까?

C에서 UTF-8로 인코딩된 std::string의 실제 길이를 결정하는 방법은 무엇입니까?

Linda Hamilton

풀어 주다： 2024-10-27 20:43:30

원래의

472명이 탐색했습니다.

How to Determine the True Length of a UTF-8 Encoded std::string in C ?

UTF-8로 인코딩된 std::string의 실제 길이 결정

C에서 std::string은 다음의 배열입니다. 문자는 각각 1바이트의 메모리를 차지합니다. 그러나 UTF-8 인코딩의 경우 단일 문자는 여러 바이트의 시퀀스를 사용하여 표현될 수 있습니다. 이로 인해 str.length()에 의해 보고된 문자열 길이와 실제 문자 길이 사이에 불일치가 발생합니다.

UTF-8 문자 인코딩 표준에 따라 바이트는 다음과 같은 시퀀스로 그룹화됩니다. 시퀀스 길이를 나타내는 첫 번째 바이트:

0x00000000 - 0x0000007F: 1바이트
0x00000080 - 0x000007FF: 2바이트
0x00000800 - 0x0000FF FF: 3바이트
0x00010000 - 0x001FFFFF: 4바이트

UTF-8로 인코딩된 std::string의 실제 길이를 확인하려면 다음 접근 방식을 사용할 수 있습니다.

*s 연산자를 사용하여 문자열을 문자별로 반복합니다.
각 문자에 대해 첫 번째 바이트(& 연산자 사용)가 연속 바이트 패턴(10xxxxxx)과 일치하는지 확인합니다.

첫 번째 바이트가 연속 패턴과 일치하지 않으면 길이 수를 늘립니다. 이는 새로운 문자 시퀀스의 시작을 나타냅니다.

다음은 구현 예입니다.

<code class="c++">int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;</code>

로그인 후 복사

이 접근 방식을 따르면 UTF-8로 인코딩된 표준의 실제 길이를 정확하게 결정할 수 있습니다. :string, 문자 계산, 문자열 조작, 데이터 구문 분석 등 다양한 작업에 필수적입니다.

위 내용은 C에서 UTF-8로 인코딩된 std::string의 실제 길이를 결정하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

이전 기사：소멸자에서 Null 포인터를 사용해야 합니까? 반대 사례와 대안이 더 나은 이유. 다음 기사：다음은 귀하의 기사 내용에 맞는 몇 가지 질문 기반 제목입니다. 간단하고 직접적: * C에서 수학적 표현을 파싱하는 방법 : Shunting-Yard 알고리즘과 형식문법 * 파싱 매트

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

최신 이슈

C에서 RValue 참조를 효과적으로 사용하려면 어떻게합니까?

2025-03-18 15:29:29
C의 완벽한 전달은 무엇이며 어떻게 작동합니까?

2025-03-18 15:28:35
성능을 향상시키기 위해 C의 Move Semantics를 어떻게 사용합니까?

2025-03-18 15:27:34
C의 예외 안전을위한 모범 사례는 무엇입니까?

2025-03-18 15:26:32
C 컨테이너에 맞는 맞춤형 반복자를 어떻게 작성합니까?

2025-03-18 15:24:35

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿