类库下载 java类库 Java의 char 및 String에 대한 세부 정보 및 사용 참고 사항

Java의 char 및 String에 대한 세부 정보 및 사용 참고 사항

Nov 07, 2016 pm 05:18 PM
java string

char 데이터형 사용 시 주의사항

Java에서는 char 데이터형을 사용하여 문자를 표현하지만, char 데이터형이 모든 문자를 표현할 수는 없습니다.

유니코드 문자 집합

먼저 Java에서 유니코드 문자 집합을 사용하고 있다는 것을 알아야 합니다. 등장하기 전에는 ANSI, GB2312 등과 같은 많은 문자 세트가 있었습니다. 서로 다른 표준을 가진 많은 문자 집합이 있기 때문에 이는 두 가지 문제로 이어집니다.

  • 주어진 코드 값에 대해 서로 다른 문자는 서로 다른 문자 집합의 서로 다른 문자에 해당할 수 있습니다. 🎜>

  • 큰 문자 집합을 사용하는 언어는 인코딩 길이가 다를 수 있습니다. 예를 들어 일반 문자에는 단일 바이트 인코딩이 사용되고 다른 문자에는 멀티 바이트 인코딩이 사용됩니다.
  • 유니코드 문자 집합의 등장은 인코딩을 통일하고 위와 같은 문제를 해결하기 위한 것입니다. 소위 문자 세트는 다양한 문자로 구성된 모음입니다. 유니코드 문자 세트는 문자 자체를 식별하기 위해 각 문자에 고유한 코드 포인트를 할당합니다. 소위 코드 포인트는 U+ 접두사가 추가된 16진수 정수입니다. 예를 들어 문자 A의 코드 포인트는 U+0041입니다.

유니코드 문자 집합을 만든 후 고려해야 할 것은 이러한 문자를 어떻게 전송하고 저장하는지입니다. 이를 유니코드 변환 형식(Unicode Transformation Format)이라고 합니다. 익숙한 UTF-8, UTF-16 등은 서로 다른 유니코드 인코딩 구현 방법입니다.

유니코드 문자 집합 탄생 초기에는 유니코드 문자 집합을 인코딩하는 데 고정 길이 인코딩 방법인 UCS-2(2바이트 범용 문자 집합)가 사용되었습니다. 16비트 문자 인코딩이므로 최대 2^16 = 65536자를 인코딩할 수 있습니다(인코딩 범위는 U+0000 ~ U+FFFF). 이런 상황에서 디자이너들은 모든 문자를 인코딩하는데 절반 이하의 숫자를 사용했고, 남은 공간은 앞으로 새로운 문자를 인코딩하는데 충분하다고 믿었다.

안타깝게도 중국어, 일본어, 한국어 및 기타 표의 문자가 계속 추가되면서 유니코드 문자 집합의 문자 수가 16비트로 인코딩할 수 있는 최대 문자 수를 빠르게 초과했기 때문에 디자이너들은 캐릭터 세트의 디자인이 변경되었습니다.

새로운 디자인은 문자 집합의 모든 문자를 17개의 코드 평면으로 나눕니다. 그 중 코드 포인트 범위 U+0000 ~ U+FFFF는 Basic Multilingual Plane(약칭 BMP)으로 지정되며, 나머지 문자는 16개의 보조 평면(보조 평면)으로 구분됩니다. U+10FFFF, 보조 평면의 이러한 문자를 보조 문자라고 합니다.

유니코드 문자 집합의 문자를 다른 평면으로 재분류한 후에는 다음 두 가지 측면에 주의해야 합니다.

    BMP 범위 및 UCS의 문자 -2 문자 인코딩은 기본적으로 동일하게 유지되지만 BMP의 U+D800 ~ U+DFFF 부분은 공백으로 남아 있으며 보조 평면에서 문자를 인코딩하는 데 사용됩니다.
  • 다음과 같은 이유로 모든 평면의 모든 위치가 지정된 문자에 할당되는 것은 아닙니다.
    특수 목적(예: BMP의 U+D800 ~ U+DFFF 부분
  • 예약된 공간
  • 문자가 부족함
UTF-16

UTF-16도 유니코드 문자를 표현하기 위해 16비트 인코딩을 사용합니다. 즉, UTF-16 코드 단위(코드 단위)는 16비트입니다. 코드 단위는 문자 인코딩의 가장 기본적인 단위를 의미합니다. 즉, 모든 문자는 n(n≥1) 코드 단위로 구성되어야 합니다.

UTF-16에서는 16비트 길이가 65536자만 표현할 수 있기 때문에 BMP 범위 내의 모든 문자는 기본적으로 매핑되므로 U+D800 ~ U+DFFF 부분은 공백으로 남겨두고 보조 Flat 문자는 이 공백 부분을 사용하여 표현할 수도 있습니다. 이것이 공간 낭비 없이 모든 문자의 인코딩 문제를 해결하는 UTF-16 디자인의 독창성입니다.

그럼 보조기의 캐릭터는 어떻게 표현할까요? 실제로 보조 평면 문자의 코드 포인트는 대리 쌍이라고 하는 16비트 긴 코드 단위 쌍으로 인코딩되며, 대리 쌍은 BMP의 U+D800 ~ U+DFFF 부분에 속해야 합니다. 이는 전체 유니코드 문자 집합을 16비트 코드 단위로 인코딩하는 문제를 해결합니다. U+D800 ~ U+DFFF 부분은 에이전트 영역이라고 할 수 있으며, 그 중 U+D800 ~ U+DBFF 부분은 상위 에이전트 영역(선행 에이전트 영역)이라고 하고, U 부분은 +DC00 ~ U+DFFF를 하위 에이전트 영역(리어 에이전트 영역)이라고 합니다.

다음은 보조평면 문자인 U+64321을 UTF-16으로 인코딩하는 예를 통해 보조평면 문자의 인코딩 방법을 설명한다.

먼저 이 문자의 코드 포인트에서 0x10000을 빼면 20비트 길이의 값을 얻을 수 있습니다. 이 값의 범위는 0x0000 ~ 0xFFFF 이내여야 합니다.

Java의 char 및 String에 대한 세부 정보 및 사용 참고 사항

Vx의 상위 10비트 값을 상위 에이전트의 연산 베이스 Vh로 사용하고, 하위 10비트 값을 사용 하위 에이전트의 작전 기지 Vl로 사용됩니다. 이 두 10비트 값의 값 범위는 0x0000 ~ 0x3FF 사이여야 합니다.

Java의 char 및 String에 대한 세부 정보 및 사용 참고 사항

각각 상위 프록시 영역과 하위 프록시 영역의 시작 위치에 있는 코드 포인트를 사용하여 Vh 및 Vl에 대해 비트 OR 연산을 수행하고 결과는 U+64321의 보조 평면 UTF-16 인코딩.

Java의 char 및 String에 대한 세부 정보 및 사용 참고 사항

따라서 결국 문자 U+64321은 상위 서로게이트와 하위 서로게이트로 구성된 서로게이트 쌍으로 인코딩됩니다. 0xDF21은 동시에 이 문자를 나타냅니다.

위의 예를 통해 보조 평면의 모든 문자는 UTF-16에서 두 개의 16비트 대리 인코딩으로 구성된 대리 쌍으로 인코딩된다는 것을 알 수 있습니다. 이는 프로그램 문자로 표시됩니다. 더 이상 16비트 공간이 필요하지 않고 32비트 공간이 필요합니다.

Java 프로그램에서는 char 데이터 형식을 사용하지 않는 것이 좋습니다

위의 유니코드 문자 집합과 UTF-16에 대한 설명을 마친 후 그 이유에 대해 알아보겠습니다. 사용하지 않는 것이 좋습니다. char 데이터 유형은 Java 프로그램에서 사용됩니다.

Java는 16비트 유니코드 문자 집합, 즉 UTF-16을 사용하므로 Java의 char 데이터 형식은 고정 길이이며 길이는 항상 16비트만 가능합니다. U+0000 ~ U+FFFF 사이의 문자는 BMP의 문자입니다. 코드 포인트가 이 범위를 초과하면 보조 문자를 사용하더라도 char 데이터 형식은 지원되지 않습니다. 보조 문자를 저장하려면 32비트 길이가 필요하고 이 문자를 저장하려면 String만 사용할 수 있기 때문입니다.

Java의 char 및 String에 대한 세부 정보 및 사용 참고 사항

위에 작성된 코드가 char 데이터 유형을 사용하여 보조 평면의 문자를 저장하는 경우 컴파일러는 잘못된 문자 상수 오류를 보고합니다.

인터넷 사용자의 지속적인 증가와 인터넷 언어의 지속적인 풍부화로 인해 사용자는 풍부한 의미를 표현하기 위해 인터넷에서 일부 특수 문자를 점점 더 많이 사용하고 있으며 이러한 문자는 보조 평면에 속할 가능성이 높습니다. in 이므로 처리에 char 유형을 사용하면 프로그램의 견고성이 저하될 가능성이 있습니다.

문자열 세부 정보

문자열 길이 가져오기

문자열은 프로그래밍에서 사용하는 매우 일반적인 데이터 유형입니다. 문자열을 나타내는 데 사용됩니다. String의 소스 코드를 보면 기본 레이어가 실제로 char 유형 배열을 사용하여 문자를 저장하는 것을 볼 수 있습니다.

Java의 char 및 String에 대한 세부 정보 및 사용 참고 사항

또한 length() 메소드를 호출하면 문자열의 길이, 즉 문자열의 문자 수를 얻을 수 있다는 것도 알고 있습니다. 구현은 기본 값 배열의 길이를 직접 반환하는 것입니다. 코드는 다음과 같습니다.

Java의 char 및 String에 대한 세부 정보 및 사용 참고 사항

위의 문자 인코딩에 대한 지식을 결합하면 Java의 char 길이는 항상 16비트라는 것을 알 수 있습니다. 문자열에 보조 문자를 사용하는 경우 For For String을 저장하려면 2개의 char 유형 길이가 필요합니다. 문자를 저장하는 기본 배열 값에는 2개의 배열 요소 위치가 필요합니다. 따라서 다음 프로그램에서는 예상치 못한 결과를 얻게 됩니다.

Java의 char 및 String에 대한 세부 정보 및 사용 참고 사항

우리 생각에 따르면 문자열 tt에는 8자만 있어야 하지만 실제 출력은 9입니다. 위에서 이미 Java가 16비트 유니코드 문자 집합을 사용한다고 언급했으므로 Java의 코드 단위 길이도 16비트입니다. 보조 문자를 표현하려면 두 개의 코드 단위가 필요하므로 문자열의 tt 문자는

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

자바의 완전수 자바의 완전수 Aug 30, 2024 pm 04:28 PM

Java의 완전수 가이드. 여기서는 정의, Java에서 완전 숫자를 확인하는 방법, 코드 구현 예제에 대해 논의합니다.

자바의 웨카 자바의 웨카 Aug 30, 2024 pm 04:28 PM

Java의 Weka 가이드. 여기에서는 소개, weka java 사용 방법, 플랫폼 유형 및 장점을 예제와 함께 설명합니다.

Java의 스미스 번호 Java의 스미스 번호 Aug 30, 2024 pm 04:28 PM

Java의 Smith Number 가이드. 여기서는 정의, Java에서 스미스 번호를 확인하는 방법에 대해 논의합니다. 코드 구현의 예.

Java Spring 인터뷰 질문 Java Spring 인터뷰 질문 Aug 30, 2024 pm 04:29 PM

이 기사에서는 가장 많이 묻는 Java Spring 면접 질문과 자세한 답변을 보관했습니다. 그래야 면접에 합격할 수 있습니다.

Java 8 Stream foreach에서 나누거나 돌아 오시겠습니까? Java 8 Stream foreach에서 나누거나 돌아 오시겠습니까? Feb 07, 2025 pm 12:09 PM

Java 8은 스트림 API를 소개하여 데이터 컬렉션을 처리하는 강력하고 표현적인 방법을 제공합니다. 그러나 스트림을 사용할 때 일반적인 질문은 다음과 같은 것입니다. 기존 루프는 조기 중단 또는 반환을 허용하지만 스트림의 Foreach 메소드는이 방법을 직접 지원하지 않습니다. 이 기사는 이유를 설명하고 스트림 처리 시스템에서 조기 종료를 구현하기위한 대체 방법을 탐색합니다. 추가 읽기 : Java Stream API 개선 스트림 foreach를 이해하십시오 Foreach 메소드는 스트림의 각 요소에서 하나의 작업을 수행하는 터미널 작동입니다. 디자인 의도입니다

Java의 날짜까지의 타임스탬프 Java의 날짜까지의 타임스탬프 Aug 30, 2024 pm 04:28 PM

Java의 TimeStamp to Date 안내. 여기서는 소개와 예제와 함께 Java에서 타임스탬프를 날짜로 변환하는 방법에 대해서도 설명합니다.

캡슐의 양을 찾기위한 Java 프로그램 캡슐의 양을 찾기위한 Java 프로그램 Feb 07, 2025 am 11:37 AM

캡슐은 3 차원 기하학적 그림이며, 양쪽 끝에 실린더와 반구로 구성됩니다. 캡슐의 부피는 실린더의 부피와 양쪽 끝에 반구의 부피를 첨가하여 계산할 수 있습니다. 이 튜토리얼은 다른 방법을 사용하여 Java에서 주어진 캡슐의 부피를 계산하는 방법에 대해 논의합니다. 캡슐 볼륨 공식 캡슐 볼륨에 대한 공식은 다음과 같습니다. 캡슐 부피 = 원통형 볼륨 2 반구 볼륨 안에, R : 반구의 반경. H : 실린더의 높이 (반구 제외). 예 1 입력하다 반경 = 5 단위 높이 = 10 단위 산출 볼륨 = 1570.8 입방 단위 설명하다 공식을 사용하여 볼륨 계산 : 부피 = π × r2 × h (4

미래를 창조하세요: 완전 초보자를 위한 Java 프로그래밍 미래를 창조하세요: 완전 초보자를 위한 Java 프로그래밍 Oct 13, 2024 pm 01:32 PM

Java는 초보자와 숙련된 개발자 모두가 배울 수 있는 인기 있는 프로그래밍 언어입니다. 이 튜토리얼은 기본 개념부터 시작하여 고급 주제를 통해 진행됩니다. Java Development Kit를 설치한 후 간단한 "Hello, World!" 프로그램을 작성하여 프로그래밍을 연습할 수 있습니다. 코드를 이해한 후 명령 프롬프트를 사용하여 프로그램을 컴파일하고 실행하면 "Hello, World!"가 콘솔에 출력됩니다. Java를 배우면 프로그래밍 여정이 시작되고, 숙달이 깊어짐에 따라 더 복잡한 애플리케이션을 만들 수 있습니다.

See all articles