중국어 글자가 깨지는 원인은 무엇입니까?-일반적인 문제-php.cn

먼저 왜곡된 문자가 무엇인지부터 이야기해 봅시다

집

일반적인 문제

중국어 글자가 깨지는 원인은 무엇입니까?

青灯夜游

Nov 09, 2022 am 11:14 AM

왜곡된 문자 중국어 왜곡 문자

한자가 깨져 보이는 이유: 디코딩 방식과 인코딩 방식이 일치하지 않습니다. UTF-8로 인코딩된 중국어 문자는 3바이트로 변환되고, gbk로 인코딩된 경우 2바이트로 변환되며, UTF-8로 인코딩된 영어 문자는 gbk로 인코딩된 경우 1바이트로 변환됩니다. 1바이트로 변환됩니다.

중국어 글자가 깨지는 원인은 무엇입니까?

이 튜토리얼의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.

먼저 왜곡된 문자가 무엇인지부터 이야기해 봅시다

이런 식으로 생각한 사람이 있을지 모르겠습니다. 문자열에는 문자뿐만 아니라 그것을 숨기는 인코딩 정보도 포함되어 있습니다. 예를 들어, Java에서는 String str = "Hello"라고 생각했습니다. 문자열 str은 유니코드 인코딩이나 gbk, iso-8859-1 등의 인코딩 방법을 숨깁니다. 이러한 이해는 잘못된 것입니다. 문자는 다른 정보가 없는 문자일 뿐입니다. 사람들이 파일에서 보는 문자열은 메모리의 디지털 정보를 읽어서 일부로 디코딩하는 시스템이라는 것이 올바른 이해입니다. 즉, 텍스트 파일을 두 번 클릭하면 시스템이 메모리에 있는 디지털 정보를 읽고 표시합니다. 텍스트 파일을 저장할 때 시스템은 설정한 인코딩 방식으로 파일을 인코딩한 후 저장합니다. 기억 속으로. 그래서 왜곡된 문자도 일부 문자일 뿐이고 이상한 문자일 뿐이며 "코드"가 없습니다.

그럼 코드가 왜곡되는 이유에 대해 이야기해보겠습니다

우리는 인터넷에서 코드가 왜곡되는 이유에 대한 설명을 자주 봅니다. 코드가 왜곡되는 이유는 디코딩 방법과 인코딩 방법의 불일치로 인해 발생합니다. 틀린 말은 아니지만 같은 문장 자체가 왜곡된 코드는 요약일 뿐, 왜곡된 코드를 이해하는 데 도움이 되지 않습니다.

그래서 우리가 묻고 싶은 질문은: 왜 디코딩 방식과 인코딩 방식이 왜곡되어 나타나는 걸까요?

다음은 utf-8, gbk, iso-8859-1의 세 가지 인코딩 방법을 예시로 보여줍니다.

     @Test
     public void testEncode() throws Exception {
        String str = "你好",en = "h?h";
        
        System.out.println("========中文字符utf-8=======");
        byte[] utf8 = str.getBytes(); // 以utf-8方式编码 ，default:utf-8
        for (byte b : utf8) {            
            System.out.print(b + "\t");
        }
        
        System.out.println("\n"+"========英文字符utf-8=======");
        byte[] utf8_en = en.getBytes(); // 以utf-8方式编码 ，default:utf-8
        for (byte b : utf8_en) {            
            System.out.print(b + "\t");
        }
        
        System.out.println("\n"+"========中文字符gbk=========");
        byte[] gbk = str.getBytes("gbk");
        for (byte b : gbk) {            
            System.out.print(b + "\t");
        }
        
        System.out.println("\n"+"========英文字符gbk=========");
        byte[] gbk_en = en.getBytes("gbk");
        for (byte b : gbk_en) {            
            System.out.print(b + "\t");
        }
        
        String s = new String(utf8,"utf-8");
        String s1 = new String(utf8,"gbk");
        System.out.println("\n"+s + "====gbk:" + s1);
     }

로그인 후 복사

위 방법을 테스트하면 인쇄된 결과는 다음과 같습니다.

========中文字符utf-8=======
-28 -67  -96 -27  -91 -67  
========英文字符utf-8=======
104 63  104 
========中文字符gbk=========
-60 -29  -70 -61  
========英文字符gbk=========
104 63  104 
你好====gbk:浣犲ソ
------------------------------------------------------------------------------------

로그인 후 복사

다음과 같이 결론을 내릴 수 있습니다.

한자는 utf-8로 인코딩하면 3바이트로 변환되고, 2바이트로 변환됩니다. gbk로 인코딩된 경우 ;
영어 문자는 utf-8로 인코딩된 경우 1바이트로 변환되고, gbk로 인코딩된 경우 1바이트로 변환됩니다.
바이트 배열 utf8이 utf-8 모드에서 디코딩되면 잘못된 문자가 없고 원본 "Hello"가 코드의 29-31행과 결합된 인쇄의 마지막 행에서 볼 수 있습니다. "는 여전히 남아있지만 gbk 모드로 디코딩하면 디코딩할 때 왜곡된 문자 3개가 나타납니다. 왜 2개가 아닌 3개가 있는 걸까요? 6/2=3.

다음으로 iso-8859-1에 대해 이야기해 보겠습니다. 이 인코딩은 영어 시리즈에서 사용됩니다. 즉, 중국어를 표현할 수 없다는 뜻입니다(사용하려면 iso-8859와 호환되는 다른 인코딩을 사용해야 합니다). -1 인코딩 방식) 문자는 영어 물음표 '?'로 처리됩니다. , 모든 영어 문자는 유니코드 인코딩을 제외하고 고정 바이트 코드 표현을 사용합니다.

     @Test
     public void testISO() throws Exception {
         String str = "你好";
         byte[] bs = str.getBytes("iso-8859-1");
         for (byte b : bs) {
            System.out.println(b);
         }
         System.out.println(new String(bs,"iso-8859-1"));
         System.out.println(new String(bs,"utf-8"));
         System.out.println(new String(bs,"gbk"));
         System.out.println(new String(bs,"unicode"));         
     }

로그인 후 복사

결과 인쇄

63
63
??
??
??
㼿

로그인 후 복사

설명 63 =》?, 모든 중국어가 ?로 간주되므로 이 코드가 실행되면: byte[] bs = "Hello".getBytes("iso-8859-1" );정보가 잃어버린.

Execute String str = new String(bs, "any charset"); str은 더 이상 "Hello"와 동일하지 않지만 두 개의 물음표??. 그래서 Tomcat에서는 한자가 ????????라는 긴 문자열로 바뀌는 것을 자주 보게 되는데, 이것이 유래입니다.

iso-8859-1, utf-8, gbk에서는 하나의 바이트코드가 하나의 영어 문자를 나타냅니다.

유니코드 인코딩에서는 하나의 바이트코드가 어떤 문자도 표현할 수 없으며, 두 개의 바이트코드(경우에 따라 4개)여야 한다고 규정되어 있습니다. 문자를 나타낼 수 있습니다.

너무나 많은 사람들이 왜 그렇게 많은 인코딩 방법을 사용하는지 궁금해 할 것입니다. utf-8로 통합하면 모든 문자를 표현할 수 없나요?

인코딩은 어떤 문자를 표현할 수 있는지 여부뿐만 아니라 전송 및 저장에 관한 것입니다.

1. UTF-8은 실제로 거의 모든 알려진 문자를 나타낼 수 있습니다. 앞에서 언급했듯이 UTF-8 인코딩에서는 3바이트만이 한자를 나타내므로 공간을 많이 차지하며 전송 및 저장에 도움이 되지 않습니다(전송과 저장은 모두 바이너리로 수행됨)

2. 문자는 iso-8859-1과 같이 가장 많은 공간을 절약합니다. 하지만 세상에는 영어 캐릭터뿐만 아니라 다양한 지역, 국가의 캐릭터도 존재합니다. 따라서 문자 수는 2의 8승보다 커야 합니다.

위의 두 가지 점을 합치면 자연스럽게 다양한 인코딩 방식이 등장하게 됩니다.

다양한 인코딩 방법의 규칙 이해하기: https://jingyan.baidu.com/article/020278118741e91bcd9ce566.html

더 많은 프로그래밍 관련 지식을 보려면 프로그래밍 교육을 방문하세요! !

위 내용은 중국어 글자가 깨지는 원인은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7465

Cakephp 튜토리얼

1376

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Linux에서 중국어 왜곡 문자를 해결하는 방법 Feb 21, 2024 am 10:48 AM

Linux 중국어 왜곡 문제는 중국어 문자 세트 및 인코딩을 사용할 때 흔히 발생하는 문제입니다. 잘못된 파일 인코딩 설정, 시스템 로케일이 설치 또는 설정되지 않음, 터미널 디스플레이 구성 오류 등으로 인해 문자가 깨질 수 있습니다. 이 문서에서는 몇 가지 일반적인 해결 방법을 소개하고 특정 코드 예제를 제공합니다. 1. 파일 인코딩 설정을 확인하십시오. 파일 인코딩을 보려면 터미널에서 file 명령을 사용하십시오. 출력에 "charset"이 있는 경우.

Tomcat 시작 잘못된 코드를 해결하는 방법 Dec 26, 2023 pm 05:21 PM

잘못된 Tomcat 시작에 대한 해결 방법: 1. Tomcat의 conf 구성 파일 수정 2. 명령줄 창 인코딩 수정 4. Tomcat 서버 구성 확인 6. 로그 확인 파일 7, 다른 해결 방법을 시도해 보세요. 자세한 소개: 1. Tomcat의 conf 구성 파일을 수정하고, Tomcat의 conf 디렉터리를 열고, "logging.properties" 파일을 찾습니다.

Windows 10에서 중국어 문자가 깨지는 문제를 해결하는 방법 Jan 16, 2024 pm 02:21 PM

Windows 10 시스템에서는 잘못된 문자가 일반적입니다. 그 이유는 종종 운영 체제가 일부 문자 집합에 대해 기본 지원을 제공하지 않거나 문자 집합 옵션 설정에 오류가 있기 때문입니다. 올바른 약을 처방하기 위해 실제 수술 과정을 아래에서 자세히 분석해 보겠습니다. Windows 10 잘못된 코드를 해결하는 방법 1. 설정을 열고 "시간 및 언어"를 찾습니다. 2. 그런 다음 "언어"를 찾습니다. 3. "언어 설정 관리"를 찾습니다. 4. 여기에서 "시스템 지역 설정 변경"을 클릭합니다. 5. 표시된 대로 확인하고 클릭합니다. 그냥 확인하세요.

PHP Dompdf의 중국어 문자 왜곡 문제를 해결하는 방법 Mar 05, 2024 pm 03:45 PM

PHPDompdf의 중국어 왜곡 문제를 해결하는 방법 PHPDompdf는 HTML 문서를 PDF 파일로 변환하는 도구입니다. 강력하고 사용하기 쉽습니다. 그런데 중국어 콘텐츠를 처리하다 보면 한자가 깨져 나오는 문제가 가끔 발생합니다. 이 기사에서는 PHPDompdf의 중국어 왜곡 문제를 해결하는 몇 가지 방법을 소개하고 구체적인 코드 예제를 제공합니다. 1. 중국어 콘텐츠를 처리하기 위해 글꼴 파일을 사용할 때 일반적인 문제는 Dompdf가 기본적으로 중국어 콘텐츠를 지원하지 않는다는 것입니다.

dll 파일 열 때 문자 깨짐 문제 해결을 위한 편집 방법 Jan 06, 2024 pm 07:53 PM

많은 사용자가 컴퓨터를 사용할 때 접미사 dll이 포함된 파일이 많이 있지만 이러한 파일을 여는 방법을 모르는 사용자가 많다는 것을 알게 될 것입니다. 알고 싶은 사용자는 다음 세부 정보를 살펴보십시오. 튜토리얼~열기 방법 dll 파일 편집: 1. "exescope"라는 소프트웨어를 다운로드하여 설치합니다. 2. 그런 다음 dll 파일을 마우스 오른쪽 버튼으로 클릭하고 "exescope로 리소스 편집"을 선택합니다. 3. 그런 다음 팝업 오류 프롬프트 상자에서 "확인"을 클릭하십시오. 4. 그런 다음 오른쪽 패널에서 각 그룹 앞에 있는 "+" 기호를 클릭하면 해당 그룹에 포함된 콘텐츠를 볼 수 있습니다. 5. 보려는 dll 파일을 클릭한 다음 "파일"을 클릭하고 "내보내기"를 선택합니다. 6. 그러면 할 수 있다

win11 메모장에서 문자가 깨지는 문제 해결 Jan 05, 2024 pm 03:11 PM

일부 친구는 메모장을 열고 싶어하는데 win11 메모장이 깨져서 무엇을 해야 할지 모릅니다. 실제로 우리는 일반적으로 지역과 언어만 수정하면 됩니다. Win11 메모장이 깨졌습니다. 첫 번째 단계에서는 검색 기능을 사용하여 "제어판"을 검색하고 엽니다. 두 번째 단계에서는 시계 및 지역 아래에서 "날짜, 시간 또는 숫자 형식 변경"을 클릭합니다. 세 번째 단계에서는 카드 위의 "관리" 옵션을 클릭합니다. 네 번째 단계는 아래의 "시스템 지역 설정 변경"을 클릭하는 것입니다. 다섯 번째 단계는 현재 시스템 지역 설정을 "중국어(간체, 중국)"로 변경하고 "확인"을 클릭하여 저장하는 것입니다.

파일질라 문자 깨짐 해결 방법 Nov 20, 2023 am 10:16 AM

filezilla 왜곡된 문자에 대한 해결 방법은 다음과 같습니다. 1. 인코딩 설정을 확인합니다. 3. 서버 구성을 확인합니다. 5. 소프트웨어 버전을 업데이트합니다. .기술 지원을 요청하세요. FileZilla 문자 깨짐 문제를 해결하려면 여러 측면에서 시작하여 점차적으로 문제의 원인을 조사하고 해당 조치를 취하여 복구해야 합니다.

PyCharm의 중국어 왜곡 문자 문제에 대한 궁극적인 해결책 Jan 27, 2024 am 08:00 AM

PyCharm에서 중국어 문자 깨짐 문제를 해결하는 궁극적인 방법에는 구체적인 코드 예제가 필요합니다. 소개: PyCharm은 일반적으로 사용되는 Python 통합 개발 환경(IDE)으로 강력한 기능과 친숙한 사용자 인터페이스를 갖추고 있어 많은 사람들에게 사랑받고 있습니다. 대부분의 개발자. 그러나 PyCharm이 중국어 문자를 처리할 때 문자가 깨져 개발 및 디버깅 시 특정 문제를 일으키는 경우가 가끔 있습니다. 이 기사에서는 PyCharm에서 중국어 왜곡 문제를 해결하는 방법을 소개하고 구체적인 코드 예제를 제공합니다. 1. 프로젝트 설정

중국어 글자가 깨지는 원인은 무엇입니까?

먼저 왜곡된 문자가 무엇인지부터 이야기해 봅시다

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제