파이썬 블랙 매직 인코딩 변환 방법-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

파이썬 블랙 매직 인코딩 변환 방법

高洛峰

Mar 13, 2017 pm 06:15 PM

이 글은 python 블랙마법의 인코딩 변환을 주로 소개하고, 파이썬 인코딩 변환 방법을 분석합니다. 관심 있는 친구들은

라이브러리에서 인코딩을 할 때 다른 언어를 사용하고 있음을 참고하세요. 변환 시, 일반적으로 이해할 수 없는 문자를 처리하는 방법은 두 가지(또는 세 가지)뿐입니다:

예외 발생
은 대체 문자
건너뛰기 로 대체됩니다.

그러나 복잡한 현실 세계에서는 다양한 불안정성으로 인해 우리가 처리하는 텍스트에는 혼합 인코딩과 같은 불일치 요소가 항상 존재합니다. 이 경우에는 위의 접근 방식으로 돌아갑니다.

그렇다면 파이썬에 더 좋은 방법이 있을까요?

답은 그렇습니다!

Python의 인코딩 변환 프로세스는 실제로 2단계 변환입니다.

source -> unicode -> dest

로그인 후 복사

먼저 문자열을 원래 인코딩에서 유니코드로 변환합니다. . 그런 다음 유니코드를 대상 인코딩으로 변환합니다.

첫 번째 단계에서는 일반적으로 decode() 또는 unicode()이 두 가지<🎜를 사용합니다. > 기능 완료되었습니다. 두 번째 단계에서는
encode() 함수를 사용하여 완료합니다.

여기서 말하는 흑마술은 첫 번째 단계에서 실현됩니다.

decode 및 unicode 함수에는 모두

errors라는 선택적 매개변수가 있습니다. 공식 설명을 살펴보세요:

다른 오류를 설정하기 위해 오류가 제공될 수 있습니다
처리 방식. 기본값은 '엄격'입니다. 즉, 인코딩 오류가 발생합니다.
UnicodeDecodeError. 다른 가능한 값은 'ignore' 및 'replace'
입니다.
UnicodeDecodeError를 처리할 수 있는
코덱에 등록된 이름입니다. 🎜>

엄격한 기본값이라는 세 가지 값이 있습니다. 인코딩 오류가 발생하면 UnicodeDecodeError가 발생합니다.
건너뛰기를 무시합니다.
바꾸다 ?

모듈 코덱에는 Register_error라는 함수가 있습니다. 이 기능을 통해 사용자는 사용자 정의 오류 처리 방법을 등록할 수 있습니다.

UnicodeDecodeError를 처리하는 데 사용됩니다.

함수 프로토타입을 살펴보겠습니다.

codecs.register_error(name, error_handler)

로그인 후 복사

name:

오류 처리기의 이름

. 디코드 기능의 오류 매개변수를 채우는 데 사용됩니다. error_handler: 처리 기능. 이 함수는 예외 매개변수를 허용합니다. 튜플을 반환합니다. 튜플에는 2개의 요소가 있습니다. 첫 번째는 오류가 수정된 문자열이고 두 번째는 디코딩을 계속할 시작 위치입니다. 구체적인 구현을 살펴보겠습니다.

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don&#39;t know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError(&#39;unknown codec ,the object too short!&#39;) 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,&#39;cp936&#39;), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,&#39;big5&#39;), newpos) 
  raise TypeError(&#39;unknown codec !&#39;) 
codecs.register_error("cjk_replace", cjk_replace)

로그인 후 복사

위 내용은 제가 인터넷에서

복사
한 것입니다. 처음에는 아주 좋다고 생각했는데, 나중에 보니 매우 반영성이 없는 알고리즘이라는 것을 알게 되었습니다.

예를 들어 utf8과 gbk는 처음 2바이트에 교차점이 있습니다. utf8 문자열을 gbk 인코딩으로 디코딩하면 세 번째 바이트부터 오류가 발생합니다(처음 2바이트는 gbk 인코딩 범위의 한자에 해당할 수도 있음).

예:

a = "你"              # utf8编码：&#39;\xe4\xbd\xa0&#39;
c = unicode(a[:2],&#39;gbk&#39;)  # 正常返回
c = unicode(a, &#39;gbk&#39;)    # UnicodeDecodeError 。错误发生在第三个字节

로그인 후 복사

이러한 상황을 위해 다음과 같이 개선했습니다.

import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in (&#39;gbk&#39;,&#39;gb18030&#39;, &#39;big5&#39;):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], &#39;utf8&#39;), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError(&#39;unknown codec ,the object too short!&#39;)
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != &#39;gbk&#39; and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,&#39;cp936&#39;), newpos)
  if src != &#39;big5&#39; and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,&#39;big5&#39;), newpos)
  raise TypeError(&#39;unknown codec !&#39;)

codecs.register_error("cjk_replace", cjk_replace)

로그인 후 복사

Of 물론, 이 논리는 실제로 충분히 엄격하지 않습니다. 이러한 혼합 인코딩의 이상을 처리하는 것이 다소 현실적이긴 하지만.

그런데 파이썬이 그런 기능을 제공하기 때문에 모두가 함께 토론할 수 있는데, 어떻게 하면 더 잘할 수 있을까요?

위 내용은 파이썬 블랙 매직 인코딩 변환 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7517

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까? Apr 01, 2025 pm 05:09 PM

Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까? Apr 01, 2025 pm 11:15 PM

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

정규 표현이란 무엇입니까? Mar 20, 2025 pm 06:25 PM

정규 표현식은 프로그래밍의 패턴 일치 및 텍스트 조작을위한 강력한 도구이며 다양한 응용 프로그램에서 텍스트 처리의 효율성을 높입니다.

Uvicorn은 Serving_forever ()없이 HTTP 요청을 어떻게 지속적으로 듣습니까? Apr 01, 2025 pm 10:51 PM

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

문자열을 통해 객체를 동적으로 생성하고 방법을 파이썬으로 호출하는 방법은 무엇입니까? Apr 01, 2025 pm 11:18 PM

파이썬에서 문자열을 통해 객체를 동적으로 생성하고 메소드를 호출하는 방법은 무엇입니까? 특히 구성 또는 실행 해야하는 경우 일반적인 프로그래밍 요구 사항입니다.

인기있는 파이썬 라이브러리와 그 용도는 무엇입니까? Mar 21, 2025 pm 06:46 PM

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

See all articles

파이썬 블랙 매직 인코딩 변환 방법

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제