Python 유니코드 문자열 형식 지정의 함정
오늘 동료가 설명할 수 없는 UnicodeDecodeError를 연구하는 동안 Python 문자열 형식에서 작은 함정을 발견했습니다. 원본 코드가 너무 복잡하고 문제와 관련 없는 내용이 너무 많아 ipython에서 간단한 테스트를 통해 문제를 재현해 보았습니다.
In [4]: a = '你好世界' In [5]: print 'Say this: %s' % a Say this: 你好世界 In [6]: print 'Say this: %s and say that: %s' % (a, 'hello world') Say this: 你好世界 and say that: hello world In [7]: print 'Say this: %s and say that: %s' % (a, u'hello world') --------------------------------------------------------------------------- UnicodeDecodeError Traceback (most recent call last) /home/jerry/ in () UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 10: ordinal not in range(128) In [8]: a Out[8]: '\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'
다음은 [7]입니다. UnicodeDecodeError가 많이 이상해요? 이전 문장과 유일한 차이점은 'hello world'가 str 개체 대신 유니코드 개체가 된다는 것입니다. 그런데 문제는 'hello world'가 ASCII 이외의 문자를 포함하지 않는 단순한 영어 문자열이라는 것입니다. 어떻게 디코딩할 수 없습니까? 예외에 첨부된 메시지를 자세히 살펴보십시오. 이는 분명히 'hello world'에 있지 않으므로 [8]에서 바이트 시퀀스를 인쇄한 것으로 나타났습니다. 첫 번째는 0xe4입니다.
파이썬이 문자열 서식을 지정할 때 a를 유니코드 객체로 디코딩하려고 하는 것 같은데, 디코딩할 때 실제 UTF-8 인코딩 대신 기본 ASCII 인코딩이 사용됩니다. 무슨 일이에요? ? 실험을 계속해 보겠습니다.
In [9]: 'Say this: %s' % 'hello' Out[9]: 'Say this: hello' In [10]: 'Say this: %s' % u'hello' Out[10]: u'Say this: hello'
자세히 살펴보세요. In [9]의 'hello'는 일반 문자열이고 결과도 문자열(str 개체)인 반면 In [10] hello의 'hello'는 '는 유니코드 객체가 되고 형식이 지정된 결과도 유니코드가 됩니다(결과 시작 부분의 u에 유의하세요).
사실은 다음과 같습니다. Python에는 문자열 형식을 지정할 때 몇 가지 숨겨진 트릭이 있습니다. %s에 해당하는 매개변수에 유니코드가 있으면 최종 결과도 유니코드가 됩니다. 이 경우 템플릿 문자열과 %s 매개변수의 모든 문자열은 유니코드로 디코딩됩니다. 그러나 이 디코딩은 암시적이며 사용자는 Python에서 사용되는 문자 세트를 지정할 수 없습니다. ASCII가 아닌 인코딩된 문자열이 있으면 끝입니다...
Python 설명서에 나와 있는 내용을 살펴보세요.
If format is a Unicode object, or if any of the objects being converted using the %s conversion are Unicode objects, the result will also be a Unicode object.
코드에 str과 유니코드가 혼합되어 있으면 이런 종류의 문제는 쉽게 발생할 수 있습니다. 내 동료의 코드에서 중국어 문자열은 사용자가 입력했으며 올바르게 인코딩되었습니다. UTF-8로 인코딩된 str 개체이지만 내용은 모두 ASCII 코드이지만 소스는 다음과 같습니다. sqlite3 데이터베이스 쿼리와 sqlite API에서 반환된 문자열은 모두 유니코드 개체이므로 이상한 결과가 발생합니다.
Python 2의 str과 unicode는 정말 부정행위를 하고 있어서 여러 번 피해를 본 적이 있습니다. Python 3는 이 점에서 큰 개선을 이루었으며 완전한 인기를 누리기를 기대합니다!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

Sublime 텍스트로 Python 코드를 실행하려면 먼저 Python 플러그인을 설치 한 다음 .py 파일을 작성하고 코드를 작성한 다음 CTRL B를 눌러 코드를 실행하면 콘솔에 출력이 표시됩니다.

Visual Studio Code (VSCODE)에서 코드를 작성하는 것은 간단하고 사용하기 쉽습니다. vscode를 설치하고, 프로젝트를 만들고, 언어를 선택하고, 파일을 만들고, 코드를 작성하고, 저장하고 실행합니다. VSCODE의 장점에는 크로스 플랫폼, 무료 및 오픈 소스, 강력한 기능, 풍부한 확장 및 경량 및 빠른가 포함됩니다.

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

메모장에서 Python 코드를 실행하려면 Python 실행 파일 및 NPPEXEC 플러그인을 설치해야합니다. Python을 설치하고 경로를 추가 한 후 nppexec 플러그인의 명령 "Python"및 매개 변수 "{current_directory} {file_name}"을 구성하여 Notepad의 단축키 "F6"을 통해 Python 코드를 실행하십시오.
