문자열 연산 및 Python의 유니코드 인코딩에 대한 자세한 설명_
사실 문자열도 데이터 유형입니다. 하지만 문자열은 인코딩 문제가 있다는 점에서 특별합니다. 다음 글에서는 파이썬에서 문자열 연산과 유니코드 인코딩에 대한 관련 정보를 주로 소개합니다. 필요한 친구들이 참고할 수 있습니다.
이 글은 주로 Python에서 문자열 연산과 유니코드 인코딩에 대한 지식을 소개합니다. 아래에서는 많이 말하지 않겠습니다. 필요한 친구들은 함께 와서 배울 수 있습니다.
문자열 유형
str
: 유니코드 문자열. '' 또는 r''을 사용하여 구성된 문자열은 모두 str이며, 작은따옴표는 큰따옴표나 삼중따옴표로 대체될 수 있습니다. 어떻게 지정하든 Python 내부에 저장되면 차이가 없습니다.
bytes
: 이진 문자열. jpg 등 다른 형식의 파일은 str을 사용하여 표시할 수 없으므로 바이트의 각 바이트는 0부터 255까지의 숫자로 표시됩니다. 인쇄할 때 Python에서는 ASCII로 표현할 수 있는 부분을 ASCII로 표시하므로 읽기가 더 쉽습니다. bytes는 제자리에서 변경할 수 있는 바이너리 문자열인 re 모듈
bytearray()
을 포함하여 서식 지정을 제외한 거의 모든 str 메서드를 지원합니다.
utf-8 인코딩 범위
范围 | 字节数 | 存储格式 |
0x0000~0x007F (0 ~ 127) | 1字节 | 0xxxxxxx |
0x0080~0x07FF(128 ~ 2047) | 2字节 | 110xxxxx 10xxxxxx |
0x0800~FFFF(2048 ~ 65535) | 3字节 | 1110xxxx 10xxxxxx 10xxxxxx |
0x10000~1FFFFFF(65536 ~ 2097152) | 4字节 | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
0x2000000~0x3FFFFFF | 5字节 | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
0x4000000~0x7FFFFFFF) | 6字节 | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx |
바이트 순서 표시 BOM
BOM은 바이트 순서 마커의 약어,
인코딩 작성 시 규칙을 지정합니다
파이썬은 'utf-8' 인코딩 헤더를 사용하여 파일을 작성할 때 BOM을 작성하지 않지만, 'utf-8-sig' 인코딩을 지정하면 Python이 BOM 헤더를 작성하게 됩니다.
'utf-16-be'를 사용하면 BOM 헤더가 작성되지 않지만, 'utf-16'을 사용하면 BOM 헤더가 작성됩니다.
>>> open('h.txt','w',encoding='utf-8-sig').write('aaa') 3 >>> open('h.txt','rb').read() b'\xef\xbb\xbfaaa' >>> open('h.txt','w',encoding='utf-16').write('bbb') 3 >>> open('h.txt','rb').read() b'\xff\xfeb\x00b\x00b\x00' >>> open('hh.txt','w',encoding='utf-16-be').write('ccc') 3 >>> open('hh.txt','rb').read() b'\x00c\x00c\x00c' >>> open('h.txt','w',encoding='utf-8').write('ddd') 3 >>> open('h.txt','rb').read() b'ddd'
읽을 때의 규칙
올바른 인코딩이 지정되면 BOM이 무시되고, 그렇지 않으면 BOM 잘못된 문자로 표시되거나 예외가 반환됩니다.
>>> open('h.txt','r').read() '锘縟dd' >>> open('h.txt','r',encoding='utf-8-sig').read() 'ddd'
인코딩 및 디코딩
문자 및 순서
>>> ord('中') #20013 >>> chr(20013) #'中'
문자열에 유니코드를 하드코드합니다.
'xhh': 문자를 표현하기 위해 2자리 16진수 사용
'uhhhh': 문자를 표현하기 위해 4자리 16진수 사용 문자:
'Uhhhhhhh': 8자리 16진수를 사용하여 문자
>>> s = 'pyx74hu4e2don' #'pyth中on'
str 및 bytes , bytearray 변환
str.encode(encoding='utf-8')<code>str.encode(encoding='utf-8')<br/>
바이트(s ,encoding='utf- 8')<code>bytes(s,encoding='utf-8')<br/>
bytes.decode(encoding='utf-8')<code>bytes.decode(encoding='utf-8')<br/>
str(B, encoding='utf-8')
bytearray(string, encoding='utf-8')
bytearray(bytes)
문서 인코딩 문
Python은 utf-8을 사용합니다. 기본적으로 인코딩.
# -*- coding: latin-1 -*-
: 문서가 latin-1 인코딩으로 선언되었음을 나타냅니다.
도우미 기능
sys.platform #'win32' sys.getdefaultencoding() # 'utf-8' sys.byteorder #'little' s.isalnum() #s表示字符串 s.isalpha() s.isdecimal s.isdigit() s.isnumeric() s.isprintable() s.isspace() s.isidentifier() #如果字符串可以用作变量名,那么返回True s.islower() s.isupper() s.istitle()
파이썬에서 문자열 연산 및 유니코드 인코딩에 대한 자세한 설명과 관련된 추가 기사 PHP 중국어 홈페이지를 주목해주세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

파이썬에서 문자열을 통해 객체를 동적으로 생성하고 메소드를 호출하는 방법은 무엇입니까? 특히 구성 또는 실행 해야하는 경우 일반적인 프로그래밍 요구 사항입니다.

Linux 터미널에서 Python 사용 ...
