이 글에서는 주로 Python의 중국어 문자열 차단 기능 구현을 소개하고, 구체적인 예를 바탕으로 utf-8 및 gb18030 인코딩에 대한 Python의 중국어 문자열 차단 작업 관련 구현 기술을 분석합니다.
예제는 다음과 같습니다. 이 기사에서는 Python이 중국어 문자열에 대한 차단 기능을 구현하는 방법을 설명합니다. 참조를 위해 모든 사람과 공유하세요.
멀티바이트가 포함된 문자열의 경우 잘라낼 때 멀티바이트 문자를 분할할 수 없는 위치의 문자 수를 결정해야 합니다. 잘린 후 문자가 깨지는 것을 방지하세요
다음은 utf8 및 gb18030 중 하나를 구현한 것입니다. 먼저 트랜스코딩하고 인코딩 및 디코딩을 사용할 수 있습니다.
방법 1: utf8의 경우:
def subString(string,length): if length >= len(string): return string result = '' i = 0 p = 0 while True: ch = ord(string[i]) #1111110x if ch >= 252: p = p + 6 #111110xx elif ch >= 248: p = p + 5 #11110xxx elif ch >= 240: p = p + 4 #1110xxxx elif ch >= 224: p = p + 3 #110xxxxx elif ch >= 192: p = p + 2 else: p = p + 1 if p >= length: break; else: i = p return string[0:i]
방법 2: gb18030 코딩용
def cut_string_off(string,s_len): if len(string)==0 or s_len <=0: return string elif len(string)==1 or s_len >= len(string): return string elif s_len < len(string): len_num=0 while len_num < s_len: tmp_c=ord(string[len_num]) if tmp_c >0 and tmp_c <=0x7F: len_num+=1 continue tmp_nextc=ord(string[len_num+1]) if tmp_c >= 0x81 and tmp_c <=0xFE and tmp_nextc>=0x40 and tmp_nextc<=0xFE: len_num+=2 continue else: len_num +=1; continue break tmp = string[0:len_num] # print utf2gbk(tmp) return tmp
위 내용은 중국어 문자열을 포함하는 차단 함수에 대한 Python 구현 예의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!