Python에서 \xa0 유니코드 형식을 올바르게 제거하는 방법은 무엇입니까?

Linda Hamilton
풀어 주다: 2024-11-06 06:42:02
원래의
246명이 탐색했습니다.

How to Properly Remove xa0 Unicode Formatting in Python?

Python에서 xa0 유니코드 형식 제거

Beautiful Soup으로 HTML을 구문 분석하는 동안 공백을 나타내는 xa0 유니코드 문자를 만날 수 있습니다. 이러한 문자를 제거하고 일반 공백으로 바꾸려면 인코딩 및 디코딩에 주의가 필요합니다.

Python 2.7에서는 string.replace(u'xa0', u' ') 명령을 사용하여 xa0을 공백으로 대체할 수 있습니다. 그러나 이 접근 방식은 xa0을 "u" 문자로 잘못 변환합니다.

해결책은 xa0이 Latin1(ISO 8859-1)에서 줄 바꿈하지 않는 공백이라는 것을 이해하는 데 있습니다. 이를 제거하려면 다음 명령을 사용하십시오.

string = string.replace(u'\xa0', u' ')
로그인 후 복사

그러나 교체() 명령을 사용하지 않고 수정된 문자열에 대해 encode('utf-8')를 호출하면 xc2와 같은 이상한 문자가 발생할 수 있습니다. 이는 encode()가 유니코드 문자를 UTF-8로 변환하여 xa0을 xc2 및 xa0의 두 바이트 시퀀스로 나타내기 때문입니다.

문자열을 의도한 상태로 복원하려면 교체( ) 작업:

string = string.encode('utf-8')
로그인 후 복사

위 내용은 Python에서 \xa0 유니코드 형식을 올바르게 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!