이 글은 주로 Python 웹 크롤러의 문자 깨짐 문제에 대한 해결책을 자세히 소개합니다. 관심 있는 친구들이 참고할 수 있습니다.
깨짐 문제를 해결하는 방법은 여러 가지가 있습니다. 크롤러의 문자 다양한 문제, 여기에는 중국어 왜곡 문자, 인코딩 변환뿐만 아니라 일본어, 한국어, 러시아어, 티베트어 등 일부 왜곡된 문자도 있습니다. 해결 방법이 동일하므로 여기에서 설명합니다.
웹 크롤러에서 잘못된 코드가 나타나는 이유
원본 웹페이지의 인코딩 형식이 크롤링 후의 인코딩 형식과 일치하지 않습니다.
소스 웹페이지가 gbk로 인코딩된 바이트 스트림이고 이를 가져온 후 프로그램이 직접 utf-8을 사용하여 이를 인코딩하고 저장 파일에 출력하면 소스 웹페이지에서 필연적으로 잘못된 코드가 발생합니다. 프로그램이 처리 인코딩을 직접 사용하여 일관성을 유지하면 이때 문자가 깨지는 일이 없으며 문자 인코딩이 통일되면 문자가 깨지는 일이 없습니다.
구별에 주의하세요
소스 네트워크 코드 A,
프로그램에서 직접 사용하는 코드 B,
문자 통합 변환을 위한 코드 C입니다.
문자 깨짐 해결 방법
소스 웹 페이지의 코드 A를 확인합니다. 코드 A는 웹 페이지의 세 위치에 있는 경우가 많습니다.
1.http 헤더의 콘텐츠 유형
서버 헤더를 얻는 사이트는 이를 사용하여 페이지 콘텐츠에 대한 일부 정보를 브라우저에 알릴 수 있습니다. Content-Type 항목은 "text/html; charset=utf-8"로 작성됩니다.
2.meta charset
3. 웹 페이지 헤더의 문서 정의
<script type="text/javascript"> if(document.charset){ alert(document.charset+"!!!!"); document.charset = 'GBK'; alert(document.charset); } else if(document.characterSet){ alert(document.characterSet+"????"); document.characterSet = 'GBK'; alert(document.characterSet); }
원본 웹 페이지 인코딩을 얻을 때 이를 판단합니다. 3개가 차례로 데이터의 일부로 앞에서 뒤로 충분하며 우선순위도 마찬가지입니다.
위 세 가지 인코딩 정보는 없습니다. 일반적으로 chardet과 같은 타사 웹페이지 인코딩 지능형 식별 도구를 사용합니다.
설치: pip install chardet
Python chardet 문자 인코딩 판단
chardet을 사용하면 문자열/파일의 인코딩 감지를 쉽게 실현할 수 있습니다. HTML 페이지에 charset 태그가 있지만 때로는 올바르지 않습니다. 그러면 샤데가 우리에게 많은 도움이 될 수 있습니다.
chardet 인스턴스
import urllib rawdata = urllib.urlopen('http://www.php.cn/').read() import chardet chardet.detect(rawdata) {'confidence': 0.99, 'encoding': 'GB2312'}
chardet은 감지 기능을 직접 사용하여 주어진 문자의 인코딩을 감지할 수 있습니다. 함수 반환 값은 두 요소가 있는 사전입니다. 하나는 감지 신뢰성이고 다른 하나는 감지된 인코딩입니다.
자체 크롤러를 개발하는 과정에서 한자 인코딩을 어떻게 처리하나요?
다음은 모두 python2.7에 대한 것입니다. 처리하지 않으면 수집된 데이터가 깨집니다. html을 통합 utf-8 인코딩으로 처리하고 완료되지 않은 chardet 인코딩 인식 훈련에 속하는 windows-1252 인코딩을 만나게 됩니다
import chardet a='abc' type(a) str chardet.detect(a) {'confidence': 1.0, 'encoding': 'ascii'} a ="我" chardet.detect(a) {'confidence': 0.73, 'encoding': 'windows-1252'} a.decode('windows-1252') u'\xe6\u02c6\u2018' chardet.detect(a.decode('windows-1252').encode('utf-8')) type(a.decode('windows-1252')) unicode type(a.decode('windows-1252').encode('utf-8')) str chardet.detect(a.decode('windows-1252').encode('utf-8')) {'confidence': 0.87625, 'encoding': 'utf-8'} a ="我是中国人" type(a) str {'confidence': 0.9690625, 'encoding': 'utf-8'} chardet.detect(a) # -*- coding:utf-8 -*- import chardet import urllib2 #抓取网页html html = urllib2.urlopen('http://www.jb51.net/').read() print html mychar=chardet.detect(html) print mychar bianma=mychar['encoding'] if bianma == 'utf-8' or bianma == 'UTF-8': html=html.decode('utf-8','ignore').encode('utf-8') else: html =html.decode('gb2312','ignore').encode('utf-8') print html print chardet.detect(html)
python 코드 파일 인코딩
py 파일은 기본적으로 ASCII 인코딩입니다. 중국어를 표시할 때 ASCII에서 시스템 기본 인코딩으로 변환됩니다. 이때 SyntaxError: Non-ASCII 문자 오류가 발생합니다. 코드 파일의 첫 번째 줄에 인코딩 지침을 추가해야 합니다:
# -*- coding:utf-8 -*- print '中文'
위와 같이 직접 입력한 문자열은 코드 파일에 따라 인코딩됩니다.
를 처리하기 위해 'utf -8' 유니코드 인코딩을 사용하는 경우 다음 방법:
s1 = u'English' #u는 정보를 유니코드 인코딩으로 저장하는 것을 의미합니다.
decode는 모든 문자열을 유니코드 형식으로 변환하는 방법입니다. 매개변수는 소스 문자열의 인코딩 형식을 나타냅니다.
encode는 문자열을 매개변수에 지정된 형식으로 변환하는 메서드이기도 합니다.
위 내용은 이 글의 전체 내용입니다. 모든 분들의 학습에 도움이 되기를 바랍니다.
Python 웹 크롤러의 문자 깨짐 문제를 해결하는 방법에 대한 더 많은 관련 기사를 보려면 PHP 중국어 웹사이트를 주목하세요!