Python 웹 크롤러의 잘못된 코드 문제에 대한 솔루션
이 글은 주로 Python 웹 크롤러의 문자 깨짐 문제에 대한 해결책을 자세히 소개합니다. 관심 있는 친구들이 참고할 수 있습니다.
깨짐 문제를 해결하는 방법은 여러 가지가 있습니다. 크롤러의 문자 다양한 문제, 여기에는 중국어 왜곡 문자, 인코딩 변환뿐만 아니라 일본어, 한국어, 러시아어, 티베트어 등 일부 왜곡된 문자도 있습니다. 해결 방법이 동일하므로 여기에서 설명합니다.
웹 크롤러에서 잘못된 코드가 나타나는 이유
원본 웹페이지의 인코딩 형식이 크롤링 후의 인코딩 형식과 일치하지 않습니다.
소스 웹페이지가 gbk로 인코딩된 바이트 스트림이고 이를 가져온 후 프로그램이 직접 utf-8을 사용하여 이를 인코딩하고 저장 파일에 출력하면 소스 웹페이지에서 필연적으로 잘못된 코드가 발생합니다. 프로그램이 처리 인코딩을 직접 사용하여 일관성을 유지하면 이때 문자가 깨지는 일이 없으며 문자 인코딩이 통일되면 문자가 깨지는 일이 없습니다.
구별에 주의하세요
소스 네트워크 코드 A,
프로그램에서 직접 사용하는 코드 B,
문자 통합 변환을 위한 코드 C입니다.
문자 깨짐 해결 방법
소스 웹 페이지의 코드 A를 확인합니다. 코드 A는 웹 페이지의 세 위치에 있는 경우가 많습니다.
1.http 헤더의 콘텐츠 유형
서버 헤더를 얻는 사이트는 이를 사용하여 페이지 콘텐츠에 대한 일부 정보를 브라우저에 알릴 수 있습니다. Content-Type 항목은 "text/html; charset=utf-8"로 작성됩니다.
2.meta charset
3. 웹 페이지 헤더의 문서 정의
<script type="text/javascript"> if(document.charset){ alert(document.charset+"!!!!"); document.charset = 'GBK'; alert(document.charset); } else if(document.characterSet){ alert(document.characterSet+"????"); document.characterSet = 'GBK'; alert(document.characterSet); }
원본 웹 페이지 인코딩을 얻을 때 이를 판단합니다. 3개가 차례로 데이터의 일부로 앞에서 뒤로 충분하며 우선순위도 마찬가지입니다.
위 세 가지 인코딩 정보는 없습니다. 일반적으로 chardet과 같은 타사 웹페이지 인코딩 지능형 식별 도구를 사용합니다.
설치: pip install chardet
Python chardet 문자 인코딩 판단
chardet을 사용하면 문자열/파일의 인코딩 감지를 쉽게 실현할 수 있습니다. HTML 페이지에 charset 태그가 있지만 때로는 올바르지 않습니다. 그러면 샤데가 우리에게 많은 도움이 될 수 있습니다.
chardet 인스턴스
import urllib rawdata = urllib.urlopen('http://www.php.cn/').read() import chardet chardet.detect(rawdata) {'confidence': 0.99, 'encoding': 'GB2312'}
chardet은 감지 기능을 직접 사용하여 주어진 문자의 인코딩을 감지할 수 있습니다. 함수 반환 값은 두 요소가 있는 사전입니다. 하나는 감지 신뢰성이고 다른 하나는 감지된 인코딩입니다.
자체 크롤러를 개발하는 과정에서 한자 인코딩을 어떻게 처리하나요?
다음은 모두 python2.7에 대한 것입니다. 처리하지 않으면 수집된 데이터가 깨집니다. html을 통합 utf-8 인코딩으로 처리하고 완료되지 않은 chardet 인코딩 인식 훈련에 속하는 windows-1252 인코딩을 만나게 됩니다
import chardet a='abc' type(a) str chardet.detect(a) {'confidence': 1.0, 'encoding': 'ascii'} a ="我" chardet.detect(a) {'confidence': 0.73, 'encoding': 'windows-1252'} a.decode('windows-1252') u'\xe6\u02c6\u2018' chardet.detect(a.decode('windows-1252').encode('utf-8')) type(a.decode('windows-1252')) unicode type(a.decode('windows-1252').encode('utf-8')) str chardet.detect(a.decode('windows-1252').encode('utf-8')) {'confidence': 0.87625, 'encoding': 'utf-8'} a ="我是中国人" type(a) str {'confidence': 0.9690625, 'encoding': 'utf-8'} chardet.detect(a) # -*- coding:utf-8 -*- import chardet import urllib2 #抓取网页html html = urllib2.urlopen('http://www.jb51.net/').read() print html mychar=chardet.detect(html) print mychar bianma=mychar['encoding'] if bianma == 'utf-8' or bianma == 'UTF-8': html=html.decode('utf-8','ignore').encode('utf-8') else: html =html.decode('gb2312','ignore').encode('utf-8') print html print chardet.detect(html)
python 코드 파일 인코딩
py 파일은 기본적으로 ASCII 인코딩입니다. 중국어를 표시할 때 ASCII에서 시스템 기본 인코딩으로 변환됩니다. 이때 SyntaxError: Non-ASCII 문자 오류가 발생합니다. 코드 파일의 첫 번째 줄에 인코딩 지침을 추가해야 합니다:
# -*- coding:utf-8 -*- print '中文'
위와 같이 직접 입력한 문자열은 코드 파일에 따라 인코딩됩니다.
를 처리하기 위해 'utf -8' 유니코드 인코딩을 사용하는 경우 다음 방법:
s1 = u'English' #u는 정보를 유니코드 인코딩으로 저장하는 것을 의미합니다.
decode는 모든 문자열을 유니코드 형식으로 변환하는 방법입니다. 매개변수는 소스 문자열의 인코딩 형식을 나타냅니다.
encode는 문자열을 매개변수에 지정된 형식으로 변환하는 메서드이기도 합니다.
위 내용은 이 글의 전체 내용입니다. 모든 분들의 학습에 도움이 되기를 바랍니다.
Python 웹 크롤러의 문자 깨짐 문제를 해결하는 방법에 대한 더 많은 관련 기사를 보려면 PHP 중국어 웹사이트를 주목하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Linux 시스템과 함께 제공되는 Python 통역사를 제거하는 문제와 관련하여 많은 Linux 배포판이 설치 될 때 Python 통역사를 사전 설치하고 패키지 관리자를 사용하지 않습니다 ...

Python 3.6에 피클 파일로드 3.6 환경 보고서 오류 : modulenotfounderror : nomodulename ...

"Debiantrings"는 표준 용어가 아니며 구체적인 의미는 여전히 불분명합니다. 이 기사는 브라우저 호환성에 직접 언급 할 수 없습니다. 그러나 "Debiantrings"가 Debian 시스템에서 실행되는 웹 응용 프로그램을 지칭하는 경우 브라우저 호환성은 응용 프로그램 자체의 기술 아키텍처에 따라 다릅니다. 대부분의 최신 웹 응용 프로그램은 크로스 브라우저 호환성에 전념합니다. 이는 웹 표준에 따라 웹 표준과 잘 호환 가능한 프론트 엔드 기술 (예 : HTML, CSS, JavaScript) 및 백엔드 기술 (PHP, Python, Node.js 등)을 사용하는 데 의존합니다. 응용 프로그램이 여러 브라우저와 호환되도록 개발자는 종종 브라우저 크로스 테스트를 수행하고 응답 성을 사용해야합니다.

XML 컨텐츠를 수정하려면 프로그래밍이 필요합니다. 대상 노드를 추가, 삭제, 수정 및 확인하려면 정확한 찾기가 필요하기 때문입니다. 프로그래밍 언어에는 XML을 처리하기위한 해당 라이브러리가 있으며 운영 데이터베이스와 같이 안전하고 효율적이며 제어 가능한 작업을 수행 할 수있는 API를 제공합니다.

모바일 XML에서 PDF의 속도는 다음 요인에 따라 다릅니다. XML 구조의 복잡성. 모바일 하드웨어 구성 변환 방법 (라이브러리, 알고리즘) 코드 품질 최적화 방법 (효율적인 라이브러리 선택, 알고리즘 최적화, 캐시 데이터 및 다중 스레딩 사용). 전반적으로 절대적인 답변은 없으며 특정 상황에 따라 최적화해야합니다.

작은 XML 파일의 경우 주석 내용을 텍스트 편집기로 직접 교체 할 수 있습니다. 큰 파일의 경우 XML 파서를 사용하여 효율성과 정확성을 보장하기 위해 수정하는 것이 좋습니다. XML 주석을 삭제할 때주의를 기울이면 주석을 유지하면 일반적으로 코드 이해 및 유지 관리에 도움이됩니다. 고급 팁은 XML 파서를 사용하여 댓글을 수정하기위한 파이썬 샘플 코드를 제공하지만 사용 된 XML 라이브러리에 따라 특정 구현을 조정해야합니다. XML 파일을 수정할 때 인코딩 문제에주의하십시오. UTF-8 인코딩을 사용하고 인코딩 형식을 지정하는 것이 좋습니다.

XML을 PDF로 직접 변환하는 응용 프로그램은 근본적으로 다른 두 형식이므로 찾을 수 없습니다. XML은 데이터를 저장하는 데 사용되는 반면 PDF는 문서를 표시하는 데 사용됩니다. 변환을 완료하려면 Python 및 ReportLab과 같은 프로그래밍 언어 및 라이브러리를 사용하여 XML 데이터를 구문 분석하고 PDF 문서를 생성 할 수 있습니다.

protobuf에서 문자열 상수 열거를 정의하는 문제 protobuf를 사용할 때 종종 열거 유형을 문자열 상수와 연관시켜야하는 상황이 발생합니다 ...
