Python 웹 크롤러의 잘못된 코드 문제에 대한 솔루션-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python 웹 크롤러의 잘못된 코드 문제에 대한 솔루션

高洛峰

Feb 11, 2017 pm 01:13 PM

python 왜곡된 문자 웹 크롤러

이 글은 주로 Python 웹 크롤러의 문자 깨짐 문제에 대한 해결책을 자세히 소개합니다. 관심 있는 친구들이 참고할 수 있습니다.

깨짐 문제를 해결하는 방법은 여러 가지가 있습니다. 크롤러의 문자 다양한 문제, 여기에는 중국어 왜곡 문자, 인코딩 변환뿐만 아니라 일본어, 한국어, 러시아어, 티베트어 등 일부 왜곡된 문자도 있습니다. 해결 방법이 동일하므로 여기에서 설명합니다.

웹 크롤러에서 잘못된 코드가 나타나는 이유

원본 웹페이지의 인코딩 형식이 크롤링 후의 인코딩 형식과 일치하지 않습니다.
소스 웹페이지가 gbk로 인코딩된 바이트 스트림이고 이를 가져온 후 프로그램이 직접 utf-8을 사용하여 이를 인코딩하고 저장 파일에 출력하면 소스 웹페이지에서 필연적으로 잘못된 코드가 발생합니다. 프로그램이 처리 인코딩을 직접 사용하여 일관성을 유지하면 이때 문자가 깨지는 일이 없으며 문자 인코딩이 통일되면 문자가 깨지는 일이 없습니다.

구별에 주의하세요

소스 네트워크 코드 A,
프로그램에서 직접 사용하는 코드 B,
문자 통합 변환을 위한 코드 C입니다.

문자 깨짐 해결 방법

소스 웹 페이지의 코드 A를 확인합니다. 코드 A는 웹 페이지의 세 위치에 있는 경우가 많습니다.

1.http 헤더의 콘텐츠 유형
서버 헤더를 얻는 사이트는 이를 사용하여 페이지 콘텐츠에 대한 일부 정보를 브라우저에 알릴 수 있습니다. Content-Type 항목은 "text/html; charset=utf-8"로 작성됩니다.

2.meta charset

3. 웹 페이지 헤더의 문서 정의

<script type="text/javascript"> 
if(document.charset){ 
 alert(document.charset+"!!!!"); 
 document.charset = 'GBK'; 
 alert(document.charset); 
} 
else if(document.characterSet){ 
 alert(document.characterSet+"????"); 
 document.characterSet = 'GBK'; 
 alert(document.characterSet); 
}

로그인 후 복사

원본 웹 페이지 인코딩을 얻을 때 이를 판단합니다. 3개가 차례로 데이터의 일부로 앞에서 뒤로 충분하며 우선순위도 마찬가지입니다.
위 세 가지 인코딩 정보는 없습니다. 일반적으로 chardet과 같은 타사 웹페이지 인코딩 지능형 식별 도구를 사용합니다.

설치: pip install chardet

Python chardet 문자 인코딩 판단

chardet을 사용하면 문자열/파일의 인코딩 감지를 쉽게 실현할 수 있습니다. HTML 페이지에 charset 태그가 있지만 때로는 올바르지 않습니다. 그러면 샤데가 우리에게 많은 도움이 될 수 있습니다.
chardet 인스턴스

import urllib 
rawdata = urllib.urlopen('http://www.php.cn/').read() 
import chardet 
chardet.detect(rawdata) 
{'confidence': 0.99, 'encoding': 'GB2312'}

로그인 후 복사

chardet은 감지 기능을 직접 사용하여 주어진 문자의 인코딩을 감지할 수 있습니다. 함수 반환 값은 두 요소가 있는 사전입니다. 하나는 감지 신뢰성이고 다른 하나는 감지된 인코딩입니다.

자체 크롤러를 개발하는 과정에서 한자 인코딩을 어떻게 처리하나요?
다음은 모두 python2.7에 대한 것입니다. 처리하지 않으면 수집된 데이터가 깨집니다. html을 통합 utf-8 인코딩으로 처리하고 완료되지 않은 chardet 인코딩 인식 훈련에 속하는 windows-1252 인코딩을 만나게 됩니다

import chardet 
a='abc' 
type(a) 
str 
chardet.detect(a) 
{'confidence': 1.0, 'encoding': 'ascii'} 
 
 
a ="我" 
chardet.detect(a) 
{'confidence': 0.73, 'encoding': 'windows-1252'} 
a.decode('windows-1252') 
u'\xe6\u02c6\u2018' 
chardet.detect(a.decode('windows-1252').encode('utf-8')) 
type(a.decode('windows-1252')) 
unicode 
type(a.decode('windows-1252').encode('utf-8')) 
str 
chardet.detect(a.decode('windows-1252').encode('utf-8')) 
{'confidence': 0.87625, 'encoding': 'utf-8'} 
 
 
a ="我是中国人" 
type(a) 
str 
{'confidence': 0.9690625, 'encoding': 'utf-8'} 
chardet.detect(a) 
# -*- coding:utf-8 -*- 
import chardet 
import urllib2 
#抓取网页html 
html = urllib2.urlopen('http://www.jb51.net/').read() 
print html 
mychar=chardet.detect(html) 
print mychar 
bianma=mychar['encoding'] 
if bianma == 'utf-8' or bianma == 'UTF-8': 
 html=html.decode('utf-8','ignore').encode('utf-8') 
else: 
 html =html.decode('gb2312','ignore').encode('utf-8') 
print html 
print chardet.detect(html)

로그인 후 복사

python 코드 파일 인코딩
py 파일은 기본적으로 ASCII 인코딩입니다. 중국어를 표시할 때 ASCII에서 시스템 기본 인코딩으로 변환됩니다. 이때 SyntaxError: Non-ASCII 문자 오류가 발생합니다. 코드 파일의 첫 번째 줄에 인코딩 지침을 추가해야 합니다:

# -*- coding:utf-8 -*- 
 
print '中文'

로그인 후 복사

위와 같이 직접 입력한 문자열은 코드 파일에 따라 인코딩됩니다.
를 처리하기 위해 'utf -8' 유니코드 인코딩을 사용하는 경우 다음 방법:

s1 = u'English' #u는 정보를 유니코드 인코딩으로 저장하는 것을 의미합니다.

decode는 모든 문자열을 유니코드 형식으로 변환하는 방법입니다. 매개변수는 소스 문자열의 인코딩 형식을 나타냅니다.
encode는 문자열을 매개변수에 지정된 형식으로 변환하는 메서드이기도 합니다.

위 내용은 이 글의 전체 내용입니다. 모든 분들의 학습에 도움이 되기를 바랍니다.

Python 웹 크롤러의 문자 깨짐 문제를 해결하는 방법에 대한 더 많은 관련 기사를 보려면 PHP 중국어 웹사이트를 주목하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7338

자바 튜토리얼

1627

Cakephp 튜토리얼

1352

라라벨 튜토리얼

1265

PHP 튜토리얼

1210

Related knowledge

Linux 시스템에서 Python 통역사를 삭제할 수 있습니까? Apr 02, 2025 am 07:00 AM

Linux 시스템과 함께 제공되는 Python 통역사를 제거하는 문제와 관련하여 많은 Linux 배포판이 설치 될 때 Python 통역사를 사전 설치하고 패키지 관리자를 사용하지 않습니다 ...

Python 3.6에 피클 파일을로드 할 때 '__builtin__'모듈을 찾을 수없는 경우 어떻게해야합니까? Apr 02, 2025 am 07:12 AM

Python 3.6에 피클 파일로드 3.6 환경 보고서 오류 : modulenotfounderror : nomodulename ...

데비안 문자열은 여러 브라우저와 호환됩니다 Apr 02, 2025 am 08:30 AM

"Debiantrings"는 표준 용어가 아니며 구체적인 의미는 여전히 불분명합니다. 이 기사는 브라우저 호환성에 직접 언급 할 수 없습니다. 그러나 "Debiantrings"가 Debian 시스템에서 실행되는 웹 응용 프로그램을 지칭하는 경우 브라우저 호환성은 응용 프로그램 자체의 기술 아키텍처에 따라 다릅니다. 대부분의 최신 웹 응용 프로그램은 크로스 브라우저 호환성에 전념합니다. 이는 웹 표준에 따라 웹 표준과 잘 호환 가능한 프론트 엔드 기술 (예 : HTML, CSS, JavaScript) 및 백엔드 기술 (PHP, Python, Node.js 등)을 사용하는 데 의존합니다. 응용 프로그램이 여러 브라우저와 호환되도록 개발자는 종종 브라우저 크로스 테스트를 수행하고 응답 성을 사용해야합니다.

XML 수정에 프로그래밍이 필요합니까? Apr 02, 2025 pm 06:51 PM

XML 컨텐츠를 수정하려면 프로그래밍이 필요합니다. 대상 노드를 추가, 삭제, 수정 및 확인하려면 정확한 찾기가 필요하기 때문입니다. 프로그래밍 언어에는 XML을 처리하기위한 해당 라이브러리가 있으며 운영 데이터베이스와 같이 안전하고 효율적이며 제어 가능한 작업을 수행 할 수있는 API를 제공합니다.

휴대폰에서 XML을 PDF로 변환 할 때 변환 속도가 빠르나요? Apr 02, 2025 pm 10:09 PM

모바일 XML에서 PDF의 속도는 다음 요인에 따라 다릅니다. XML 구조의 복잡성. 모바일 하드웨어 구성 변환 방법 (라이브러리, 알고리즘) 코드 품질 최적화 방법 (효율적인 라이브러리 선택, 알고리즘 최적화, 캐시 데이터 및 다중 스레딩 사용). 전반적으로 절대적인 답변은 없으며 특정 상황에 따라 최적화해야합니다.

XML에서 댓글 내용을 수정하는 방법 Apr 02, 2025 pm 06:15 PM

작은 XML 파일의 경우 주석 내용을 텍스트 편집기로 직접 교체 할 수 있습니다. 큰 파일의 경우 XML 파서를 사용하여 효율성과 정확성을 보장하기 위해 수정하는 것이 좋습니다. XML 주석을 삭제할 때주의를 기울이면 주석을 유지하면 일반적으로 코드 이해 및 유지 관리에 도움이됩니다. 고급 팁은 XML 파서를 사용하여 댓글을 수정하기위한 파이썬 샘플 코드를 제공하지만 사용 된 XML 라이브러리에 따라 특정 구현을 조정해야합니다. XML 파일을 수정할 때 인코딩 문제에주의하십시오. UTF-8 인코딩을 사용하고 인코딩 형식을 지정하는 것이 좋습니다.

XML을 PDF로 변환 할 수있는 모바일 앱이 있습니까? Apr 02, 2025 pm 08:54 PM

XML을 PDF로 직접 변환하는 응용 프로그램은 근본적으로 다른 두 형식이므로 찾을 수 없습니다. XML은 데이터를 저장하는 데 사용되는 반면 PDF는 문서를 표시하는 데 사용됩니다. 변환을 완료하려면 Python 및 ReportLab과 같은 프로그래밍 언어 및 라이브러리를 사용하여 XML 데이터를 구문 분석하고 PDF 문서를 생성 할 수 있습니다.