Python이 웹 페이지를 크롤링하고 요청이 왜곡됩니다.
phpcn_u1582
phpcn_u1582 2017-06-22 11:51:56
0
4
1236

**이전에 심판 문서에서 데이터를 크롤링했는데, 이 기간 동안 크롤러를 다시 실행한 결과 웹페이지 데이터를 얻을 수 없다는 것을 발견했습니다.
검색 결과 요청 웹페이지의 소스 코드가 깨져서 반환되었습니다. 코드**

(반환된 데이터의 일부를 다음과 같이 차단합니다:<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta id="JLyKZlWgYjpTkAsEt9LnA" )

웹사이트가 웹 콘텐츠를 암호화했는지 모르겠습니다. 이 문제를 어떻게 해결할 수 있나요? 감사해요!

프로그램 소스 코드의 일부 가로채기:

으아악

그런데 반환해야 할 데이터가 검토 요소에 반환됩니다. 여기서 문제는 무엇입니까?

프로그램이 정상적으로 실행되었을 때 반환된 데이터는 다음과 같았습니다.

phpcn_u1582
phpcn_u1582

모든 응답(4)
仅有的幸福

Ajax 로드 결과 페이지, json과 유사한 피드백 결과를 네트워크에서 얻을 수 없는 경우. PHANTOMJS를 사용하여 로딩을 시뮬레이션하세요. 그런 다음 크롤링을 일치시킵니다.

小葫芦

HTML 개체에 사용된 인코딩이 잘못되었습니다.
html.encoding = html.apparent_encoding
실제로 얻은 텍스트를 기반으로 인코딩을 추론하고 다시 디코딩합니다.

刘奇

드릴 의향이 있으시면 참고 주소를 알려드리겠습니다: http://www.qingpingshan.com/j...

学习ing

html.content 인쇄

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿