**이전에 심판 문서에서 데이터를 크롤링했는데, 이 기간 동안 크롤러를 다시 실행한 결과 웹페이지 데이터를 얻을 수 없다는 것을 발견했습니다.
검색 결과 요청 웹페이지의 소스 코드가 깨져서 반환되었습니다. 코드**
(반환된 데이터의 일부를 다음과 같이 차단합니다:<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta id="JLyKZlWgYjpTkAsEt9LnA" )
웹사이트가 웹 콘텐츠를 암호화했는지 모르겠습니다. 이 문제를 어떻게 해결할 수 있나요? 감사해요!
프로그램 소스 코드의 일부 가로채기:
으아악그런데 반환해야 할 데이터가 검토 요소에 반환됩니다. 여기서 문제는 무엇입니까?
프로그램이 정상적으로 실행되었을 때 반환된 데이터는 다음과 같았습니다.
Ajax 로드 결과 페이지, json과 유사한 피드백 결과를 네트워크에서 얻을 수 없는 경우. PHANTOMJS를 사용하여 로딩을 시뮬레이션하세요. 그런 다음 크롤링을 일치시킵니다.
HTML 개체에 사용된 인코딩이 잘못되었습니다.
html.encoding = html.apparent_encoding
실제로 얻은 텍스트를 기반으로 인코딩을 추론하고 다시 디코딩합니다.
드릴 의향이 있으시면 참고 주소를 알려드리겠습니다: http://www.qingpingshan.com/j...
html.content 인쇄