웹 크롤링 중에는 HTML 요소를 찾을 수 없습니다. 이 요소는 사이트 검사 도구에 표시됩니다.
P粉225961749
P粉225961749 2023-09-19 12:41:46
0
1
517

다음 URL에서 모든 테이블의 제목을 크롤링하려고 합니다: https://www.nature.com/articles/s41586-023-06192-4

웹사이트에서 이 HTML 요소를 찾을 수 있습니다:

으아아아

이 제목을 찾을 수 없기 때문에 크롤링할 수 없습니다. HTML 스크립트를 콘솔에 인쇄해도 이 요소를 찾을 수 없습니다.

다음 코드를 사용하여 HTML 스크립트를 인쇄합니다.

으아아아

BeautifulSoup의 크롤링 기능을 사용하세요:

으아아아

Selenium의 크롤링 기능 사용:

으아아아

Selenium과 BeautifulSoup을 사용하여 웹사이트를 크롤링해 보았습니다. iframe을 확인해 봤습니다. 페이지가 완전히 로드되었는지 확인하기 위해 가져오기 작업을 40초 동안 지연했습니다. GPT4도 이 문제를 해결할 수 없습니다.

P粉225961749
P粉225961749

모든 응답(1)
P粉920485285

사용한 코드는 괜찮아 보입니다. 생각나는 문제는 웹 사이트가 JavaScript 또는 일부 XHR 호출을 통해 크롤링하려는 요소를 로드할 수 있으므로 요청 라이브러리를 사용하여 요청을 보낼 때 얻을 수 없다는 것입니다. 그것 그 요소.

이 문제를 해결하는 방법은 Selenium을 사용해 보고 Selenium으로 웹 사이트를 연 다음 페이지 소스 코드를 bs4에 로드하여 코드가 정상적으로 작동하도록 하는 것입니다.

참고: 전체 웹사이트가 로드되면 페이지 소스 코드를 bs4에 로드하세요. 또한 이 웹사이트는 콘텐츠를 보려면 로그인이 필요하므로 셀레늄을 사용하여 로그인 기능을 만들어야 합니다.

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!