Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?
검색 엔진 크롤러는 페이지를 크롤링할 때 웹페이지가 리디렉션되는 상황에 직면하게 됩니다. 소위 리디렉션(리디렉션)은 다양한 방법을 통해 이루어집니다(이 기사에서 언급한 유형). 3) 다양한 네트워크 요청을 다른 위치(URL)로 리디렉션합니다. 각 웹사이트의 홈페이지는 웹사이트 리소스의 입구입니다. 해당 웹사이트의 홈페이지에서 리디렉션이 발생할 경우 올바르게 처리되지 않으면 전체 웹사이트의 콘텐츠가 누락될 가능성이 높습니다.
1. 서버 측 리디렉션은 일반적으로 크롤러가 스스로 적응할 수 있으며 응답 코드 301(영구 리디렉션), 302(임시 리디렉션)과 같은 특별한 처리가 필요하지 않습니다. )기다리다. 구체적으로 요청으로 얻은 응답 객체의 url과 status_code 두 가지 속성으로 판단할 수 있습니다. status_code가 301, 302 또는 리디렉션을 나타내는 다른 코드인 경우 원래 요청이 리디렉션되었음을 의미합니다. 응답 개체의 url 속성이 요청을 보낼 때 링크와 일치하지 않으면 원래 요청이 리디렉션되었음을 의미합니다. 자동으로 처리되었습니다.
#请求重定向 #方法一 response.setStatus(302); response.setHeader("location", "/day06/index.jsp"); #方法二 response.sendRedirect("/day06/index.jsp");
scrapy shell 리디렉션 페이지 가져오기
scrapy shell -s ROBOTSTXT_OBEY=False --no-redirect " fetch(response.headers['Location'])
2. 메타 새로 고침, 즉 웹 페이지의 태그는 웹 페이지를 리디렉션하는 링크를 선언합니다. 이러한 종류의 리디렉션은 브라우저에 의해 수행되며 이를 처리하려면 코드를 작성해야 합니다. 예를 들어, 아래 HTML 코드의 세 번째 줄에 있는 주석에 특정 리디렉션이 표시되면 브라우저는 자동으로 점프할 수 있지만 크롤러는 점프하기 전에만 페이지를 가져올 수 있고 자동으로 점프할 수는 없습니다.
<html> <head> <meta http-equiv="refresh" content="0.1;url=http://www.redirectedtoxxx.com/"><!--本网页会在0.1秒内refresh为url所指的网页--> </head> </html>
해결 방법은 점프하기 전에 페이지 소스 코드를 가져오고 리디렉션 URL 정보(위 코드의 세 번째 줄의 url 속성 값)를 추출하는 것입니다. 특정 작업:
①xpath('//meta[@http-equiv="refresh" and @content]/@content')를 사용하여 콘텐츠 값 추출
#🎜 🎜 #②정규식을 사용하여 리디렉션된 URL 값을 추출합니다. 3.js 리디렉션, JavaScript 코드를 통한 리디렉션. 예를 들어, 다음 JavaScript 코드<script language=javascript>window.location.href='http://www.redirectedtoxxx.com'</script>
Python Tutorial 열을 방문하여 알아보세요!
위 내용은 Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

정규 표현식은 프로그래밍의 패턴 일치 및 텍스트 조작을위한 강력한 도구이며 다양한 응용 프로그램에서 텍스트 처리의 효율성을 높입니다.

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

파이썬에서 문자열을 통해 객체를 동적으로 생성하고 메소드를 호출하는 방법은 무엇입니까? 특히 구성 또는 실행 해야하는 경우 일반적인 프로그래밍 요구 사항입니다.
