백엔드 개발 파이썬 튜토리얼 Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?

Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?

Jun 28, 2019 pm 01:58 PM

Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?

검색 엔진 크롤러는 페이지를 크롤링할 때 웹페이지가 리디렉션되는 상황에 직면하게 됩니다. 소위 리디렉션(리디렉션)은 다양한 방법을 통해 이루어집니다(이 기사에서 언급한 유형). 3) 다양한 네트워크 요청을 다른 위치(URL)로 리디렉션합니다. 각 웹사이트의 홈페이지는 웹사이트 리소스의 입구입니다. 해당 웹사이트의 홈페이지에서 리디렉션이 발생할 경우 올바르게 처리되지 않으면 전체 웹사이트의 콘텐츠가 누락될 가능성이 높습니다.

1. 서버 측 리디렉션은 일반적으로 크롤러가 스스로 적응할 수 있으며 응답 코드 301(영구 리디렉션), 302(임시 리디렉션)과 같은 특별한 처리가 필요하지 않습니다. )기다리다. 구체적으로 요청으로 얻은 응답 객체의 url과 status_code 두 가지 속성으로 판단할 수 있습니다. status_code가 301, 302 또는 리디렉션을 나타내는 다른 코드인 경우 원래 요청이 리디렉션되었음을 의미합니다. 응답 개체의 url 속성이 요청을 보낼 때 링크와 일치하지 않으면 원래 요청이 리디렉션되었음을 의미합니다. 자동으로 처리되었습니다.

#请求重定向
#方法一
response.setStatus(302);
response.setHeader("location", "/day06/index.jsp");
        
#方法二
response.sendRedirect("/day06/index.jsp");
로그인 후 복사

scrapy shell 리디렉션 페이지 가져오기

scrapy shell -s ROBOTSTXT_OBEY=False --no-redirect " 
fetch(response.headers['Location'])
로그인 후 복사

2. 메타 새로 고침, 즉 웹 페이지의 태그는 웹 페이지를 리디렉션하는 링크를 선언합니다. 이러한 종류의 리디렉션은 브라우저에 의해 수행되며 이를 처리하려면 코드를 작성해야 합니다. 예를 들어, 아래 HTML 코드의 세 번째 줄에 있는 주석에 특정 리디렉션이 표시되면 브라우저는 자동으로 점프할 수 있지만 크롤러는 점프하기 전에만 페이지를 가져올 수 있고 자동으로 점프할 수는 없습니다.

<html>
<head>  
  <meta http-equiv="refresh" content="0.1;url=http://www.redirectedtoxxx.com/"><!--本网页会在0.1秒内refresh为url所指的网页-->
</head>
</html>
로그인 후 복사

해결 방법은 점프하기 전에 페이지 소스 코드를 가져오고 리디렉션 URL 정보(위 코드의 세 번째 줄의 url 속성 값)를 추출하는 것입니다. 특정 작업:

①xpath('//meta[@http-equiv="refresh" and @content]/@content')를 사용하여 콘텐츠 값 추출

#🎜 🎜 #②정규식을 사용하여 리디렉션된 URL 값을 추출합니다.

3.js 리디렉션, JavaScript 코드를 통한 리디렉션. 예를 들어, 다음 JavaScript 코드

<script language=javascript>window.location.href=&#39;http://www.redirectedtoxxx.com&#39;</script>
로그인 후 복사
는 웹 페이지에 콘텐츠가 포함되어 있을 때 해결하기 가장 쉽습니다. 일반적으로 말하면 기본적으로 하드 코딩된 정적 웹 페이지의 콘텐츠이거나 동적 웹 페이지는 템플릿을 사용하여 렌더링되고 브라우저에서 얻습니다. HTML의 경우 이미 모든 주요 정보가 포함되어 있으므로 웹 페이지에서 직접 보는 콘텐츠는 특정 HTML을 통해 콘텐츠를 로드하는 자바스크립트 코드를 얻을 수 있습니다. 이러한 상황은 웹페이지가 표시될 때 HTML 태그에 내용이 들어있지만 실제로는 js 코드가 실행되어 태그에 추가되기 때문에 이때는 내용이 js 코드에 있기 때문입니다. , js 실행은 브라우저 측에서 수행되므로 프로그램을 사용하여 웹 페이지 주소를 요청하면 얻은 응답은 웹 페이지 코드와 js 코드이므로 js이므로 내용을 볼 수 있습니다. 파싱 ​​중에 실행되지 않는 경우 지정된 HTML 태그 아래의 내용이 비어 있음을 찾아야 합니다. 이때 해결 방법은 일반적으로 HTML을 파싱하는 대신 js 코드 문자열이 포함된 내용을 찾은 다음 해당 내용을 정규식을 통해 얻는 것입니다. 태그.

더 많은 Python 관련 기술 기사를 보려면

Python Tutorial 열을 방문하여 알아보세요!

위 내용은 Python 크롤러가 웹페이지를 크롤링할 때 웹페이지 리디렉션을 발견하면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까? Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까? Apr 01, 2025 pm 05:09 PM

Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까? 한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까? Apr 01, 2025 pm 11:15 PM

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? 10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? 중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

정규 표현이란 무엇입니까? 정규 표현이란 무엇입니까? Mar 20, 2025 pm 06:25 PM

정규 표현식은 프로그래밍의 패턴 일치 및 텍스트 조작을위한 강력한 도구이며 다양한 응용 프로그램에서 텍스트 처리의 효율성을 높입니다.

Uvicorn은 Serving_forever ()없이 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 Serving_forever ()없이 HTTP 요청을 어떻게 지속적으로 듣습니까? Apr 01, 2025 pm 10:51 PM

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

인기있는 파이썬 라이브러리와 그 용도는 무엇입니까? 인기있는 파이썬 라이브러리와 그 용도는 무엇입니까? Mar 21, 2025 pm 06:46 PM

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

문자열을 통해 객체를 동적으로 생성하고 방법을 파이썬으로 호출하는 방법은 무엇입니까? 문자열을 통해 객체를 동적으로 생성하고 방법을 파이썬으로 호출하는 방법은 무엇입니까? Apr 01, 2025 pm 11:18 PM

파이썬에서 문자열을 통해 객체를 동적으로 생성하고 메소드를 호출하는 방법은 무엇입니까? 특히 구성 또는 실행 해야하는 경우 일반적인 프로그래밍 요구 사항입니다.

See all articles