javascript - 슈퍼에이전트가 웹사이트를 크롤링할 때 리디렉션 문제
迷茫
迷茫 2017-05-31 10:38:19
0
1
845

superagent를 사용하여 웹페이지를 크롤링하고 리디렉션이 발생하며 리디렉션 후 응답 본문을 가져올 수 없습니다. 문제 해결 방법, 리디렉션된 웹페이지를 얻는 방법

501페이지의 res를 가져오고 싶지만 37018페이지로 이동하여 501페이지의 빈 res를 가져오게 됩니다.

크롤링할 수 없는 웹페이지를 테스트하여 두 가지 상황을 발견했습니다

  1. 처음 웹페이지에 접속했을 때 응답코드는 200이고, 잠시 후 304로 새로고침됩니다

  2. 입력 시 응답 코드가 301에서 200으로 리디렉션되고 잠시 후 304로 새로 고쳐집니다

크롤링할 수 있는 웹페이지를 테스트하여 두 가지 상황을 발견했습니다

  1. 입력 시 응답 코드가 301에서 200으로 리디렉션되고 잠시 후 304로 새로 고쳐집니다

  2. 처음 웹페이지에 접속했을 때 응답코드는 200이고, 잠시 후 304로 새로고침됩니다

아, 닦아보면 별 차이 없을 것 같은데, 이게 제가 콘텐츠를 크롤링할 수 없는 것과 관련이 있는 건지, orz

더 추가

문제는 리디렉션이 아니라 정규식 일치 문제입니다

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

모든 응답(1)
淡淡烟草味

공식 문서도 읽지 않으셨나요?

  • 리디렉션 팔로우

기본적으로 최대 5개의 리디렉션이 따르지만
메서드를 사용하여res.redirects(n)이를 지정할 수도 있습니다.

으아아아
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿