superagent
를 사용하여 웹페이지를 크롤링하고 리디렉션이 발생하며 리디렉션 후 응답 본문을 가져올 수 없습니다. 문제 해결 방법, 리디렉션된 웹페이지를 얻는 방법
501페이지의 res를 가져오고 싶지만 37018페이지로 이동하여 501페이지의 빈 res를 가져오게 됩니다.
크롤링할 수 없는 웹페이지를 테스트하여 두 가지 상황을 발견했습니다
처음 웹페이지에 접속했을 때 응답코드는 200이고, 잠시 후 304로 새로고침됩니다
입력 시 응답 코드가 301에서 200으로 리디렉션되고 잠시 후 304로 새로 고쳐집니다
크롤링할 수 있는 웹페이지를 테스트하여 두 가지 상황을 발견했습니다
입력 시 응답 코드가 301에서 200으로 리디렉션되고 잠시 후 304로 새로 고쳐집니다
처음 웹페이지에 접속했을 때 응답코드는 200이고, 잠시 후 304로 새로고침됩니다
아, 닦아보면 별 차이 없을 것 같은데, 이게 제가 콘텐츠를 크롤링할 수 없는 것과 관련이 있는 건지, orz
더 추가
문제는 리디렉션이 아니라 정규식 일치 문제입니다
공식 문서도 읽지 않으셨나요?
리디렉션 팔로우