> Java > java지도 시간 > Java로 웹 스크래핑을 할 때 403 Forbidden 오류가 발생하는 이유는 무엇입니까?

Java로 웹 스크래핑을 할 때 403 Forbidden 오류가 발생하는 이유는 무엇입니까?

Patricia Arquette
풀어 주다: 2024-12-15 14:19:20
원래의
579명이 탐색했습니다.

Why Am I Getting a 403 Forbidden Error When Web Scraping with Java?

Java 웹 스크래핑에 대한 403 Forbidden 오류를 해결하는 방법

Java를 사용하여 Google 검색 결과를 스크랩할 때 "403 Forbidden" 메시지가 나타날 수 있습니다. 웹 브라우저가 예상된 결과를 반환하는 동안 오류가 발생합니다. 이는 Google과 같은 웹사이트가 적절한 사용자 에이전트 없이 자동화된 액세스를 방지하기 위해 스크래핑 방지 조치를 구현하기 때문입니다.

이 문제를 극복하려면 사용자 에이전트 헤더를 포함하도록 Java 프로그램을 수정해야 합니다. 브라우저 요청. 방법은 다음과 같습니다.

  1. 필요한 라이브러리 가져오기:
import java.net.HttpURLConnection;
import java.net.URL;
import java.io.BufferedReader;
import java.io.InputStreamReader;
로그인 후 복사
  1. 연결 설정:
URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
로그인 후 복사
  1. 사용자 에이전트 설정 헤더:
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
로그인 후 복사
  1. 데이터 연결 및 검색:
connection.connect();
BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
로그인 후 복사

이 수정을 통해 Java 프로그램이 합법적인 브라우저로 표시되어 403 Forbidden 오류를 우회합니다. 그러나 Google은 스크래핑 방지 조치를 지속적으로 업데이트하고 있으므로 앞으로 예상치 못한 오류가 발생할 경우 코드를 조정해야 할 수도 있습니다.

위 내용은 Java로 웹 스크래핑을 할 때 403 Forbidden 오류가 발생하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿