Java 웹 스크래핑에 대한 403 Forbidden 오류를 해결하는 방법
Java를 사용하여 Google 검색 결과를 스크랩할 때 "403 Forbidden" 메시지가 나타날 수 있습니다. 웹 브라우저가 예상된 결과를 반환하는 동안 오류가 발생합니다. 이는 Google과 같은 웹사이트가 적절한 사용자 에이전트 없이 자동화된 액세스를 방지하기 위해 스크래핑 방지 조치를 구현하기 때문입니다.
이 문제를 극복하려면 사용자 에이전트 헤더를 포함하도록 Java 프로그램을 수정해야 합니다. 브라우저 요청. 방법은 다음과 같습니다.
import java.net.HttpURLConnection; import java.net.URL; import java.io.BufferedReader; import java.io.InputStreamReader;
URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
connection.connect(); BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
이 수정을 통해 Java 프로그램이 합법적인 브라우저로 표시되어 403 Forbidden 오류를 우회합니다. 그러나 Google은 스크래핑 방지 조치를 지속적으로 업데이트하고 있으므로 앞으로 예상치 못한 오류가 발생할 경우 코드를 조정해야 할 수도 있습니다.
위 내용은 Java로 웹 스크래핑을 할 때 403 Forbidden 오류가 발생하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!