> 백엔드 개발 > 파이썬 튜토리얼 > 웹 스크래핑 com 셀레늄

웹 스크래핑 com 셀레늄

Susan Sarandon
풀어 주다: 2025-01-23 18:11:17
원래의
507명이 탐색했습니다.

이 텍스트는 이미 잘 정리되어 있으며 올바른 포르투갈어로 작성되었습니다. 유일한 제안은 웹 스크래핑과 IBGE 웹사이트에 익숙하지 않은 독자를 위해 몇 가지 점에서 명확성을 높이고 좀 더 많은 맥락을 추가하는 것입니다. 개정판은 다음과 같습니다:

Web scraping com selenium


Selenium과 Python으로 IBGE 인플레이션 데이터 수집 자동화

이 튜토리얼에서는 Python의 Selenium 라이브러리를 사용하여 IBGE(브라질 지리통계연구소)에서 인플레이션 데이터 수집을 자동화하는 방법을 보여줍니다. 목표는 SIDRA 웹사이트(IBGE 자동 복구 시스템)에서 IPCA(전국소비자물가지수)의 백분율 변동에 대한 데이터를 추출하는 것입니다.


데이터 수집 단계

시작하기 전에 시스템에 Python과 패키지 관리자가 설치되어 있는지 확인하세요pip.


1. 환경대비

1.1 프로젝트 생성:

프로젝트를 위한 새 폴더를 만듭니다. 그 안에 Jupyter Notebook 파일(.ipynb) 또는 Python 파일(.py)을 만듭니다. Jupyter Notebook을 사용하면 코드를 단계별로 쉽게 보고 실행할 수 있습니다.

1.2 라이브러리 설치:

터미널이나 명령 프롬프트를 열고 프로젝트 폴더로 이동한 후 다음 명령을 실행하여 필요한 라이브러리를 설치하세요.

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
로그인 후 복사
로그인 후 복사

이 프로젝트의 종속성을 격리하기 위한 가상 환경 만들기(권장):

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
로그인 후 복사
로그인 후 복사

가상환경 활성화 후 라이브러리 설치 명령어를 다시 실행하세요. requirements.txt 파일에 종속성을 저장하려면 다음을 사용하세요.

<code class="language-bash">pip freeze > requirements.txt</code>
로그인 후 복사

이를 통해 다른 컴퓨터의 환경을 쉽게 재현할 수 있습니다.

1.3 ChromeDriver 다운로드:

Google Chrome 버전과 호환되는 ChromeDriver 버전을 다운로드하세요. Chrome 버전에 해당하는 버전을 검색하여 공식 ChromeDriver 웹사이트에서 다운로드 링크를 찾을 수 있습니다(버전을 확인하려면 chrome://settings/help으로 이동하세요). 다운로드 후, 파일의 압축을 풀고 어디에 저장되었는지 기억해두세요.


2. Chrome드라이버 구성

2.1 PATH에 추가(Windows):

ChromeDriver를 더 쉽게 사용하려면 ChromeDriver 설치 폴더의 경로를 PATH 환경 변수에 추가하세요. 다음 단계를 따르세요.

  1. 시작 메뉴에서 "환경 변수"를 검색하세요.
  2. '시스템 환경 변수 편집'을 클릭하세요.
  3. '시스템 변수' 섹션에서 '경로'를 선택하고 '편집'을 클릭하세요.
  4. '새로 만들기'를 클릭하고 ChromeDriver가 있는 폴더의 전체 경로를 추가하세요(예: C:caminhoparachromedriver).
  5. 변경 사항을 저장하고 터미널이나 명령 프롬프트를 다시 시작하세요.

2.2 검증:

ChromeDriver가 올바르게 구성되었는지 확인하려면 터미널을 열고 다음을 입력하세요.

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
로그인 후 복사
로그인 후 복사

ChromeDriver 버전이 표시되어야 합니다.


3. 자동화용 Python 스크립트

아래 Python 코드는 Selenium을 사용하여 SIDRA 페이지에 액세스하고 데이터를 선택하고 IPCA 백분율 변동 정보를 추출합니다. 'C:\caminho\para\chromedriver.exe'를 ChromeDriver의 올바른 경로로 바꾸는 것을 잊지 마세요.

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
로그인 후 복사
로그인 후 복사

4. 실행 및 결과

Python 스크립트를 실행합니다. 모든 것이 올바르게 구성되면 스크립트는 다음을 수행합니다.

  1. SIDRA 페이지에 접속하세요.
  2. 모든 데이터를 선택하세요.
  3. 비율 변화 값을 추출합니다.
  4. 값을 콘솔에 인쇄합니다.
  5. 페이지의 HTML을 파일로 저장pagina_carregada.html(디버깅에 유용).

추출된 데이터는 그래프나 보고서 생성 등의 추가 처리가 가능합니다.


최종 고려사항

이 튜토리얼은 IBGE 데이터 수집 자동화를 위한 기초를 제공합니다. 사이트 구조가 변경되어 XPath 코드 조정이 필요할 수 있다는 점을 기억하세요. 사이트의 변경 사항을 모니터링하고 필요에 따라 스크립트를 업데이트하는 것이 중요합니다. 또한, 데이터 수집 시 IBGE 웹사이트 이용약관을 준수하시기 바랍니다.

이 버전은 명확성을 높이고 환경 구성에 대한 중요한 정보를 추가하며 웹 스크래핑 경험이 적은 사용자를 위해 보다 완전한 소개를 제공합니다. 유동성을 높이기 위해 구조도 약간 재구성되었습니다.

위 내용은 웹 스크래핑 com 셀레늄의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿