Python의 XPath 표현식 사용법

WBOY
풀어 주다: 2023-08-07 18:10:46
원래의
820명이 탐색했습니다.

Python의 XPath 표현식 사용법

Python에서 XPath 표현식 사용

XPath는 XML 및 HTML 문서에서 탐색 및 검색에 사용되는 언어로 데이터 스크래핑, 웹 자동화 테스트, 텍스트 추출 및 기타 분야에서 널리 사용됩니다. Python에서는 lxml 라이브러리를 사용하여 XML 및 HTML 문서를 구문 분석하고 XPath 표현식을 사용하여 필요한 데이터를 찾고 추출할 수 있습니다.

  1. lxml 라이브러리 설치
    먼저 lxml 라이브러리가 설치되어 있는지 확인하세요. 설치되어 있지 않은 경우 pip 명령을 사용하여 설치할 수 있습니다.
pip install lxml
로그인 후 복사
  1. lxml 라이브러리 가져오기
    lxml 라이브러리를 사용하기 전에 먼저 가져와야 합니다.
from lxml import etree
로그인 후 복사
  1. lxml이 제공하는 파서 구성
    lxml 두 개의 파서: etree.HTMLParser는 HTML 문서를 구문 분석하는 데 사용되고 etree.XMLParser는 XML 문서를 구문 분석하는 데 사용됩니다. 이를 사용하기 전에 파서 객체를 구성해야 합니다.
parser = etree.HTMLParser()
로그인 후 복사
  1. 문서 구문 분석
    파서 객체를 사용하여 문서를 구문 분석하고 ElementTree 객체를 반환합니다.
tree = etree.parse('example.html', parser)
로그인 후 복사
  1. XPath 표현식 구성
    XPath 표현식은 다음으로 구성됩니다. 경로 문서에서 노드를 찾는 데 사용되는 표현식과 함수로 구성됩니다. 예를 들어 모든 태그를 선택하려면 다음 XPath 표현식을 사용할 수 있습니다.
xpath_expr = '//a'
로그인 후 복사
  1. 노드 찾기
    XPath 표현식을 사용하여 노드를 찾고 노드 목록을 반환합니다.
nodes = tree.xpath(xpath_expr)
로그인 후 복사
  1. 데이터 추출
    에서 추출할 수 있습니다. 노드에 필요한 데이터입니다. 예를 들어 모든 태그의 텍스트 콘텐츠를 추출합니다.
texts = [node.text for node in nodes]
print(texts)
로그인 후 복사
  1. 보충 샘플 코드

다음은 HTML 문서에서 모든 링크를 추출하는 방법을 보여주는 완전한 샘플 코드입니다.

from lxml import etree

parser = etree.HTMLParser()
tree = etree.parse('example.html', parser)
xpath_expr = '//a'
nodes = tree.xpath(xpath_expr)
links = [node.get('href') for node in nodes]
print(links)
로그인 후 복사

위 내용은 다음에서 사용됩니다. XPath 표현식의 Python 기본 사용법. XPath 구문을 익히고 lxml 라이브러리를 사용함으로써 XML 및 HTML 문서에서 데이터를 쉽게 구문 분석하고 추출할 수 있으며 데이터 분석 및 웹 크롤링과 같은 작업을 위한 강력한 도구를 제공합니다.

이 기사가 Python의 XPath 표현식을 이해하고 사용하는 데 도움이 되기를 바랍니다. 데이터 처리 및 웹 개발의 성공을 기원합니다!

위 내용은 Python의 XPath 표현식 사용법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿