Python에서 Beautiful Soup을 사용하여 속성 값 추출-파이썬 튜토리얼-php.cn

알고리즘

아름다운 수프 설치

속성 값 추출

예제 1: find() 메소드와 대괄호를 사용하여 href 속성 추출

출력

예 2: attr을 사용하여 특정 속성을 가진 요소 찾기

예 3: find_all() 메서드를 사용하여 요소의 모든 항목을 찾습니다.

예 4: select()를 사용하여 CSS 선택기를 통해 요소 찾기

결론

집

백엔드 개발

파이썬 튜토리얼

Python에서 Beautiful Soup을 사용하여 속성 값 추출

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 10, 2023 pm 07:05 PM

使用Python中的Beautiful Soup提取属性值

뷰티플수프로 속성값을 추출하려면 HTML 문서를 파싱한 후 필요한 속성값을 추출해야 합니다. BeautifulSoup은 HTML 및 XML 문서를 구문 분석하기 위한 Python 라이브러리입니다. BeautifulSoup은 문서에서 데이터를 쉽게 추출하기 위해 구문 분석 트리를 검색하고 탐색하는 다양한 방법을 제공합니다. 이번 글에서는 Beautiful Soup in Python의 도움으로 속성값을 추출해보겠습니다.

알고리즘

아래 알고리즘에 따라 Python에서 아름다운 수프를 사용하여 속성 값을 추출할 수 있습니다.

bs4 라이브러리의 BeautifulSoup 클래스를 사용하여 HTML 문서를 구문 분석하세요.
추출하려는 속성이 포함된 HTML 요소를 찾으려면 적절한 BeautifulSoup 메서드(예: find() 또는 find_all())를 사용하세요.
조건문이나 has_attr() 메서드를 사용하여 해당 속성이 요소에 존재하는지 확인하세요.
속성이 존재하는 경우 대괄호([])와 속성 이름을 키로 사용하여 해당 값을 추출합니다.
속성이 존재하지 않는 경우 오류를 적절하게 처리하시기 바랍니다.

아름다운 수프 설치

BeautifulSoup 라이브러리를 사용하기 전에 Python 패키지 관리자인 pip 명령을 사용하여 설치해야 합니다. Beautiful Soup을 설치하려면 터미널이나 명령 프롬프트에 다음 명령을 입력하세요.

으아악

속성 값 추출

HTML 태그에서 속성 값을 추출하려면 먼저 BeautifulSoup을 사용하여 HTML 문서를 구문 분석해야 합니다. 그런 다음 Beautiful Soup 메소드를 사용하여 HTML 문서에 있는 특정 태그의 속성값을 추출합니다.

예제 1: find() 메소드와 대괄호를 사용하여 href 속성 추출

아래 예에서는 먼저 HTML 문서를 생성하고 이를 파서 유형 html.parser를 사용하여 Beautiful Soup 생성자에 문자열로 전달합니다. 다음으로, 수프 객체의 find() 메소드를 사용하여 "a" 태그를 찾습니다. 그러면 HTML 문서에서 처음으로 나타나는 "a" 태그가 반환됩니다. 마지막으로 대괄호 표기법을 사용하여 "a" 태그에서 href 속성 값을 추출합니다. 그러면 href 속성의 값이 문자열로 반환됩니다.

으아악

출력

으아악

예 2: attr을 사용하여 특정 속성을 가진 요소 찾기

아래 예에서는 find_all() 메소드를 사용하여 href 속성이 있는 모든 `a` 태그를 찾습니다. 'attrs' 매개변수는 우리가 찾고 있는 속성을 지정하는 데 사용됩니다. `{'href': True}`는 모든 값의 href 속성을 가진 요소를 찾도록 지정합니다.

으아악

출력

으아악

예 3: find_all() 메서드를 사용하여 요소의 모든 항목을 찾습니다.

때때로 웹페이지에서 HTML 요소의 모든 항목을 찾고 싶을 수도 있습니다. 이를 달성하려면 find_all() 메서드를 사용할 수 있습니다. 아래 예에서는 find_all() 메서드를 사용하여 컨테이너 클래스가 있는 모든 div 태그를 찾습니다. 그런 다음 각 div 태그를 반복하여 그 안에 있는 h1 및 p 태그를 찾습니다.

으아악

출력

으아악

예 4: select()를 사용하여 CSS 선택기를 통해 요소 찾기

아래 예에서는 select() 메서드를 사용하여 클래스 컨테이너가 있는 div 태그 내의 모든 h1 태그를 찾습니다. 이를 달성하기 위해 CSS 선택기 'div.container h1'가 사용됩니다. . 는 클래스 이름을 나타내는 데 사용되고 공백은 하위 선택자를 나타내는 데 사용됩니다.

으아악