백엔드 개발 파이썬 튜토리얼 Python 웹 크롤러 기능의 기본 작성 방법 소개

Python 웹 크롤러 기능의 기본 작성 방법 소개

Mar 13, 2017 pm 06:12 PM

이 글에서는 주로 Python 웹 크롤러 기능의 기본 작성 방법을 소개합니다. 웹 크롤러, 즉 Web Spider는 매우 생생한 이름입니다. 인터넷을 스파이더웹에 비유하면 스파이더는 웹을 기어다니는 거미입니다. 웹 크롤러에 관심이 있는 친구들은 이 글

웹 크롤러, 즉 웹 스파이더를 참고하세요. 매우 생생한 이름입니다. 인터넷을 거미줄에 비유한다면 거미는 웹 위를 기어다니는 거미입니다.

1. 웹 크롤러의 정의

웹 스파이더는 링크 주소를 통해 웹 페이지를 검색합니다. 웹사이트의 특정 페이지(보통 홈페이지)에서 시작하여 웹페이지의 내용을 읽고, 웹페이지에서 다른 링크 주소를 찾은 후, 이 링크 주소를 통해 다음 웹페이지를 찾아 계속 진행합니다. 이 웹사이트의 모든 페이지가 크롤링될 때까지 루프를 반복합니다. 전체 인터넷을 하나의 웹사이트로 간주한다면 웹 스파이더는 이 원리를 이용해 인터넷의 모든 웹페이지를 크롤링할 수 있습니다. 이런 방식으로 웹 크롤러는 웹 페이지를 크롤링하는 프로그램인 크롤러입니다. 웹 크롤러의 기본 작업은 웹 페이지를 크롤링하는 것입니다.

2. 웹페이지를 탐색하는 과정

웹페이지를 크롤링하는 과정은 실제로 독자들이 일반적으로 사용하는 IE 브라우저와 동일합니다. 웹페이지를 탐색합니다. 예를 들어, 브라우저의 주소 표시줄에 www.baidu.com 주소를 입력합니다.

웹페이지를 여는 과정은 실제로 브라우징 "클라이언트"인 브라우저가 서버에 요청을 보내고 서버측 파일을 로컬로 "잡은" 후 해석하고 표시하는 과정입니다. 그들을.

HTML은 태그를 사용하여 콘텐츠를 표시하고 구문 분석하고 구별하는 마크업 언어입니다. 브라우저의 기능은 획득한 HTML 코드를 구문 분석한 다음 원본 코드를 우리가 직접 보는 웹사이트 페이지로 변환하는 것입니다.

3. Python 기반의 웹 크롤러 기능

1) Python으로 html 페이지 가져오기

사실 가장 기본적인 웹사이트 캡처는


import urllib2
content = urllib2.urlopen('http://XXXX').read()
로그인 후 복사

이렇게 하면 전체 HTML 문서를 얻을 수 있다는 점입니다. 전체 문서 대신 필요한 유용한 정보를 얻으세요. 이를 위해서는 다양한 태그로 채워진 HTML을 구문 분석해야 합니다.

2) Python 크롤러는 페이지를 크롤링한 후 html 메서드를 구문 분석합니다

python 크롤러 html 구문 분석 라이브러리 SGMLParser

Python에는 기본적으로 HTMLParser 및 SGMLParser와 같은 파서가 제공됩니다. 전자는 사용하기가 매우 어렵기 때문에 SGMLParser를 사용하여 샘플 프로그램을 작성했습니다.


import urllib2
from sgmllib import SGMLParser
 
class ListName(SGMLParser):
def init(self):
SGMLParser.init(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
 
content = urllib2.urlopen('http://169it.com/xxx.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')
로그인 후 복사

여기에는 ListName이라는 클래스가 정의되어 있으며 SGMLParser의 메서드를 상속합니다. 변수 is_h4를 마크로 사용하여 html 파일에서 h4 태그를 확인합니다. h4 태그가 발견되면 태그의 내용이 목록 변수 이름에 추가됩니다. start_h4() 및 end_h4() 함수에 대해 설명합니다. 해당 프로토타입은 SGMLParser에서


start_tagname(self, attrs)
end_tagname(self)
로그인 후 복사

태그 이름입니다. start_pre가 호출되고 가 발생하면 end_pre가 호출됩니다. attrs는 레이블의 매개변수이며 [(속성, 값), (속성, 값), ...] 형식으로 반환됩니다.

python 크롤러 html 구문 분석 라이브러리 pyQuery

pyQuery는 Python에서 jQuery를 구현한 것이며 jQuery 구문을 사용할 수 있습니다. HTML 문서를 작동하고 구문 분석하는 데 매우 편리합니다. 사용하기 전에 easy_install pyquery를 설치하거나 Ubuntu


sudo apt-get install python-pyquery
로그인 후 복사

에 설치해야 합니다. 다음 예:


from pyquery import PyQuery as pyq
doc=pyq(url=r'http://169it.com/xxx.html')
cts=doc('.market-cat')
 
for i in cts:
print '====',pyq(i).find('h4').text() ,'===='
for j in pyq(i).find('.sub'):
print pyq(j).text() ,
print '\n'
로그인 후 복사

Python 크롤러 html 파싱 라이브러리 BeautifulSoup

문제는 대부분의 웹 페이지가 표준을 완벽하게 준수하지 않고 작성되었으며 설명할 수 없는 다양한 오류로 인해 사람들이 찾고 싶어한다는 것입니다. 웹 페이지를 작성하고 그를 때린 사람. 이 문제를 해결하기 위해 우리는 유명한 BeautifulSoup을 선택하여 HTML 문서를 구문 분석할 수 있습니다. 이는 우수한 내결함성을 가지고 있습니다.

위 내용은 이 글의 전체 내용입니다. Python 웹 크롤러 기능 구현에 대한 자세한 분석과 소개를 제공하므로 모든 분들의 학습에 도움이 되기를 바랍니다.

위 내용은 Python 웹 크롤러 기능의 기본 작성 방법 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까? Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까? Apr 01, 2025 pm 05:09 PM

Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까? 한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까? Apr 01, 2025 pm 11:15 PM

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? 10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? 중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

정규 표현이란 무엇입니까? 정규 표현이란 무엇입니까? Mar 20, 2025 pm 06:25 PM

정규 표현식은 프로그래밍의 패턴 일치 및 텍스트 조작을위한 강력한 도구이며 다양한 응용 프로그램에서 텍스트 처리의 효율성을 높입니다.

Uvicorn은 Serving_forever ()없이 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 Serving_forever ()없이 HTTP 요청을 어떻게 지속적으로 듣습니까? Apr 01, 2025 pm 10:51 PM

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

인기있는 파이썬 라이브러리와 그 용도는 무엇입니까? 인기있는 파이썬 라이브러리와 그 용도는 무엇입니까? Mar 21, 2025 pm 06:46 PM

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

문자열을 통해 객체를 동적으로 생성하고 방법을 파이썬으로 호출하는 방법은 무엇입니까? 문자열을 통해 객체를 동적으로 생성하고 방법을 파이썬으로 호출하는 방법은 무엇입니까? Apr 01, 2025 pm 11:18 PM

파이썬에서 문자열을 통해 객체를 동적으로 생성하고 메소드를 호출하는 방법은 무엇입니까? 특히 구성 또는 실행 해야하는 경우 일반적인 프로그래밍 요구 사항입니다.

See all articles