웹 페이지에서 하이퍼링크를 추출하는 Python 방법

高洛峰
풀어 주다: 2017-02-22 16:52:18
원래의
3208명이 탐색했습니다.

많은 사람들이 Python을 처음 배울 때 크롤러 개발에 Python을 사용할 계획입니다. 크롤러를 하려고 하기 때문에 먼저 웹페이지를 크롤링하고 웹페이지에서 하이퍼링크 주소를 추출해야 합니다. 이 기사에서는 필요한 경우 참조할 수 있는 간단한 방법을 공유합니다.

다음은 가장 간단한 구현 방법입니다. 먼저 대상 웹페이지를 캡처한 후 a 태그의 href 속성을 정기적으로 매칭하여 하이퍼링크를 얻습니다.

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a
로그인 후 복사

웹 페이지에서 하이퍼링크를 추출하는 Python의 방법과 관련된 더 많은 기사를 보려면 다음을 참조하세요. PHP 중국어 웹사이트를 주목하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!