Python은 간단한 두 단계로 날씨 크롤러 수집기를 구현합니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python은 간단한 두 단계로 날씨 크롤러 수집기를 구현합니다.

高洛峰

Oct 18, 2016 pm 02:01 PM

python 성취하다 비열한 수집

크롤러에 대해 이야기하면 매우 신비롭다고 느낄 수도 있지만 실제로는 우리가 상상하는 것만큼 마법적이지는 않습니다(물론 구글과 바이두의 크롤러는 복잡하고 강력합니다. 그 위력은 크롤러 자체의 힘이 아니라, 그러나 백그라운드 데이터 처리 및 데이터 마이닝 알고리즘은 매우 강력합니다.) 오늘 우리는 그 미스터리를 공개할 것입니다. 하하, 간단한 두 단계로 웹 날씨 크롤러 프로그램을 구현할 수 있습니다. . .

간단히 말하면 크롤러는 두 부분으로 구성됩니다. 1. 웹페이지의 텍스트 정보를 가져옵니다. 2. 원하는 데이터를 얻기 위한 데이터 분석.

1. 웹페이지 텍스트 정보를 얻습니다.

Python은 HTML을 얻는 데 매우 편리합니다. urllib 라이브러리를 사용하면 몇 줄의 코드만으로 필요한 기능을 얻을 수 있습니다.

#引入urllib库
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
page.close()
return html

로그인 후 복사

여기에 반환되는 것은 웹 페이지의 소스 코드인 html 코드입니다.

그렇다면 우리가 원하는 정보를 어떻게 얻을 수 있을까요? 그런 다음 웹 페이지 분석에서 가장 일반적으로 사용되는 도구인 정규 표현식을 사용해야 합니다.

2. 정규식 등을 기반으로 필수 콘텐츠를 얻습니다.

정규식을 사용할 때는 웹페이지 정보의 구조를 잘 관찰하고 올바른 정규식을 작성해야 합니다.

파이썬 정규 표현식의 사용도 매우 간단합니다.

#引入正则表达式库
import re
def getWeather(html):
reg = &#39;<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>&#39;
weatherList = re.compile(reg).findall(html)
return weatherList

로그인 후 복사

설명:

여기서 reg는 정규 표현식이고 html은 첫 번째 단계에서 얻은 텍스트입니다. . findall의 기능은 HTML에서 정규 일치 항목과 일치하는 모든 문자열을 찾아 WeatherList에 저장하는 것입니다. 그런 다음 WeathereList의 데이터 출력을 열거합니다.

여기서 정규식 reg에 대해 주의해야 할 두 가지 사항이 있습니다.

하나는 "(.*?)" 입니다. () 안의 내용이 우리가 얻을 내용인 한, 대괄호가 여러 개 있으면 findall의 각 결과에는 이 대괄호 안의 내용이 포함됩니다. 위에는 도시, 최저 기온, 최고 기온에 해당하는 3개의 괄호가 있습니다.

다른 하나는 ".*?" 입니다. Python의 정규 일치는 기본적으로 탐욕적입니다. 즉, 기본적으로 가능한 한 많은 문자열과 일치합니다. 마지막에 물음표를 추가하면 non-greedy 모드, 즉 가능한 적은 수의 문자열과 일치한다는 의미입니다. 여기서는 매칭해야 할 도시가 여러 개이므로 비탐욕 모드를 사용해야 한다. 그렇지 않으면 매칭 결과가 하나만 남게 되어 부정확해진다.

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1662

Cakephp 튜토리얼

1418

라라벨 튜토리얼

1311

PHP 튜토리얼

1261

C# 튜토리얼

1234

Related knowledge

PHP와 Python : 다른 패러다임이 설명되었습니다 Apr 18, 2025 am 12:26 AM

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP와 Python 중에서 선택 : 가이드 Apr 18, 2025 am 12:24 AM

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

PHP와 Python : 그들의 역사에 깊은 다이빙 Apr 18, 2025 am 12:25 AM

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

Python vs. JavaScript : 학습 곡선 및 사용 편의성 Apr 16, 2025 am 12:12 AM

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

숭고한 코드 파이썬을 실행하는 방법 Apr 16, 2025 am 08:48 AM

Sublime 텍스트로 Python 코드를 실행하려면 먼저 Python 플러그인을 설치 한 다음 .py 파일을 작성하고 코드를 작성한 다음 CTRL B를 눌러 코드를 실행하면 콘솔에 출력이 표시됩니다.

vscode에서 코드를 작성하는 위치 Apr 15, 2025 pm 09:54 PM

Visual Studio Code (VSCODE)에서 코드를 작성하는 것은 간단하고 사용하기 쉽습니다. vscode를 설치하고, 프로젝트를 만들고, 언어를 선택하고, 파일을 만들고, 코드를 작성하고, 저장하고 실행합니다. VSCODE의 장점에는 크로스 플랫폼, 무료 및 오픈 소스, 강력한 기능, 풍부한 확장 및 경량 및 빠른가 포함됩니다.

Python에서 비주얼 스튜디오 코드를 사용할 수 있습니다 Apr 15, 2025 pm 08:18 PM

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

메모장으로 파이썬을 실행하는 방법 Apr 16, 2025 pm 07:33 PM

메모장에서 Python 코드를 실행하려면 Python 실행 파일 및 NPPEXEC 플러그인을 설치해야합니다. Python을 설치하고 경로를 추가 한 후 nppexec 플러그인의 명령 "Python"및 매개 변수 "{current_directory} {file_name}"을 구성하여 Notepad의 단축키 "F6"을 통해 Python 코드를 실행하십시오.

See all articles