Python은 간단한 두 단계로 날씨 크롤러 수집기를 구현합니다.
크롤러에 대해 이야기하면 매우 신비롭다고 느낄 수도 있지만 실제로는 우리가 상상하는 것만큼 마법적이지는 않습니다(물론 구글과 바이두의 크롤러는 복잡하고 강력합니다. 그 위력은 크롤러 자체의 힘이 아니라, 그러나 백그라운드 데이터 처리 및 데이터 마이닝 알고리즘은 매우 강력합니다.) 오늘 우리는 그 미스터리를 공개할 것입니다. 하하, 간단한 두 단계로 웹 날씨 크롤러 프로그램을 구현할 수 있습니다. . .
간단히 말하면 크롤러는 두 부분으로 구성됩니다. 1. 웹페이지의 텍스트 정보를 가져옵니다. 2. 원하는 데이터를 얻기 위한 데이터 분석.
1. 웹페이지 텍스트 정보를 얻습니다.
Python은 HTML을 얻는 데 매우 편리합니다. urllib 라이브러리를 사용하면 몇 줄의 코드만으로 필요한 기능을 얻을 수 있습니다.
#引入urllib库 import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html
여기에 반환되는 것은 웹 페이지의 소스 코드인 html 코드입니다.
그렇다면 우리가 원하는 정보를 어떻게 얻을 수 있을까요? 그런 다음 웹 페이지 분석에서 가장 일반적으로 사용되는 도구인 정규 표현식을 사용해야 합니다.
2. 정규식 등을 기반으로 필수 콘텐츠를 얻습니다.
정규식을 사용할 때는 웹페이지 정보의 구조를 잘 관찰하고 올바른 정규식을 작성해야 합니다.
파이썬 정규 표현식의 사용도 매우 간단합니다.
#引入正则表达式库 import re def getWeather(html): reg = '<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>' weatherList = re.compile(reg).findall(html) return weatherList
설명:
여기서 reg는 정규 표현식이고 html은 첫 번째 단계에서 얻은 텍스트입니다. . findall의 기능은 HTML에서 정규 일치 항목과 일치하는 모든 문자열을 찾아 WeatherList에 저장하는 것입니다. 그런 다음 WeathereList의 데이터 출력을 열거합니다.
여기서 정규식 reg에 대해 주의해야 할 두 가지 사항이 있습니다.
하나는 "(.*?)" 입니다. () 안의 내용이 우리가 얻을 내용인 한, 대괄호가 여러 개 있으면 findall의 각 결과에는 이 대괄호 안의 내용이 포함됩니다. 위에는 도시, 최저 기온, 최고 기온에 해당하는 3개의 괄호가 있습니다.
다른 하나는 ".*?" 입니다. Python의 정규 일치는 기본적으로 탐욕적입니다. 즉, 기본적으로 가능한 한 많은 문자열과 일치합니다. 마지막에 물음표를 추가하면 non-greedy 모드, 즉 가능한 적은 수의 문자열과 일치한다는 의미입니다. 여기서는 매칭해야 할 도시가 여러 개이므로 비탐욕 모드를 사용해야 한다. 그렇지 않으면 매칭 결과가 하나만 남게 되어 부정확해진다.

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

Sublime 텍스트로 Python 코드를 실행하려면 먼저 Python 플러그인을 설치 한 다음 .py 파일을 작성하고 코드를 작성한 다음 CTRL B를 눌러 코드를 실행하면 콘솔에 출력이 표시됩니다.

Visual Studio Code (VSCODE)에서 코드를 작성하는 것은 간단하고 사용하기 쉽습니다. vscode를 설치하고, 프로젝트를 만들고, 언어를 선택하고, 파일을 만들고, 코드를 작성하고, 저장하고 실행합니다. VSCODE의 장점에는 크로스 플랫폼, 무료 및 오픈 소스, 강력한 기능, 풍부한 확장 및 경량 및 빠른가 포함됩니다.

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

메모장에서 Python 코드를 실행하려면 Python 실행 파일 및 NPPEXEC 플러그인을 설치해야합니다. Python을 설치하고 경로를 추가 한 후 nppexec 플러그인의 명령 "Python"및 매개 변수 "{current_directory} {file_name}"을 구성하여 Notepad의 단축키 "F6"을 통해 Python 코드를 실행하십시오.
