Python에서 간단한 크롤러 기능을 구현하는 예
우리는 매일 인터넷을 검색하다 보면 멋진 사진들을 자주 보게 되는데, 우리는 이 사진들을 저장하고 다운로드하거나 바탕화면이나 디자인 자료로 사용하고 싶어합니다.
가장 일반적인 방법은 마우스 오른쪽 버튼을 클릭하고 다른 이름으로 저장을 선택하는 것입니다. 그러나 일부 사진에는 마우스 오른쪽 버튼을 클릭할 때 다른 이름으로 저장 옵션이 없습니다. 다른 방법은 스크린샷 도구를 사용하여 캡처하는 것이지만 이렇게 하면 사진의 선명도가 떨어집니다. 알았어~! 실제로 페이지 소스 코드를 보려면 마우스 오른쪽 버튼을 클릭하세요.
파이썬을 사용하여 이러한 간단한 크롤러 기능을 구현하고 원하는 코드를 로컬에서 크롤링할 수 있습니다. Python을 사용하여 이러한 함수를 구현하는 방법을 살펴보겠습니다.
1. 전체 페이지 데이터 가져오기
먼저 다운로드할 이미지의 전체 페이지 정보를 얻을 수 있습니다.
getjpg.py
#coding=utf-8 import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html html = getHtml("http://tieba.baidu.com/p/2738151262") print html
Urllib 모듈은 웹페이지 데이터를 읽기 위한 인터페이스를 제공합니다. 로컬 파일을 읽는 것처럼 www와 ftp에서 데이터를 읽을 수 있습니다. 먼저 getHtml() 함수를 정의합니다.
urllib.urlopen() 메소드는 URL 주소를 여는 데 사용됩니다.
read() 메소드는 URL의 데이터를 읽고 URL을 getHtml() 함수에 전달하고 전체 페이지를 다운로드하는 데 사용됩니다. 프로그램을 실행하면 전체 웹 페이지가 인쇄됩니다.
2. 페이지에서 원하는 데이터를 필터링합니다
Python은 매우 강력한 정규식을 제공합니다. 먼저 Python 정규식에 대해 조금 알아야 합니다.
Baidu Tieba에서 몇 가지 아름다운 배경화면을 발견하고 도구를 보기 위해 이전 섹션으로 이동한다고 가정해 보겠습니다. 다음과 같은 사진 주소를 찾았습니다: src=”http://imgsrc.baidu.com/forum...jpg” pic_ext=”jpeg”
코드를 다음과 같이 수정하세요.
import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imglist = re.findall(imgre,html) return imglist html = getHtml("http://tieba.baidu.com/p/2460150866") print getImg(html)
얻은 전체 페이지에서 필요한 이미지 링크를 필터링하기 위해 getImg() 함수를 만들었습니다. re 모듈에는 주로 정규 표현식이 포함되어 있습니다:
re.compile()은 정규식을 정규식 객체로 컴파일할 수 있습니다.
re.findall() 메소드는 html에서 imgre(정규 표현식)가 포함된 데이터를 읽습니다.
스크립트를 실행하면 전체 페이지에 포함된 이미지의 URL 주소를 얻을 수 있습니다.
3. 페이지 필터링된 데이터를 로컬에 저장
for 루프를 통해 필터링된 이미지 주소를 탐색하고 로컬에 저장합니다.
#coding=utf-8 import urllib import re def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imglist = re.findall(imgre,html) x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl,'%s.jpg' % x) x+=1 html = getHtml("http://tieba.baidu.com/p/2460150866") print getImg(html)
여기서 핵심은 urllib.urlretrieve() 메서드를 사용하여 원격 데이터를 로컬에 직접 다운로드하는 것입니다.
얻은 이미지 연결을 for 루프를 통해 탐색합니다. 이미지 파일 이름을 보다 표준화되게 보이도록 이름 지정 규칙은 x 변수에 1을 추가하는 것입니다. 저장 위치는 기본적으로 프로그램의 저장 디렉터리입니다.
프로그램을 실행하면 로컬 디렉터리에 다운로드된 파일을 확인할 수 있습니다.
읽어주셔서 감사합니다. 도움이 되기를 바랍니다. 이 사이트를 지원해 주셔서 감사합니다!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

Sublime 텍스트로 Python 코드를 실행하려면 먼저 Python 플러그인을 설치 한 다음 .py 파일을 작성하고 코드를 작성한 다음 CTRL B를 눌러 코드를 실행하면 콘솔에 출력이 표시됩니다.

Visual Studio Code (VSCODE)에서 코드를 작성하는 것은 간단하고 사용하기 쉽습니다. vscode를 설치하고, 프로젝트를 만들고, 언어를 선택하고, 파일을 만들고, 코드를 작성하고, 저장하고 실행합니다. VSCODE의 장점에는 크로스 플랫폼, 무료 및 오픈 소스, 강력한 기능, 풍부한 확장 및 경량 및 빠른가 포함됩니다.

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

메모장에서 Python 코드를 실행하려면 Python 실행 파일 및 NPPEXEC 플러그인을 설치해야합니다. Python을 설치하고 경로를 추가 한 후 nppexec 플러그인의 명령 "Python"및 매개 변수 "{current_directory} {file_name}"을 구성하여 Notepad의 단축키 "F6"을 통해 Python 코드를 실행하십시오.
