Python은 간단한 크롤러 기능을 구현합니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python은 간단한 크롤러 기능을 구현합니다.

高洛峰

Dec 13, 2016 pm 01:32 PM

우리는 매일 인터넷을 검색하다 보면 멋진 사진들을 자주 보게 되는데, 우리는 이 사진들을 저장하고 다운로드하거나 바탕화면이나 디자인 자료로 사용하고 싶어합니다.

가장 일반적인 접근 방식은 마우스 오른쪽 버튼을 클릭하고 다른 이름으로 저장을 선택하는 것입니다. 그러나 일부 사진에는 마우스 오른쪽 버튼을 클릭할 때 다른 이름으로 저장 옵션이 없습니다. 다른 방법은 스크린샷 도구를 사용하여 캡처하는 것이지만 이렇게 하면 사진의 선명도가 떨어집니다. 알았어~! 실제로 페이지 소스 코드를 보려면 마우스 오른쪽 버튼을 클릭하세요.

파이썬을 사용하여 이러한 간단한 크롤러 기능을 구현하고 원하는 코드를 로컬에서 크롤링할 수 있습니다. Python을 사용하여 이러한 함수를 구현하는 방법을 살펴보겠습니다.

1. 전체 페이지 데이터를 가져옵니다.

먼저 이미지의 전체 페이지 정보를 가져올 수 있습니다. 다운로드되었습니다.

getjpg.py

#coding=utf-8
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://tieba.baidu.com/p/2738151262")

print html

로그인 후 복사

Urllib 모듈은 로컬 파일처럼 www 및 ftp의 데이터를 읽을 수 있는 인터페이스를 제공합니다. 먼저 getHtml() 함수를 정의합니다.

urllib.urlopen() 메서드는 URL 주소를 여는 데 사용됩니다.

read() 메소드는 URL의 데이터를 읽고, getHtml() 함수에 URL을 전달하고, 전체 페이지를 다운로드하는 데 사용됩니다. 프로그램을 실행하면 전체 웹 페이지가 인쇄됩니다.

둘째, 페이지에서 원하는 데이터를 필터링합니다.

Python은 매우 강력한 정규 표현식을 제공합니다. 먼저 Python 정규 표현식에 대해 조금 알아 보겠습니다.

Baidu Tieba에서 몇 가지 아름다운 배경화면을 발견하고 도구를 보기 위해 이전 섹션으로 이동한다고 가정해 보겠습니다. 다음과 같은 사진 주소를 찾았습니다: src="http://imgsrc.baidu.com/forum...jpg" pic_ext="jpeg"

Python은 간단한 크롤러 기능을 구현합니다.

다음과 같이 코드를 수정합니다.

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r&#39;src="(.+?\.jpg)" pic_ext&#39;
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist      
   
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

로그인 후 복사

또한 가져온 전체 페이지에서 필요한 이미지 링크를 필터링하는 getImg() 함수를 만들었습니다. re 모듈에는 주로 정규 표현식이 포함되어 있습니다.

re.compile()은 정규 표현식을 정규 표현식 객체로 컴파일할 수 있습니다.

re.findall() 메소드는 html imgre( 정규식) 데이터.

스크립트를 실행하면 전체 페이지에 포함된 이미지의 URL 주소를 얻을 수 있습니다.

셋째, 페이지 필터링된 데이터를 로컬에 저장합니다.

for 루프를 통해 필터링된 이미지 주소를 탐색하고 저장합니다. local의 경우 코드는 다음과 같습니다.

#coding=utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r&#39;src="(.+?\.jpg)" pic_ext&#39;
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,&#39;%s.jpg&#39; % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

로그인 후 복사

여기서 핵심은 urllib.urlretrieve() 메서드를 사용하여 원격 데이터를 로컬에 직접 다운로드하는 것입니다.

for 루프를 통해 얻은 이미지 연결을 탐색합니다. 이미지 파일 이름을 보다 표준화되게 보이도록 이름 지정 규칙은 x 변수에 1을 추가하는 것입니다. 저장 위치는 기본적으로 프로그램의 저장 디렉터리입니다.

프로그램 실행이 완료되고 해당 디렉터리에 로컬 디렉터리에 다운로드된 파일이 표시됩니다.

Python은 간단한 크롤러 기능을 구현합니다.

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7563

Cakephp 튜토리얼

1385

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Linux 터미널에서 Python 버전을 볼 때 발생하는 권한 문제를 해결하는 방법은 무엇입니까? Apr 01, 2025 pm 05:09 PM

Linux 터미널에서 Python 버전을 보려고 할 때 Linux 터미널에서 Python 버전을 볼 때 권한 문제에 대한 솔루션 ... Python을 입력하십시오 ...

한 데이터 프레임의 전체 열을 Python의 다른 구조를 가진 다른 데이터 프레임에 효율적으로 복사하는 방법은 무엇입니까? Apr 01, 2025 pm 11:15 PM

Python의 Pandas 라이브러리를 사용할 때는 구조가 다른 두 데이터 프레임 사이에서 전체 열을 복사하는 방법이 일반적인 문제입니다. 두 개의 dats가 있다고 가정 해

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

정규 표현이란 무엇입니까? Mar 20, 2025 pm 06:25 PM

정규 표현식은 프로그래밍의 패턴 일치 및 텍스트 조작을위한 강력한 도구이며 다양한 응용 프로그램에서 텍스트 처리의 효율성을 높입니다.

Uvicorn은 Serving_forever ()없이 HTTP 요청을 어떻게 지속적으로 듣습니까? Apr 01, 2025 pm 10:51 PM

Uvicorn은 HTTP 요청을 어떻게 지속적으로 듣습니까? Uvicorn은 ASGI를 기반으로 한 가벼운 웹 서버입니다. 핵심 기능 중 하나는 HTTP 요청을 듣고 진행하는 것입니다 ...

인기있는 파이썬 라이브러리와 그 용도는 무엇입니까? Mar 21, 2025 pm 06:46 PM

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.