백엔드 개발 파이썬 튜토리얼 Python을 사용한 실용적인 크롤러 전투: Maoyan 영화 크롤러

Python을 사용한 실용적인 크롤러 전투: Maoyan 영화 크롤러

Jun 10, 2023 pm 12:27 PM
실제 전투 파이썬 크롤러 마오얀 영화

인터넷 기술의 급속한 발전으로 인해 인터넷에 존재하는 정보의 양은 점점 더 많아지고 있습니다. Maoyan Movies는 국내 최고의 영화 데이터 플랫폼으로서 사용자에게 포괄적인 영화 정보 서비스를 제공합니다. 이 기사에서는 Python을 사용하여 간단한 Maoyan 영화 크롤러를 작성하여 영화 관련 데이터를 얻는 방법을 소개합니다.

  1. 크롤러 개요

크롤러 또는 웹 크롤러는 자동으로 인터넷 데이터를 얻는 프로그램입니다. 대상 웹사이트에 접속하고 인터넷 링크를 통해 데이터를 얻을 수 있어 자동 정보 수집이 가능합니다. Python은 데이터 처리, 웹 크롤러, 시각적 차트 등에 널리 사용되는 강력한 프로그래밍 언어입니다.

  1. 크롤러 구현

이 기사의 Maoyan 영화 크롤러는 Python의 요청 및 BeautifulSoup 라이브러리를 통해 구현됩니다. Requests는 웹 페이지 요청을 쉽게 보낼 수 있는 Python HTTP 라이브러리이고, BeautifulSoup은 HTML 페이지를 빠르게 구문 분석할 수 있는 Python의 HTML 구문 분석 라이브러리입니다. 시작하기 전에 이 두 라이브러리를 설치해야 합니다.

2.1 라이브러리 가져오기

Python 편집기를 열고 새 Python 파일을 만듭니다. 먼저 필요한 라이브러리를 가져와야 합니다.

import requests
from bs4 import BeautifulSoup
import csv
로그인 후 복사

2.2 요청 링크 만들기

다음으로 요청 링크를 만듭니다. Maoyan Movie 웹사이트를 열고 대상 영화에 대한 링크를 찾아 복사합니다. 다음은 영화 "명탐정 차이나타운 3"입니다.

url = 'https://maoyan.com/films/1250952'
로그인 후 복사

2.3 요청 보내기

헤더를 생성하고 요청 헤더 정보를 설정합니다. 헤더 정보에는 일반적으로 실제 시뮬레이션을 위한 User-Agent, Referer, Cookie 및 기타 정보가 포함됩니다. 웹 페이지에 액세스하기 위한 브라우저 요청입니다. 여기서는 Chrome 브라우저를 예로 들어보겠습니다. 그런 다음 요청 라이브러리를 사용하여 요청을 보내고 웹 페이지의 HTML 코드를 얻습니다.

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url,headers=headers)
html = response.text
로그인 후 복사

2.4 HTML 코드 구문 분석

얻은 HTML 코드를 BeautifulSoup 개체로 변환하고 BeautifulSoup 라이브러리를 사용하여 HTML 코드를 구문 분석하고 목표 데이터. Maoyan 영화 웹사이트의 HTML 코드 구조는 상대적으로 복잡하기 때문에 HTML과 BeautifulSoup에 대한 심층적인 지식이 필요합니다.

soup = BeautifulSoup(html,'html.parser')
movie_title = soup.find('h1',class_='name').text
movie_info = soup.find_all('div',class_='movie-brief-container')[0]
movie_type = movie_info.find_all('li')[0].text 
movie_release_data = movie_info.find_all('li')[2].text 
movie_actors = movie_info.find_all('li')[1].text 
movie_score = soup.find('span',class_='score-num').text
로그인 후 복사

2.5 데이터 저장

HTML 페이지를 처리한 후 얻은 데이터를 로컬에 저장해야 합니다. 여기서는 Python의 csv 라이브러리를 사용하여 데이터를 저장합니다. csv 라이브러리는 후속 처리를 용이하게 하기 위해 데이터를 CSV 형식으로 변환할 수 있습니다.

with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称',movie_title])
    writer.writerow(['电影类型',movie_type])
    writer.writerow(['上映日期',movie_release_data])
    writer.writerow(['演员阵容',movie_actors])
    writer.writerow(['豆瓣评分',movie_score])
로그인 후 복사

전체 코드는 다음과 같습니다.

import requests
from bs4 import BeautifulSoup
import csv

url = 'https://maoyan.com/films/1250952'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url,headers=headers)
html = response.text
soup = BeautifulSoup(html,'html.parser')
movie_title = soup.find('h1',class_='name').text
movie_info = soup.find_all('div',class_='movie-brief-container')[0]
movie_type = movie_info.find_all('li')[0].text 
movie_release_data = movie_info.find_all('li')[2].text 
movie_actors = movie_info.find_all('li')[1].text 
movie_score = soup.find('span',class_='score-num').text 
with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称',movie_title])
    writer.writerow(['电影类型',movie_type])
    writer.writerow(['上映日期',movie_release_data])
    writer.writerow(['演员阵容',movie_actors])
    writer.writerow(['豆瓣评分',movie_score])
로그인 후 복사
  1. Summary

이 글에서는 Python의 요청과 BeautifulSoup 라이브러리를 사용하여 Maoyan 무비 크롤러를 구현하는 방법을 소개합니다. 네트워크 요청 전송, HTML 코드 구문 분석, 데이터 저장 및 기타 단계를 통해 대상 영화 관련 데이터를 쉽게 가져와 로컬에 저장할 수 있습니다. 웹 크롤러 기술은 데이터 수집, 데이터 마이닝 등에 광범위한 응용 가치를 가지고 있습니다. 우리는 지속적인 학습을 통해 기술 수준을 향상시키고 계속해서 실제로 탐구할 수 있습니다.

위 내용은 Python을 사용한 실용적인 크롤러 전투: Maoyan 영화 크롤러의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Python의 실제 크롤러 전투: Toutiao 크롤러 Python의 실제 크롤러 전투: Toutiao 크롤러 Jun 10, 2023 pm 01:00 PM

Python의 실용적인 크롤러 전투: 오늘날의 Toutiao 크롤러 오늘날의 정보화 시대에 인터넷에는 엄청난 양의 데이터가 포함되어 있으며 이 데이터를 분석 및 응용에 사용하려는 요구가 점점 더 높아지고 있습니다. 데이터 수집을 위한 기술적 수단 중 하나로 크롤러도 인기 있는 연구 분야 중 하나가 되었습니다. 이 기사에서는 주로 Python의 실제 크롤러를 소개하고 Python을 사용하여 Toutiao용 크롤러 프로그램을 작성하는 방법에 중점을 둡니다. 크롤러의 기본 개념 Python에서 실제 크롤러 전투를 소개하기 전에 먼저 다음 사항을 이해해야 합니다.

PHP 실용: 피보나치 수열을 빠르게 구현하는 코드 예제 PHP 실용: 피보나치 수열을 빠르게 구현하는 코드 예제 Mar 20, 2024 pm 02:24 PM

PHP 연습: 피보나치 수열을 빠르게 구현하기 위한 코드 예제 피보나치 수열은 수학에서 매우 흥미롭고 일반적인 수열로 다음과 같이 정의됩니다. 첫 번째와 두 번째 숫자는 0과 1이고, 세 번째부터 숫자로 시작하여 각 숫자가 나옵니다. 이전 두 숫자의 합입니다. 피보나치 수열의 처음 몇 숫자는 0,1,1.2,3,5,8,13,21 등입니다. PHP에서는 재귀와 반복을 통해 피보나치 수열을 생성할 수 있습니다. 아래에서는 이 두 가지를 보여드리겠습니다.

Java 개발 사례: Qiniu 클라우드 스토리지 서비스를 통합하여 파일 업로드 달성 Java 개발 사례: Qiniu 클라우드 스토리지 서비스를 통합하여 파일 업로드 달성 Jul 06, 2023 pm 06:22 PM

Java 개발 실습: Qiniu 클라우드 스토리지 서비스를 통합하여 파일 업로드 구현 소개 클라우드 컴퓨팅 및 클라우드 스토리지가 개발됨에 따라 저장 및 관리를 위해 클라우드에 파일을 업로드해야 하는 애플리케이션이 점점 더 많아지고 있습니다. 클라우드 스토리지 서비스의 장점은 높은 신뢰성, 확장성 및 유연성입니다. 이 기사에서는 Java 언어 개발 사용 방법, Qiniu 클라우드 스토리지 서비스 통합 방법, 파일 업로드 기능 구현 방법을 소개합니다. Qiniu Cloud 소개 Qiniu Cloud는 포괄적인 클라우드 스토리지 및 콘텐츠 배포 서비스를 제공하는 중국 최고의 클라우드 스토리지 서비스 제공업체입니다. 사용자는 Qiniu Yunti를 사용할 수 있습니다.

MySQL 테이블 디자인 실습: 전자상거래 주문 테이블 및 제품 리뷰 테이블 생성 MySQL 테이블 디자인 실습: 전자상거래 주문 테이블 및 제품 리뷰 테이블 생성 Jul 03, 2023 am 08:07 AM

MySQL 테이블 디자인 실습: 전자상거래 주문 테이블과 제품 리뷰 테이블을 생성합니다. 전자상거래 플랫폼의 데이터베이스에서 주문 테이블과 제품 리뷰 테이블은 매우 중요한 테이블입니다. 이 기사에서는 MySQL을 사용하여 이 두 테이블을 설계하고 생성하는 방법을 소개하고 코드 예제를 제공합니다. 1. 주문 테이블의 설계 및 생성 주문 테이블은 주문 번호, 사용자 ID, 제품 ID, 구매 수량, 주문 상태 및 기타 필드를 포함한 사용자의 구매 정보를 저장하는 데 사용됩니다. 먼저 CREATET를 사용하여 "order"라는 테이블을 생성해야 합니다.

Golang 실전: 데이터 내보내기 기능 구현 팁 공유 Golang 실전: 데이터 내보내기 기능 구현 팁 공유 Feb 29, 2024 am 09:00 AM

데이터 내보내기 기능은 실제 개발, 특히 백엔드 관리 시스템이나 데이터 보고서 내보내기와 같은 시나리오에서 매우 일반적인 요구 사항입니다. 이 기사에서는 Golang 언어를 예로 들어 데이터 내보내기 기능의 구현 기술을 공유하고 구체적인 코드 예제를 제공합니다. 1. 환경 준비 시작하기 전에 Golang 환경이 설치되어 있는지 확인하고 Golang의 기본 구문 및 작업에 익숙해야 합니다. 또한 데이터 내보내기 기능을 구현하려면 github.com/360EntSec와 같은 타사 라이브러리를 사용해야 할 수도 있습니다.

유니앱, 미니프로그램 하청계약 방법을 차근차근 가르쳐드립니다. (사진 및 글) 유니앱, 미니프로그램 하청계약 방법을 차근차근 가르쳐드립니다. (사진 및 글) Jul 22, 2022 pm 04:55 PM

이 기사에서는 uniapp 크로스 도메인에 대한 관련 지식을 제공하고 uniapp 및 미니 프로그램의 하도급과 관련된 문제를 소개합니다. 하도급을 사용하는 각 미니 프로그램에는 기본 패키지가 포함되어야 합니다. 소위 메인 패키지는 기본 시작 페이지/TabBar 페이지와 모든 하위 패키지가 사용해야 하는 일부 공용 리소스/JS 스크립트가 있는 곳입니다. 하위 패키지는 개발자의 구성에 따라 구분됩니다. 모두에게 도움이 될 것입니다.

Elasticsearch 쿼리 구문 및 실제 전투에 대한 심층 연구 Elasticsearch 쿼리 구문 및 실제 전투에 대한 심층 연구 Oct 03, 2023 am 08:42 AM

Elasticsearch 쿼리 구문에 대한 심층 연구 및 실무 소개: Elasticsearch는 Lucene 기반의 오픈 소스 검색 엔진으로 주로 분산 검색 및 분석에 사용되며 대규모 데이터의 전체 텍스트 검색, 로그 분석에 널리 사용됩니다. , 추천 시스템 및 기타 시나리오. 데이터 쿼리에 Elasticsearch를 사용할 때 쿼리 구문을 유연하게 사용하는 것이 쿼리 효율성을 높이는 열쇠입니다. 이 기사에서는 Elasticsearch 쿼리 구문을 자세히 살펴보고 실제 사례를 기반으로 제공합니다.

Vue 실습: 날짜 선택기 구성요소 개발 Vue 실습: 날짜 선택기 구성요소 개발 Nov 24, 2023 am 09:03 AM

Vue 실용적인 전투: 날짜 선택기 구성 요소 개발 소개: 날짜 선택기는 일상적인 개발에서 자주 사용되는 구성 요소로 날짜를 쉽게 선택할 수 있으며 다양한 구성 옵션을 제공합니다. 이 기사에서는 Vue 프레임워크를 사용하여 간단한 날짜 선택기 구성 요소를 개발하고 특정 코드 예제를 제공하는 방법을 소개합니다. 1. 요구사항 분석 개발을 시작하기 전에 구성요소의 기능과 특성을 명확히 하기 위해 요구사항 분석을 수행해야 합니다. 일반적인 날짜 선택기 구성 요소 기능에 따라 다음 기능 포인트를 구현해야 합니다. 기본 기능: 날짜를 선택할 수 있습니다.

See all articles