ホームページ バックエンド開発 Python チュートリアル Python での実践的なクローラー戦闘: Maoyan ムービー クローラー

Python での実践的なクローラー戦闘: Maoyan ムービー クローラー

Jun 10, 2023 pm 12:27 PM
実戦 Python クローラー まおやん映画

インターネット技術の急速な発展に伴い、インターネット上の情報量はますます増大しています。 Maoyan Movies は国内有数の映画データ プラットフォームとして、ユーザーに総合的な映画情報サービスを提供しています。この記事では、Python を使用して、映画関連のデータを取得する簡単な Maoyan ムービー クローラーを作成する方法を紹介します。

  1. クローラーの概要

クローラー、または Web クローラーは、インターネット データを自動的に取得するプログラムです。インターネット上のリンクを通じて対象のWebサイトにアクセスし、データを取得することができ、情報収集の自動化を実現します。 Python は、データ処理、Web クローラー、ビジュアル チャートなどで広く使用されている強力なプログラミング言語です。

  1. クローラーの実装

この記事の Maoyan ムービー クローラーは、Python のリクエストと BeautifulSoup ライブラリを通じて実装されます。 Requests は Web ページ リクエストを簡単に送信できる Python HTTP ライブラリであり、BeautifulSoup は HTML ページをすばやく解析できる Python の HTML 解析ライブラリです。開始する前に、これら 2 つのライブラリをインストールする必要があります。

2.1 ライブラリのインポート

Python エディターを開き、新しい Python ファイルを作成します。まず、必要なライブラリをインポートする必要があります。

import requests
from bs4 import BeautifulSoup
import csv
ログイン後にコピー

2.2 リクエスト リンクの作成

次に、リクエスト リンクを作成します。 Maoyan Movie Web サイトを開き、対象の映画へのリンクを見つけてコピーします。映画「刑事チャイナタウン 3」を例に挙げます:

url = 'https://maoyan.com/films/1250952'
ログイン後にコピー

2.3 リクエストの送信

ヘッダーを作成し、リクエスト ヘッダー情報を設定します。ヘッダー情報には通常、User-Agent、Referer、Cookie が含まれます。 Webページにアクセスする実際のブラウザのリクエストメソッドをシミュレートします。ここでは Chrome ブラウザを例として説明します。次に、リクエスト ライブラリを使用してリクエストを送信し、Web ページの HTML コードを取得します。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url,headers=headers)
html = response.text
ログイン後にコピー

2.4 HTML コードを解析する

取得した HTML コードを BeautifulSoup オブジェクトに変換し、BeautifulSoup ライブラリを使用します。 HTML コードを解析し、ターゲット データを取得します。 Maoyan movie Web サイトの HTML コード構造は比較的複雑であるため、HTML と BeautifulSoup に関する深い知識が必要です。

soup = BeautifulSoup(html,'html.parser')
movie_title = soup.find('h1',class_='name').text
movie_info = soup.find_all('div',class_='movie-brief-container')[0]
movie_type = movie_info.find_all('li')[0].text 
movie_release_data = movie_info.find_all('li')[2].text 
movie_actors = movie_info.find_all('li')[1].text 
movie_score = soup.find('span',class_='score-num').text
ログイン後にコピー

2.5 データの保存

HTML ページを処理した後、取得したデータをローカルに保存する必要があります。ここでは、Python の csv ライブラリを使用してデータを保存します。 csv ライブラリは、後続の処理を容易にするためにデータを CSV 形式に変換できます。

with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称',movie_title])
    writer.writerow(['电影类型',movie_type])
    writer.writerow(['上映日期',movie_release_data])
    writer.writerow(['演员阵容',movie_actors])
    writer.writerow(['豆瓣评分',movie_score])
ログイン後にコピー

コード全体は次のとおりです:

import requests
from bs4 import BeautifulSoup
import csv

url = 'https://maoyan.com/films/1250952'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url,headers=headers)
html = response.text
soup = BeautifulSoup(html,'html.parser')
movie_title = soup.find('h1',class_='name').text
movie_info = soup.find_all('div',class_='movie-brief-container')[0]
movie_type = movie_info.find_all('li')[0].text 
movie_release_data = movie_info.find_all('li')[2].text 
movie_actors = movie_info.find_all('li')[1].text 
movie_score = soup.find('span',class_='score-num').text 
with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称',movie_title])
    writer.writerow(['电影类型',movie_type])
    writer.writerow(['上映日期',movie_release_data])
    writer.writerow(['演员阵容',movie_actors])
    writer.writerow(['豆瓣评分',movie_score])
ログイン後にコピー
  1. 概要

この記事では、Python のリクエストと BeautifulSoup ライブラリを使用して Maoyan ムービーを実装する方法を紹介します。昇降補助具。ネットワーク リクエストの送信、HTML コードの解析、データの保存などの手順により、目的の映画関連データを簡単に取得し、ローカルに保存できます。 Web クローラー テクノロジーは、データ収集、データ マイニングなどにおいて広範な応用価値を持っています。私たちは継続的な学習を通じて技術レベルを向上させ、実際に探究し続けることができます。

以上がPython での実践的なクローラー戦闘: Maoyan ムービー クローラーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Python での実践的なクローラー戦闘: Toutiao クローラー Python での実践的なクローラー戦闘: Toutiao クローラー Jun 10, 2023 pm 01:00 PM

Python での実践的なクローラー戦闘: 今日の Toutiao クローラー 今日の情報化時代において、インターネットには大量のデータが含まれており、このデータを分析や応用に使用する需要はますます高まっています。データ収集を達成するための技術的手段の 1 つとして、クローラは人気のある研究分野の 1 つでもあります。この記事では主に Python の実際のクローラーを紹介し、Python を使用して Toutiao のクローラー プログラムを作成する方法に焦点を当てます。クローラーの基本概念 Python で実際のクローラー戦闘を導入する前に、まず理解する必要があります。

PHP 実践: フィボナッチ数列をすばやく実装するコード例 PHP 実践: フィボナッチ数列をすばやく実装するコード例 Mar 20, 2024 pm 02:24 PM

PHP の実践: フィボナッチ数列をすばやく実装するためのコード例 フィボナッチ数列は、数学では非常に興味深い一般的な数列です。次のように定義されています: 最初と 2 番目の数値は 0 と 1、3 番目からは数値で始まり、それぞれの数値前の 2 つの数値の合計です。フィボナッチ数列の最初のいくつかの数値は、0、1、1.2、3、5、8、13、21 などです。 PHP では、再帰と反復を通じてフィボナッチ数列を生成できます。以下ではこの2つを紹介していきます

Java 開発の実践: Qiniu クラウド ストレージ サービスを統合してファイルのアップロードを実現する Java 開発の実践: Qiniu クラウド ストレージ サービスを統合してファイルのアップロードを実現する Jul 06, 2023 pm 06:22 PM

Java 開発実践: Qiniu クラウド ストレージ サービスを統合してファイル アップロードを実装する はじめに クラウド コンピューティングとクラウド ストレージの発展に伴い、ストレージと管理のためにファイルをクラウドにアップロードする必要があるアプリケーションがますます増えています。クラウド ストレージ サービスの利点は、高い信頼性、拡張性、柔軟性です。この記事では、Java 言語開発の使用方法、Qiniu クラウド ストレージ サービスの統合方法、およびファイル アップロード機能の実装方法を紹介します。 Qiniu Cloud について Qiniu Cloud は、中国の大手クラウド ストレージ サービス プロバイダーであり、包括的なクラウド ストレージおよびコンテンツ配信サービスを提供しています。ユーザーは Qiniu Yunti を使用できます

MySQL テーブル設計の実践: 電子商取引注文テーブルと製品レビュー テーブルを作成する MySQL テーブル設計の実践: 電子商取引注文テーブルと製品レビュー テーブルを作成する Jul 03, 2023 am 08:07 AM

MySQL テーブル設計の実践: 電子商取引の注文テーブルと製品レビュー テーブルの作成 電子商取引プラットフォームのデータベースでは、注文テーブルと製品レビュー テーブルは 2 つの非常に重要なテーブルです。この記事では、MySQL を使用してこれら 2 つのテーブルを設計および作成する方法を紹介し、コード例を示します。 1. 注文テーブルの設計と作成 注文テーブルは、注文番号、ユーザー ID、製品 ID、購入数量、注文ステータスなどのフィールドを含むユーザーの購入情報を保存するために使用されます。まず、CREATET を使用して「order」という名前のテーブルを作成する必要があります。

Golang実戦:データエクスポート機能の実装ヒントを共有 Golang実戦:データエクスポート機能の実装ヒントを共有 Feb 29, 2024 am 09:00 AM

データ エクスポート機能は、実際の開発、特にバックエンド管理システムやデータ レポートのエクスポートなどのシナリオで非常に一般的な要件です。この記事では、Golang 言語を例として、データ エクスポート機能の実装スキルを共有し、具体的なコード例を示します。 1. 環境の準備 開始する前に、Golang 環境がインストールされており、Golang の基本的な構文と操作に精通していることを確認してください。さらに、データ エクスポート機能を実装するには、github.com/360EntSec などのサードパーティ ライブラリの使用が必要になる場合があります。

uniapp とミニ プログラム (写真とテキスト) を下請けに出す方法を段階的に説明します。 uniapp とミニ プログラム (写真とテキスト) を下請けに出す方法を段階的に説明します。 Jul 22, 2022 pm 04:55 PM

この記事では、uniapp クロスドメインに関する関連知識を提供し、uniapp およびミニ プログラムのサブコントラクトに関連する問題を紹介します。サブコントラクトを使用する各ミニ プログラムには、メイン パッケージが含まれている必要があります。いわゆるメイン パッケージには、デフォルトのスタートアップ ページ/TabBar ページと、すべてのサブパッケージが使用する必要があるいくつかのパブリック リソース/JS スクリプトが配置されます。一方、サブパッケージは開発者の構成に従って分割されます。皆さんのお役に立てば幸いです。

Elasticsearchのクエリ構文と実践的な戦闘についての徹底的な研究 Elasticsearchのクエリ構文と実践的な戦闘についての徹底的な研究 Oct 03, 2023 am 08:42 AM

Elasticsearch クエリ構文の詳細な研究と実践的な導入: Elasticsearch は、Lucene に基づくオープンソースの検索エンジンです。主に分散検索と分析に使用されます。大規模データの全文検索、ログ分析に広く使用されています。 、推奨システムおよびその他のシナリオ。データ クエリに Elasticsearch を使用する場合、クエリ構文を柔軟に使用することがクエリ効率を向上させる鍵となります。この記事では、Elasticsearch のクエリ構文を詳しく説明し、実際のケースに基づいて説明します。

Vue の実践: 日付ピッカー コンポーネントの開発 Vue の実践: 日付ピッカー コンポーネントの開発 Nov 24, 2023 am 09:03 AM

Vue 実践戦闘: 日付ピッカー コンポーネント開発 はじめに: 日付ピッカーは日常の開発でよく使用されるコンポーネントで、簡単に日付を選択でき、さまざまな設定オプションが提供されます。この記事では、Vue フレームワークを使用して単純な日付ピッカー コンポーネントを開発する方法を紹介し、具体的なコード例を示します。 1. 要求分析 開発を始める前に、コンポーネントの機能や特徴を明確にするために要求分析を行う必要があります。一般的な日付ピッカー コンポーネントの機能に従って、次の機能ポイントを実装する必要があります。 基本機能: 日付を選択でき、

See all articles