Python での実践的なクローラー戦闘: Maoyan ムービークローラー-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python での実践的なクローラー戦闘: Maoyan ムービークローラー

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 10, 2023 pm 12:27 PM

実戦 Python クローラーまおやん映画

インターネット技術の急速な発展に伴い、インターネット上の情報量はますます増大しています。 Maoyan Movies は国内有数の映画データプラットフォームとして、ユーザーに総合的な映画情報サービスを提供しています。この記事では、Python を使用して、映画関連のデータを取得する簡単な Maoyan ムービークローラーを作成する方法を紹介します。

クローラーの概要

クローラー、または Web クローラーは、インターネットデータを自動的に取得するプログラムです。インターネット上のリンクを通じて対象のWebサイトにアクセスし、データを取得することができ、情報収集の自動化を実現します。 Python は、データ処理、Web クローラー、ビジュアルチャートなどで広く使用されている強力なプログラミング言語です。

クローラーの実装

この記事の Maoyan ムービークローラーは、Python のリクエストと BeautifulSoup ライブラリを通じて実装されます。 Requests は Web ページリクエストを簡単に送信できる Python HTTP ライブラリであり、BeautifulSoup は HTML ページをすばやく解析できる Python の HTML 解析ライブラリです。開始する前に、これら 2 つのライブラリをインストールする必要があります。

2.1 ライブラリのインポート

Python エディターを開き、新しい Python ファイルを作成します。まず、必要なライブラリをインポートする必要があります。

import requests
from bs4 import BeautifulSoup
import csv

ログイン後にコピー

2.2 リクエストリンクの作成

次に、リクエストリンクを作成します。 Maoyan Movie Web サイトを開き、対象の映画へのリンクを見つけてコピーします。映画「刑事チャイナタウン 3」を例に挙げます:

url = 'https://maoyan.com/films/1250952'

ログイン後にコピー

2.3 リクエストの送信

ヘッダーを作成し、リクエストヘッダー情報を設定します。ヘッダー情報には通常、User-Agent、Referer、Cookie が含まれます。 Webページにアクセスする実際のブラウザのリクエストメソッドをシミュレートします。ここでは Chrome ブラウザを例として説明します。次に、リクエストライブラリを使用してリクエストを送信し、Web ページの HTML コードを取得します。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url,headers=headers)
html = response.text

ログイン後にコピー

2.4 HTML コードを解析する

取得した HTML コードを BeautifulSoup オブジェクトに変換し、BeautifulSoup ライブラリを使用します。 HTML コードを解析し、ターゲットデータを取得します。 Maoyan movie Web サイトの HTML コード構造は比較的複雑であるため、HTML と BeautifulSoup に関する深い知識が必要です。

soup = BeautifulSoup(html,'html.parser')
movie_title = soup.find('h1',class_='name').text
movie_info = soup.find_all('div',class_='movie-brief-container')[0]
movie_type = movie_info.find_all('li')[0].text 
movie_release_data = movie_info.find_all('li')[2].text 
movie_actors = movie_info.find_all('li')[1].text 
movie_score = soup.find('span',class_='score-num').text

ログイン後にコピー

2.5 データの保存

HTML ページを処理した後、取得したデータをローカルに保存する必要があります。ここでは、Python の csv ライブラリを使用してデータを保存します。 csv ライブラリは、後続の処理を容易にするためにデータを CSV 形式に変換できます。

with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称',movie_title])
    writer.writerow(['电影类型',movie_type])
    writer.writerow(['上映日期',movie_release_data])
    writer.writerow(['演员阵容',movie_actors])
    writer.writerow(['豆瓣评分',movie_score])

ログイン後にコピー

コード全体は次のとおりです:

import requests
from bs4 import BeautifulSoup
import csv

url = 'https://maoyan.com/films/1250952'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url,headers=headers)
html = response.text
soup = BeautifulSoup(html,'html.parser')
movie_title = soup.find('h1',class_='name').text
movie_info = soup.find_all('div',class_='movie-brief-container')[0]
movie_type = movie_info.find_all('li')[0].text 
movie_release_data = movie_info.find_all('li')[2].text 
movie_actors = movie_info.find_all('li')[1].text 
movie_score = soup.find('span',class_='score-num').text 
with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称',movie_title])
    writer.writerow(['电影类型',movie_type])
    writer.writerow(['上映日期',movie_release_data])
    writer.writerow(['演员阵容',movie_actors])
    writer.writerow(['豆瓣评分',movie_score])

ログイン後にコピー

概要

この記事では、Python のリクエストと BeautifulSoup ライブラリを使用して Maoyan ムービーを実装する方法を紹介します。昇降補助具。ネットワークリクエストの送信、HTML コードの解析、データの保存などの手順により、目的の映画関連データを簡単に取得し、ローカルに保存できます。 Web クローラーテクノロジーは、データ収集、データマイニングなどにおいて広範な応用価値を持っています。私たちは継続的な学習を通じて技術レベルを向上させ、実際に探究し続けることができます。

以上がPython での実践的なクローラー戦闘: Maoyan ムービークローラーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7672

CakePHP チュートリアル

1393

C# チュートリアル

1206

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

Python での実践的なクローラー戦闘: Toutiao クローラー Jun 10, 2023 pm 01:00 PM

Python での実践的なクローラー戦闘: 今日の Toutiao クローラー今日の情報化時代において、インターネットには大量のデータが含まれており、このデータを分析や応用に使用する需要はますます高まっています。データ収集を達成するための技術的手段の 1 つとして、クローラは人気のある研究分野の 1 つでもあります。この記事では主に Python の実際のクローラーを紹介し、Python を使用して Toutiao のクローラープログラムを作成する方法に焦点を当てます。クローラーの基本概念 Python で実際のクローラー戦闘を導入する前に、まず理解する必要があります。

PHP 実践: フィボナッチ数列をすばやく実装するコード例 Mar 20, 2024 pm 02:24 PM

PHP の実践: フィボナッチ数列をすばやく実装するためのコード例フィボナッチ数列は、数学では非常に興味深い一般的な数列です。次のように定義されています: 最初と 2 番目の数値は 0 と 1、3 番目からは数値で始まり、それぞれの数値前の 2 つの数値の合計です。フィボナッチ数列の最初のいくつかの数値は、0、1、1.2、3、5、8、13、21 などです。 PHP では、再帰と反復を通じてフィボナッチ数列を生成できます。以下ではこの２つを紹介していきます

Java 開発の実践: Qiniu クラウドストレージサービスを統合してファイルのアップロードを実現する Jul 06, 2023 pm 06:22 PM

Java 開発実践: Qiniu クラウドストレージサービスを統合してファイルアップロードを実装するはじめにクラウドコンピューティングとクラウドストレージの発展に伴い、ストレージと管理のためにファイルをクラウドにアップロードする必要があるアプリケーションがますます増えています。クラウドストレージサービスの利点は、高い信頼性、拡張性、柔軟性です。この記事では、Java 言語開発の使用方法、Qiniu クラウドストレージサービスの統合方法、およびファイルアップロード機能の実装方法を紹介します。 Qiniu Cloud について Qiniu Cloud は、中国の大手クラウドストレージサービスプロバイダーであり、包括的なクラウドストレージおよびコンテンツ配信サービスを提供しています。ユーザーは Qiniu Yunti を使用できます

MySQL テーブル設計の実践: 電子商取引注文テーブルと製品レビューテーブルを作成する Jul 03, 2023 am 08:07 AM

MySQL テーブル設計の実践: 電子商取引の注文テーブルと製品レビューテーブルの作成電子商取引プラットフォームのデータベースでは、注文テーブルと製品レビューテーブルは 2 つの非常に重要なテーブルです。この記事では、MySQL を使用してこれら 2 つのテーブルを設計および作成する方法を紹介し、コード例を示します。 1. 注文テーブルの設計と作成注文テーブルは、注文番号、ユーザー ID、製品 ID、購入数量、注文ステータスなどのフィールドを含むユーザーの購入情報を保存するために使用されます。まず、CREATET を使用して「order」という名前のテーブルを作成する必要があります。

Golang実戦：データエクスポート機能の実装ヒントを共有 Feb 29, 2024 am 09:00 AM

データエクスポート機能は、実際の開発、特にバックエンド管理システムやデータレポートのエクスポートなどのシナリオで非常に一般的な要件です。この記事では、Golang 言語を例として、データエクスポート機能の実装スキルを共有し、具体的なコード例を示します。 1. 環境の準備開始する前に、Golang 環境がインストールされており、Golang の基本的な構文と操作に精通していることを確認してください。さらに、データエクスポート機能を実装するには、github.com/360EntSec などのサードパーティライブラリの使用が必要になる場合があります。

uniapp とミニプログラム (写真とテキスト) を下請けに出す方法を段階的に説明します。 Jul 22, 2022 pm 04:55 PM

この記事では、uniapp クロスドメインに関する関連知識を提供し、uniapp およびミニプログラムのサブコントラクトに関連する問題を紹介します。サブコントラクトを使用する各ミニプログラムには、メインパッケージが含まれている必要があります。いわゆるメインパッケージには、デフォルトのスタートアップページ/TabBar ページと、すべてのサブパッケージが使用する必要があるいくつかのパブリックリソース/JS スクリプトが配置されます。一方、サブパッケージは開発者の構成に従って分割されます。皆さんのお役に立てば幸いです。

Elasticsearchのクエリ構文と実践的な戦闘についての徹底的な研究 Oct 03, 2023 am 08:42 AM

Elasticsearch クエリ構文の詳細な研究と実践的な導入: Elasticsearch は、Lucene に基づくオープンソースの検索エンジンです。主に分散検索と分析に使用されます。大規模データの全文検索、ログ分析に広く使用されています。、推奨システムおよびその他のシナリオ。データクエリに Elasticsearch を使用する場合、クエリ構文を柔軟に使用することがクエリ効率を向上させる鍵となります。この記事では、Elasticsearch のクエリ構文を詳しく説明し、実際のケースに基づいて説明します。

Vue の実践: 日付ピッカーコンポーネントの開発 Nov 24, 2023 am 09:03 AM

Vue 実践戦闘: 日付ピッカーコンポーネント開発はじめに: 日付ピッカーは日常の開発でよく使用されるコンポーネントで、簡単に日付を選択でき、さまざまな設定オプションが提供されます。この記事では、Vue フレームワークを使用して単純な日付ピッカーコンポーネントを開発する方法を紹介し、具体的なコード例を示します。 1. 要求分析開発を始める前に、コンポーネントの機能や特徴を明確にするために要求分析を行う必要があります。一般的な日付ピッカーコンポーネントの機能に従って、次の機能ポイントを実装する必要があります。基本機能: 日付を選択でき、

See all articles

Python での実践的なクローラー戦闘: Maoyan ムービー クローラー

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Python での実践的なクローラー戦闘: Maoyan ムービークローラー