Scrapy が大学のニュースレポートの例をキャプチャ-Python チュートリアル-php.cn

実験プロセス

クローラーでは、以下を実装します。機能ポイント:

テストに合格しました。 !

4.获得抓取数据

ホームページ

バックエンド開発

Python チュートリアル

Scrapy が大学のニュースレポートの例をキャプチャ

PHP中文网

Jun 21, 2017 am 10:47 AM

scrapy カレッジクロール報告ニュース

四川大学行政学院の公式 Web サイトからすべてのニュースに関する問い合わせを受信します ()。

実験プロセス

1. クローリングターゲットを決定します。

2. クローリングルールを作成します。
3.
4. クロールされたデータを取得します

1. クロール対象を決定します

今回クロールする対象は四川大学公共政策管理学院のすべてのニュース情報ですので、レイアウト構造を知る必要があります。

WeChat Screenshot_20170515223045.png

ここで、すべてのニュース情報をキャプチャしたい場合、公式 Web サイトのホームページでは直接キャプチャできないことがわかりました。一般的なニュース列に入るには、[詳細] をクリックする必要があります。

Paste_Image .png

特定のニュース列を見ましたが、これは明らかにクロールのニーズを満たしていません。現在のニュース Web ページはクロールのみ可能です。ニュースの時刻、タイトル、URL はクロールできませんが、ニュースの詳細ページに移動して、ニュースの特定のコンテンツをキャプチャする必要があります

を通じて。最初の部分の分析では、ニュースの特定の情報を取得したい場合は、ニュースページをクリックしてニュースの詳細ページに入り、ニュースの特定の内容を取得する必要があると考えます。試してみてください

Paste_Image.png

ニュースの詳細ページで必要なものを直接取得できることがわかりました。データ: タイトル、時間、内容。URL。

さて、これで、次のアイデアがわかりました。ニュースを取得します。しかし、すべてのニュースコンテンツをクロールするにはどうすればよいでしょうか?

これは私たちにとって明らかに難しいことではありません。

その後、ニュース列の下部にページジャンプボタンが表示されます。

それでは、考えを整理した後、明らかなキャプチャのルールを考えることができます:
「ニュースセクション」の下にあるすべてのニュースリンクをキャッチし、ニュースの詳細リンクを入力してすべてのニュースを取得します。

3. 「書き込み/デバッグ」クローリングルール

クローラーをデバッグするために、できるだけ粒度を小さくして、書き込みモジュールとデバッグモジュールを組み合わせます

クローラーでは、以下を実装します。機能ポイント:

1. ページのニュース列の下にあるすべてのニュースリンクをクロールします

2. クロールされたニュースリンクにニュースの詳細が入力され、必要なデータ (主にニュースコンテンツ) がクロールされます

3.

対応するナレッジポイントは次のとおりです。

1. クロールする。

2. クロールされたデータをすべてクロールします。ページをループします

さっそく始めましょう
3.1 1 ページのニュース列の下にあるすべてのニュースリンクを表示します

のソースコードを分析します。ニュース列で、キャプチャされたデータの構造が

Paste_Image.png

であることがわかりました。その後、クローラーのセレクターを (li:newsinfo_box_cf) に配置し、for ループを実行してクロールするだけです。

コードを書いてください

import scrapyclass News2Spider(scrapy.Spider):
    name = "news_info_2"
    start_urls = ["http://ggglxy.scu.edu.cn/index.php?c=special&sid=1&page=1",
    ]def parse(self, response):for href in response.xpath("//div[@class=&#39;newsinfo_box cf&#39;]"):
            url = response.urljoin(href.xpath("div[@class=&#39;news_c fr&#39;]/h3/a/@href").extract_first())

ログイン後にコピー

テストして合格してください!

Paste_Image.png

3.2 クロールされたニュースリンクからニュースの詳細を入力し、必要なデータ (主にニュースコンテンツ) をクロールします

これで、必要なタイトルをクロールするには、各 URL を入力する必要があります。元のコードが URL をキャプチャするときは、URL を入力して対応するデータをキャプチャするだけで済みます。したがって、ニュースの詳細ページに入るために別のキャプチャメソッドを作成するだけで済み、

コードを記述して

#进入新闻详情页的抓取方法
def parse_dir_contents(self, response):item = GgglxyItem()item[&#39;date&#39;] = response.xpath("//div[@class=&#39;detail_zy_title&#39;]/p/text()").extract_first()item[&#39;href&#39;] = responseitem[&#39;title&#39;] = response.xpath("//div[@class=&#39;detail_zy_title&#39;]/h1/text()").extract_first()
        data = response.xpath("//div[@class=&#39;detail_zy_c pb30 mb30&#39;]")item[&#39;content&#39;] = data[0].xpath(&#39;string(.)&#39;).extract()[0]
        yield item

ログイン後にコピー

を呼び出すだけです:

import scrapyfrom ggglxy.items import GgglxyItemclass News2Spider(scrapy.Spider):
    name = "news_info_2"
    start_urls = ["http://ggglxy.scu.edu.cn/index.php?c=special&sid=1&page=1",
    ]def parse(self, response):for href in response.xpath("//div[@class=&#39;newsinfo_box cf&#39;]"):
            url = response.urljoin(href.xpath("div[@class=&#39;news_c fr&#39;]/h3/a/@href").extract_first())#调用新闻抓取方法yield scrapy.Request(url, callback=self.parse_dir_contents)#进入新闻详情页的抓取方法                def parse_dir_contents(self, response):
            item = GgglxyItem()
            item[&#39;date&#39;] = response.xpath("//div[@class=&#39;detail_zy_title&#39;]/p/text()").extract_first()
            item[&#39;href&#39;] = response
            item[&#39;title&#39;] = response.xpath("//div[@class=&#39;detail_zy_title&#39;]/h1/text()").extract_first()
            data = response.xpath("//div[@class=&#39;detail_zy_c pb30 mb30&#39;]")
            item[&#39;content&#39;] = data[0].xpath(&#39;string(.)&#39;).extract()[0]yield item

ログイン後にコピー

テストに合格しました。 !

Paste_Image.png

この時点で、ループを追加します:

NEXT_PAGE_NUM = 1 

NEXT_PAGE_NUM = NEXT_PAGE_NUM + 1if NEXT_PAGE_NUM<11:next_url = &#39;http://ggglxy.scu.edu.cn/index.php?c=special&sid=1&page=%s&#39; % NEXT_PAGE_NUM
            yield scrapy.Request(next_url, callback=self.parse)

ログイン後にコピー

元のコードに追加:

import scrapyfrom ggglxy.items import GgglxyItem

NEXT_PAGE_NUM = 1class News2Spider(scrapy.Spider):
    name = "news_info_2"
    start_urls = ["http://ggglxy.scu.edu.cn/index.php?c=special&sid=1&page=1",
    ]def parse(self, response):for href in response.xpath("//div[@class=&#39;newsinfo_box cf&#39;]"):
            URL = response.urljoin(href.xpath("div[@class=&#39;news_c fr&#39;]/h3/a/@href").extract_first())yield scrapy.Request(URL, callback=self.parse_dir_contents)global NEXT_PAGE_NUM
        NEXT_PAGE_NUM = NEXT_PAGE_NUM + 1if NEXT_PAGE_NUM<11:
            next_url = &#39;http://ggglxy.scu.edu.cn/index.php?c=special&sid=1&page=%s&#39; % NEXT_PAGE_NUMyield scrapy.Request(next_url, callback=self.parse) def parse_dir_contents(self, response):
            item = GgglxyItem() 
            item[&#39;date&#39;] = response.xpath("//div[@class=&#39;detail_zy_title&#39;]/p/text()").extract_first()
            item[&#39;href&#39;] = response 
            item[&#39;title&#39;] = response.xpath("//div[@class=&#39;detail_zy_title&#39;]/h1/text()").extract_first()
            data = response.xpath("//div[@class=&#39;detail_zy_c pb30 mb30&#39;]")
            item[&#39;content&#39;] = data[0].xpath(&#39;string(.)&#39;).extract()[0] yield item

ログイン後にコピー

Test:

Paste_Image.png

抓到的数量为191,但是我们看官网发现有193条新闻,少了两条.
为啥呢?我们注意到log的error有两条:
定位问题:原来发现,学院的新闻栏目还有两条隐藏的二级栏目:
比如:

Paste_Image.png

对应的URL为

Paste_Image.png

URL都长的不一样,难怪抓不到了!
那么我们还得为这两条二级栏目的URL设定专门的规则,只需要加入判断是否为二级栏目:

  if URL.find(&#39;type&#39;) != -1:      yield scrapy.Request(URL, callback=self.parse)

ログイン後にコピー

组装原函数:

import scrapy
from ggglxy.items import GgglxyItem

NEXT_PAGE_NUM = 1class News2Spider(scrapy.Spider):
    name = "news_info_2"
    start_urls = ["http://ggglxy.scu.edu.cn/index.php?c=special&sid=1&page=1",
    ]def parse(self, response):for href in response.xpath("//div[@class=&#39;newsinfo_box cf&#39;]"):
            URL = response.urljoin(href.xpath("div[@class=&#39;news_c fr&#39;]/h3/a/@href").extract_first())if URL.find(&#39;type&#39;) != -1:yield scrapy.Request(URL, callback=self.parse)yield scrapy.Request(URL, callback=self.parse_dir_contents)
        global NEXT_PAGE_NUM
        NEXT_PAGE_NUM = NEXT_PAGE_NUM + 1if NEXT_PAGE_NUM<11:
            next_url = &#39;http://ggglxy.scu.edu.cn/index.php?c=special&sid=1&page=%s&#39; % NEXT_PAGE_NUMyield scrapy.Request(next_url, callback=self.parse) def parse_dir_contents(self, response):
            item = GgglxyItem() 
            item[&#39;date&#39;] = response.xpath("//div[@class=&#39;detail_zy_title&#39;]/p/text()").extract_first()
            item[&#39;href&#39;] = response 
            item[&#39;title&#39;] = response.xpath("//div[@class=&#39;detail_zy_title&#39;]/h1/text()").extract_first()
            data = response.xpath("//div[@class=&#39;detail_zy_c pb30 mb30&#39;]")
            item[&#39;content&#39;] = data[0].xpath(&#39;string(.)&#39;).extract()[0] yield item

ログイン後にコピー

测试:

Paste_Image.png

我们发现,抓取的数据由以前的193条增加到了238条,log里面也没有error了,说明我们的抓取规则OK!

4.获得抓取数据

<code class="haxe">     scrapy crawl <span class="hljs-keyword">new<span class="hljs-type">s_info_2 -o <span class="hljs-number">0016.json</span></span></span></code><br/><br/>

ログイン後にコピー

以上がScrapy が大学のニュースレポートの例をキャプチャの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7486

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Scrapy は WeChat パブリックアカウント記事のクロールと分析を実装します Jun 22, 2023 am 09:41 AM

Scrapy は記事のクローリングと WeChat パブリックアカウントの分析を実装します近年人気のソーシャルメディアアプリケーションである WeChat で運用されているパブリックアカウントも非常に重要な役割を果たしています。誰もが知っているように、WeChat の公開アカウントは記事、グラフィックメッセージ、その他の情報を公開できるため、情報と知識の海です。この情報は、メディア報道、学術研究など、さまざまな分野で広く使用できます。そこで、この記事では、Scrapy フレームワークを使用して WeChat パブリックアカウントの記事をクロールおよび分析する方法を紹介します。 Scr

AjaxベースのScrapy非同期読み込み実装方法 Jun 22, 2023 pm 11:09 PM

Scrapy は、Web サイトからデータを迅速かつ効率的に取得できるオープンソースの Python クローラーフレームワークです。ただし、多くの Web サイトでは Ajax 非同期読み込みテクノロジーが使用されているため、Scrapy がデータを直接取得することはできません。この記事では、Ajax 非同期読み込みをベースとした Scrapy の実装方法を紹介します。 1. Ajax 非同期ロードの原則 Ajax 非同期ロード: 従来のページロード方法では、ブラウザがサーバーにリクエストを送信した後、サーバーが応答を返してページ全体をロードするまで待ってから、次のステップに進む必要があります。

悪質なケース分析: LinkedIn で企業情報をクロールする方法 Jun 23, 2023 am 10:04 AM

Scrapy は、インターネット上の関連情報を迅速かつ簡単に取得できる Python ベースのクローラーフレームワークです。この記事では、Scrapy のケースを使用して、LinkedIn で企業情報をクロールする方法を詳細に分析します。ターゲット URL を決定するまず、ターゲットが LinkedIn 上の企業情報であることを明確にする必要があります。したがって、LinkedIn の企業情報ページの URL を見つける必要があります。 LinkedIn Web サイトを開き、検索ボックスに会社名を入力し、

Scrapy 最適化のヒント: 重複 URL のクロールを減らし、効率を向上させる方法 Jun 22, 2023 pm 01:57 PM

Scrapy は、インターネットから大量のデータを取得するために使用できる強力な Python クローラーフレームワークです。ただし、Scrapy を開発する場合、重複した URL をクロールするという問題が頻繁に発生します。これは、多くの時間とリソースを無駄にし、効率に影響を与えます。この記事では、重複 URL のクロールを減らし、Scrapy クローラーの効率を向上させるための Scrapy 最適化テクニックをいくつか紹介します。 1. Scrapy クローラーの start_urls 属性と allowed_domains 属性を使用して、

Windows 10 でニュースや興味のあるコンテンツを開く方法 Jan 13, 2024 pm 05:54 PM

Windows 10 オペレーティングシステムをこよなく愛するユーザーは、デスクトップの右下隅に表示される情報と興味に関する推奨機能に気づいたはずです。この機能は、あらゆる種類の興味深いニュース情報を適切なタイミングで表示しますが、ユーザーによっては面倒に感じてオフにすることもあれば、有効にしておくというユーザーもいます。現時点では、次の詳細な手順を使用して、いつでもどこでもこれらの設定を簡単に調整できます。 win10 でニュースや興味のあるものを開く方法 1. まず win+R を押し、次に「winver」と入力して Enter を押すと、コンピューターのバージョン情報を確認して、21h1 バージョンであるかどうかを確認できます。 2. タスクバーを右クリックし、「情報と興味」を選択します。 3. ここで

PHPを使用したInstagram情報のスクレイピング例 Jun 13, 2023 pm 06:26 PM

Instagram は、今日最も人気のあるソーシャルメディアの 1 つであり、数億人のアクティブユーザーがいます。ユーザーは何十億もの写真やビデオをアップロードしており、このデータは多くの企業や個人にとって非常に貴重です。したがって、多くの場合、Instagramのデータを自動的にスクレイピングするプログラムを使用する必要があります。この記事では、PHPを使ってInstagramのデータを取り込む方法と実装例を紹介します。 PHP の cURL 拡張機能をインストールする cURL は、さまざまな用途で使用されるツールです。

Scrapy クローラーでの Selenium と PhantomJS の使用 Jun 22, 2023 pm 06:03 PM

Scrapy クローラーでの Selenium と PhantomJS の使用 Scrapy は、Python 上の優れた Web クローラーフレームワークであり、さまざまな分野のデータ収集と処理に広く使用されています。クローラーの実装では、特定の Web サイトが提供するコンテンツを取得するためにブラウザーの操作をシミュレートする必要がある場合があり、この場合には Selenium と PhantomJS が必要になります。 Selenium はブラウザ上で人間の操作をシミュレートし、Web アプリケーションのテストを自動化します。

Scrapy の詳細な使用法: HTML、XML、および JSON データをクロールする方法? Jun 22, 2023 pm 05:58 PM

Scrapy は、インターネット上のデータを迅速かつ柔軟に取得するのに役立つ強力な Python クローラーフレームワークです。実際のクローリングのプロセスでは、HTML、XML、JSON などのさまざまなデータ形式に遭遇することがよくあります。この記事では、Scrapyを使用してこれら3つのデータ形式をそれぞれクロールする方法を紹介します。 1. HTML データをクロールして Scrapy プロジェクトを作成するまず、Scrapy プロジェクトを作成する必要があります。コマンドラインを開き、次のコマンドを入力します:scrapys

See all articles

Scrapy が大学のニュースレポートの例をキャプチャ

実験プロセス

クローラーでは、以下を実装します。機能ポイント:

テストに合格しました。 !

4.获得抓取数据

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック