ネットワーク段落ページクローラーの Python 実装ケース-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

ネットワーク段落ページクローラーの Python 実装ケース

Y2J

May 10, 2017 pm 01:20 PM

python

インターネット上の Python チュートリアルのほとんどはバージョン 2.X です。python3.X と比較すると、多くのライブラリの使用方法が大きく異なります。私は Python3 をインストールしました

。春節（なんて暇なんだ）、冗談を兼ねて簡単なプログラムを書き、プログラムを書く過程を記録してみました。私が初めてクローラーに出会ったのは、このような投稿を見たときでした。オムレットで女の子の写真をクロールするという面白い投稿でした。そこで私も猫や虎の真似をして

写真

を撮り始めました。テクノロジーは未来にインスピレーションを与えます。プログラマーとして、どうしてそのようなことができるでしょうか?

0x02

腕まくりをして始める前に、まず理論的な知識を広めていきましょう。

簡単に言えば、Web ページ上の特定の場所にコンテンツをプルダウンする必要があります。どのようにプルダウンするか? まず、Web ページを分析して、必要なコンテンツを確認する必要があります。例えば、今回クロールしたのは、爆笑サイトのジョークです。爆笑サイトのジョークページを開くと、たくさんのジョークが表示されます。読んでから落ち着いてください。こんなふうに笑っていたらコードは書けません。

chr

ome では、inspect 要素を開いて HTML タグをレベルごとに展開するか、小さなマウスをクリックして必要な要素を見つけます。

最後に、

の内容が必要なジョークであることがわかります。2 番目のジョークを見ると、同じことが当てはまります。したがって、この Web ページ内のすべての

を見つけて、その中のコンテンツを抽出すれば完了です。

0x03

さて、目的はわかったので、腕まくりをして始めましょう。ここでは python3 を使用します。python2 と python3 の選択については、実現できる機能は自由ですが、いくつかの違いがあります。ただし、依然として python3 を使用することをお勧めします。

必要なコンテンツをプルダウンしたいのですが、まずこの Web ページをプルダウンする必要があります。ここでは、urllib というライブラリを使用して Web 全体を取得する必要があります。ページ。

まず、urllibをインポートします

コードは次のとおりです:

 import urllib.request as request

ログイン後にコピー

次に、リクエストを使用してWebページを取得できます

コードは次のとおりです:

def getHTML(url):

return request.urlopen(url).read()

ログイン後にコピー

人生は短いです。Web ページをダウンロードするのに 1 行のコードで Python を使用します。Python を使用しない理由はありますか。

Web ページをダウンロードした後、Web ページを解析して必要な要素を取得する必要があります。要素を解析するには、Beautiful Soup という別のツールを使用する必要があります。これを使用すると、HTML と

XML
をすばやく解析して、必要な要素を取得できます。
コードは次のとおりです:

soup = BeautifulSoup(getHTML("http://www.pengfu.com/xiaohua_1.html"))

ログイン後にコピー

BeautifulSoupを使用してWebページを解析するのはたったの1文ですが、コードを実行すると、このような警告が表示され、パーサーを指定するように求められます。そうしないと、機能しない可能性があります。他のプラットフォームまたはシステムの場合は、エラーを報告してください。

コードは次のとおりです:

/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/bs4/init.py:181: UserWarning: No parser was explicitly specified, so I&#39;m using the best available HTML parser for this system ("lxml"). This usually isn&#39;t a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.
The code that caused this warning is on line 64 of the file joke.py. To get rid of this warning, change code that looks like this:
 BeautifulSoup([your markup])
to this:
 BeautifulSoup([your markup], "lxml")
  markup_type=markup_type))

ログイン後にコピー

パーサーの種類とさまざまなパーサーの違いについては、公式ドキュメントに詳細な手順が記載されています。現時点では、lxml 解析を使用する方が確実です。

修正後

コードは以下の通りです:

soup = BeautifulSoup(getHTML("http://www.pengfu.com/xiaohua_1.html", &#39;lxml&#39;))

ログイン後にコピー

このようにすると、上記の警告は出なくなります。

コードは次のとおりです:

p_array = soup.find_all(&#39;p&#39;, {&#39;class&#39;:"content-img clearfix pt10 relative"})

ログイン後にコピー

find_all

function

を使用して、class = content-img clearfix pt10相対のすべてのpタグを検索し、この配列を走査します。コードは次のとおりです:

for x in p_array: content = x.string

ログイン後にコピー

この中でこのようにして、ターゲットの p コンテンツを取得します。この時点で、私たちは目標を達成し、冗談の範囲まで登りました。

しかし、同じ方法でクロールすると、このようなエラーが報告されます

コードは次のとおりです:

raise RemoteDisconnected("Remote end closed connection without" http.client.RemoteDisconnected: Remote end closed connection without response

ログイン後にコピー

说远端无响应，关闭了链接，看了下网络也没有问题，这是什么情况导致的呢？莫非是我姿势不对？
打开 charles 抓包，果然也没反应。唉，这就奇怪了，好好的一个网站，怎么浏览器可以访问，python 无法访问呢，是不是 UA 的问题呢？看了下 charles，发现，利用 urllib 发起的请求，UA 默认是 Python-urllib/3.5 而在 chrome 中访问 UA 则是 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36，那会不会是因为服务器根据 UA 来判断拒绝了 python 爬虫。我们来伪装下试试看行不行

代码如下:

def getHTML(url):
    
head
ers = {&#39;User-Agent&#39;: &#39;User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36&#39;}
    req = request.Request(url, headers=headers)
    return request.urlopen(req).read()

ログイン後にコピー

这样就把 python 伪装成 chrome 去获取糗百的网页，可以顺利的得到数据。

至此，利用 python 爬取糗百和捧腹网的笑话已经结束，我们只需要分析相应的网页，找到我们感兴趣的元素，利用 python 强大的功能，就可以达到我们的目的，不管是 XXOO 的图，还是内涵段子，都可以一键搞定，不说了，我去找点妹子图看看。

# -*- coding: utf-8 -*-
import sys
import urllib.request as request
from bs4 import BeautifulSoup

def getHTML(url):
  headers = {&#39;User-Agent&#39;: &#39;User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36&#39;}
  req = request.Request(url, headers=headers)
  return request.urlopen(req).read()

def get_pengfu_results(url):
  soup = BeautifulSoup(getHTML(url), &#39;lxml&#39;)
  return soup.find_all(&#39;p&#39;, {&#39;class&#39;:"content-img clearfix pt10 relative"})

def get_pengfu_joke():
  for x in range(1, 2):
    url = &#39;http://www.pengfu.com/xiaohua_%d.html&#39; % x
    for x in get_pengfu_results(url):
      content = x.string
      try:
        string = content.lstrip()
        print(string + &#39;\n\n&#39;)
      except:
        continue
  return

def get_qiubai_results(url):
  soup = BeautifulSoup(getHTML(url), &#39;lxml&#39;)
  contents = soup.find_all(&#39;p&#39;, {&#39;class&#39;:&#39;content&#39;})
  restlus = []
  for x in contents:
    str = x.find(&#39;span&#39;).getText(&#39;\n&#39;,&#39;<br/>&#39;)
    restlus.append(str)
  return restlus

def get_qiubai_joke():
  for x in range(1, 2):
    url = &#39;http://www.qiushibaike.com/8hr/page/%d/?s=4952526&#39; % x
    for x in get_qiubai_results(url):
      print(x + &#39;\n\n&#39;)
  return

if name == &#39;main&#39;:
  get_pengfu_joke()
  get_qiubai_joke()

ログイン後にコピー

【相关推荐】

1. Python免费视频教程

2. Python面向对象视频教程

3. Python基础入门手册

以上がネットワーク段落ページクローラーの Python 実装ケースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7756

Java チュートリアル

1643

CakePHP チュートリアル

1399

Laravel チュートリアル

1293

PHP チュートリアル

1234

Related knowledge

PHPおよびPython：さまざまなパラダイムが説明されています Apr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング（OOP）もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPythonの選択：ガイド Apr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

Python vs. JavaScript：学習曲線と使いやすさ Apr 16, 2025 am 12:12 AM

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

PHPとPython：彼らの歴史を深く掘り下げます Apr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

Windows 8でコードを実行できます Apr 15, 2025 pm 07:24 PM

VSコードはWindows 8で実行できますが、エクスペリエンスは大きくない場合があります。まず、システムが最新のパッチに更新されていることを確認してから、システムアーキテクチャに一致するVSコードインストールパッケージをダウンロードして、プロンプトとしてインストールします。インストール後、一部の拡張機能はWindows 8と互換性があり、代替拡張機能を探すか、仮想マシンで新しいWindowsシステムを使用する必要があることに注意してください。必要な拡張機能をインストールして、適切に動作するかどうかを確認します。 Windows 8ではVSコードは実行可能ですが、開発エクスペリエンスとセキュリティを向上させるために、新しいWindowsシステムにアップグレードすることをお勧めします。

Visual StudioコードはPythonで使用できますか Apr 15, 2025 pm 08:18 PM

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

ターミナルVSCODEでプログラムを実行する方法 Apr 15, 2025 pm 06:42 PM

VSコードでは、次の手順を通じて端末でプログラムを実行できます。コードを準備し、統合端子を開き、コードディレクトリが端末作業ディレクトリと一致していることを確認します。プログラミング言語（pythonのpython your_file_name.pyなど）に従って実行コマンドを選択して、それが正常に実行されるかどうかを確認し、エラーを解決します。デバッガーを使用して、デバッグ効率を向上させます。

VSCODE拡張機能は悪意がありますか？ Apr 15, 2025 pm 07:57 PM

VSコード拡張機能は、悪意のあるコードの隠れ、脆弱性の活用、合法的な拡張機能としての自慰行為など、悪意のあるリスクを引き起こします。悪意のある拡張機能を識別する方法には、パブリッシャーのチェック、コメントの読み取り、コードのチェック、およびインストールに注意してください。セキュリティ対策には、セキュリティ認識、良好な習慣、定期的な更新、ウイルス対策ソフトウェアも含まれます。

See all articles

ネットワーク段落ページ クローラーの Python 実装ケース

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

ネットワーク段落ページクローラーの Python 実装ケース