ホームページ > バックエンド開発 > Python チュートリアル > Python で Web ページにアクセスしてクロールするために使用される一般的なコマンドの例の詳細な説明

Python で Web ページにアクセスしてクロールするために使用される一般的なコマンドの例の詳細な説明

Y2J
リリース: 2017-04-25 09:22:13
オリジナル
2035 人が閲覧しました

この記事では、Web ページにアクセスしてクロールするための Python の一般的なコマンドに関する関連情報を主に紹介します。必要な友達は参照してください

Web ページにアクセスしてクロールするための Python の一般的なコマンド

Web ページの簡単なクロール:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()
ログイン後にコピー

URLをローカルファイルとして直接保存:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()
ログイン後にコピー

POSTメソッド:

import urllib.parse 
import urllib.request 
url="http://liuxin-blog.appspot.com/messageboard/add" 
values={"content":"命令行发出网页请求测试"} 
data=urllib.parse.urlencode(values) 

#创建请求对象 
req=urllib.request.Request(url,data) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()
ログイン後にコピー

GETメソッド:

import urllib.parse 
import urllib.request 
url="http://www.google.cn/webhp" 
values={"rls":"ig"} 
data=urllib.parse.urlencode(values) 
theurl=url+"?"+data 
#创建请求对象 
req=urllib.request.Request(theurl) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()
ログイン後にコピー

一般的に使用されるメソッドはgeturl()、info()の2つです

geturl () はサーバー側 URL リダイレクトの有無を識別するように設定されており、info() には一連の情報が含まれています。

中国語の問題を処理するには、encode() エンコードと dencode() デコードが使用されます。

以上がPython で Web ページにアクセスしてクロールするために使用される一般的なコマンドの例の詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート