网页爬虫 - 关于Python的编码与解码问题
高洛峰
高洛峰 2017-04-18 10:31:42
0
4
595

在python2中用urllib模块去请求淘宝的IP地址查询接口,返回的是一段json字符串,如下所示:

import urllib


def get_data(ip):
    url = "http://ip.taobao.com/service/getIpInfo.php?ip=" + ip
    data = urllib.urlopen(url).read()

    return data


if __name__ == "__main__":
    result = get_data("59.151.5.5")
    print(result)

返回结果如下:

{"code":0,"data":{"country":"\u4e2d\u56fd","country_id":"CN","area":"\u534e\u5317","area_id":"100000","region":"\u5317\u4eac\u5e02","region_id":"110000","city":"\u5317\u4eac\u5e02","city_id":"110100","county":"","county_id":"-1","isp":"\u4e16\u7eaa\u4e92\u8054","isp_id":"100021","ip":"59.151.5.5"}}

在返回结果中,中文是以 unicode字符串表示,这样不方便阅读,我想让结果中中文部分直接用中文表示,就像下面这样:

"city":"北京","ISP":"中国电信"

如果是python3的话返回又是这样的:


    b'{"code":0,"data":{"country":"\\u4e2d\\u56fd","country_id":"CN","area":"\\u534e\\u5317","area_id":"100000","region":"\\u5317\\u4eac\\u5e02","region_id":"110000","city":"\\u5317\\u4eac\\u5e02","city_id":"110100","county":"","county_id":"-1","isp":"\\u4e16\\u7eaa\\u4e92\\u8054","isp_id":"100021","ip":"59.151.5.5"}}'

请问在 python2和python3中分别该如何转码呢?

高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

全員に返信(4)
伊谢尔伦

Python3 には問題を解決できる 2 つの方法があります:

  • print()関数

Python3 は UTF-8 として定義されたエンコーディングで始まるため、直接出力するだけです。

リーリー
  • Unicodeデータベースを利用する

組み込みライブラリがありますunicodedata、このライブラリでは次のように 2 つのメソッドを呼び出すことができます:

リーリー

さらに、文字を個別に処理する場合は、上記の方法を使用できますが、今回答した後、この種のオブジェクト処理は Python3 では非常に簡単であることがわかりました。 :

リーリー

テスト後の戻り値は次のとおりです:

リーリー

採用希望

いいねを押す +0
Peter_Zhu

Python 3 では、decode メソッドを使用してバイトを str に変換できます。

リーリー
いいねを押す +0
PHPzhong

それはいいですね==

リーリー
いいねを押す +0
阿神

py3を使用してください

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート