python - 爬虫获取网站数据,出现乱码怎么解决。
迷茫
迷茫 2017-04-18 10:32:43
0
4
645
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import re
import HTMLParser

class WALLSTREET:
    def __init__(self, baseUrl):
        self.url = baseUrl
    def get_html_content(self):
        url = self.url
        response = urllib2.urlopen(url)
        str = response.read()
        print str
baseUrl="https://wallstreetcn.com/live/global" #华尔街见文url
ws = WALLSTREET(baseUrl)
ws.get_html_content()

以上是代码,写的很简单,但是print出来的是乱码
尝试了 print str.decode(“utf-8“”)
但是报错
UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

membalas semua(4)
Ty80

str = response.read() mempunyai dua masalah:
1 str ialah kata kunci terbina dalam dan mesti ditukar kepada nama pembolehubah lain
2. Jika ia utf- 8Add .decode('utf-8') selepas read(), jika ia lain, ia boleh dinyahkodkan dengan sewajarnya

Satu cadangan kecil ialah menulis fungsi untuk program kecil jenis ini akan lebih mudah daripada menggunakan kelas, sama ada ia menggunakan atau melaksanakannya

巴扎黑

Saya rasa anda menggunakan teks yang luhur?
Rujuk ini

伊谢尔伦

Ia harus dikodkan dan bukannya nyahkod, dan nama pembolehubah anda sebenarnya sama dengan nama kata kunci terbina dalam

刘奇

Ia harus dikodkan

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan