python - ulipad爬网页时中文为何是16进制?
怪我咯
怪我咯 2017-04-18 10:29:31
0
2
475
#! /usr/bin/env python
#coding=utf-8
import urllib

url = "http://www.tust.edu.cn"
content = urllib.urlopen(url).read()
print content

python初学者,也是编程初学者。
上面是代码,用python2.7编译的时候网页上的中文可以正常显示,但是用ulipad编译的时候,网页中的文字就是以16进制的方式显示的。请问这个是什么问题?

我搜索的时候,看到有的回答说是在代码后面加上encode

然而我在content后面接encode('utf-8')或者encode('gb2312')的时候都会提示报错

ascii codec can't decode byte 0Xef in position 0:ordinal not in range

我查了一下,找到了下面这个网址

http://blog.csdn.net/qian_f/a...

好像是说是字符编码不统一的问题。紧接着我查了一下read返回的好像就是byte string呀....

求各位大神解答...

怪我咯
怪我咯

走同样的路,发现不同的人生

모든 응답(2)
刘奇

개인적인 이해에 따르면 read()의 기본 인코딩은 웹페이지 콘텐츠를 구문 분석할 수 없다는 것입니다. 정보를 확인하고 read의 괄호에 인코딩을 지정해 보세요.

阿神

unicode.encode(content,'utf-8');

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!