Python编码爬坑指南(必看)-Python教程-PHP中文网

首页

后端开发

Python教程

Python编码爬坑指南(必看)

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 16, 2016 am 08:47 AM

自己最近有在学习python，这实在是一门非常短小精悍的语言，很喜欢这种语言精悍背后又有强大函数库支撑的语言。可是刚接触不久就遇到了让人头疼的关于编码的问题，在网上查了很多资料现在在这里做一番总结，权当一个记录也为后来的兄弟姐妹们服务，如果可以让您少走一些弯路本人将倍感荣幸。

先来描述下现象吧：

import os
for i in os.listdir("E:\Torchlight II"):
  print i

登录后复制

代码很简单我们使用os的listdir函数遍历了E:\Torchlight II这个目录（Torchlight ？！：）），由于这个目录下有些文件是以中文命名的，所以在最后print结果时出现了乱码，像这样：

那么问题出在哪儿呢？别急，我们一点一点来分析它。

从这里和这里我们几乎能够肯定的知道问题是出在：

This means that the python console app can't write the given character to the console's encoding.
More specifically, the python console app created a _io.TextIOWrapperd instance with an encoding that cannot represent the given character.
sys.stdout --> _io.TextIOWrapperd --> (your console)

登录后复制

看到这里不知你是否与我想的一样，能不能去设置console的编码，将其设置为能够理解中文字符的编码不就可以正常的显示出中文了吗？等等，让我们在多Google一会儿，

Python determines the encoding of stdout and stderr based on the value of the LC_CTYPE variable, but only if the stdout is a tty. So if I just output to the terminal, LC_CTYPE (or LC_ALL) define the encoding. However, when the output is piped to a file or to a different process, the encoding is not defined, and defaults to 7-bit ASCII.

登录后复制

更详细的说明如下：

1). When Python finds its output attached to a terminal, it sets the sys.stdout.encoding attribute to the terminal's encoding. The print statement's handler will automatically encode unicode arguments into str output.
2). When Python does not detect the desired character set of the output, it sets sys.stdout.encoding to None, and print will invoke the "ascii" codec.

登录后复制

嚯嚯，看来刚才的想法是可行的只是不太优雅罢了，因为我们得去修改系统的设置。事实上上面的论述是基于linux环境的，在linux下可能需要我们去更改某个环境变量的值（LC_CTYPE or LANG）；如果我们是在windows下面的话，console的编码设置是跟操作系统的区域设置相关的。比如在中文的win7环境下，console默认的编码就是GBK（cp936）。你可以试试下面的代码：

import locale
print locale.getdefaultlocale()[1]

登录后复制

console的编码不好设置了那能否对stdout.out.encoding进行设置以达到我们的目的呢？很遗憾，答案是否定的，这家伙压根就是只读的：

没有办法了么？不会，其实我们离成功已经很近了，来，根据上面检索到的那些资料分析整理下看看我们现在掌握到的情况都有哪些：

1). console不能正常显示中文，console的编码是由操作系统决定的（windows环境下）；
　2). 我的操作系统是win7中文版（GBK），enc = locale.getdefaultlocale()[1]；
 3). console的编码决定了sys.stdout.encoding的取值，sys.stdout.encoding = utf-8；
 4). 从操作系统枚举目录（E:\Torchlight II）列表返回的字符串也是GBK编码

登录后复制

是不是已经看出问题来了。最上面截图中那么奇奇怪怪的问号尖角符号就是因为字符串本身是按照gbk进行编码的，但是由于sys.stdout.encoding = utf-8，导致print会按照utf-8对input的数据进行encode从而转换为unicode字符。这，当然错误了。原因已经清楚了，来改改代码吧：

import os
for i in os.listdir("E:\Torchlight II"):
  print i.decode('gbk')

登录后复制

在代码中我们手动告诉了python对读入的字符串按章gbk编码来进行解码，而这一个动作之后数据已经是标准的unicode字符了，可以放心的交给print去打印输出了（即使这会儿sys.stdout.encoding = utf-8）：

ps：

实际在google中还查到过很多相关的类似编码的问题，比如这里的，还有这里的。虽然问题的样子千变万化并且解决方式多种多样甚至是python自己的特定解决方式，比如这里。但这些问题本质都是一样的都是关于字符的编码和解码，搞清楚了其中的本质所有问题都能够迎刃而解。

以上这篇Python编码爬坑指南(必看)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7414

CakePHP 教程

1359

steam的账户名称是什么格式

win11激活密钥永久

显示更多

Related knowledge

我如何使用美丽的汤来解析HTML？ Mar 10, 2025 pm 06:54 PM

本文解释了如何使用美丽的汤库来解析html。它详细介绍了常见方法，例如find（），find_all（），select（）和get_text（），以用于数据提取，处理不同的HTML结构和错误以及替代方案（SEL）

如何解决Linux终端中查看Python版本时遇到的权限问题？ Apr 01, 2025 pm 05:09 PM

Linux终端中查看Python版本时遇到权限问题的解决方法当你在Linux终端中尝试查看Python的版本时，输入python...

python对象的序列化和避难所化：第1部分 Mar 08, 2025 am 09:39 AM

Python 对象的序列化和反序列化是任何非平凡程序的关键方面。如果您将某些内容保存到 Python 文件中，如果您读取配置文件，或者如果您响应 HTTP 请求，您都会进行对象序列化和反序列化。从某种意义上说，序列化和反序列化是世界上最无聊的事情。谁会在乎所有这些格式和协议？您想持久化或流式传输一些 Python 对象，并在以后完整地取回它们。这是一种在概念层面上看待世界的好方法。但是，在实际层面上，您选择的序列化方案、格式或协议可能会决定程序运行的速度、安全性、维护状态的自由度以及与其他系

Python中的数学模块：统计 Mar 09, 2025 am 11:40 AM

Python的statistics模块提供强大的数据统计分析功能，帮助我们快速理解数据整体特征，例如生物统计学和商业分析等领域。无需逐个查看数据点，只需查看均值或方差等统计量，即可发现原始数据中可能被忽略的趋势和特征，并更轻松、有效地比较大型数据集。本教程将介绍如何计算平均值和衡量数据集的离散程度。除非另有说明，本模块中的所有函数都支持使用mean()函数计算平均值，而非简单的求和平均。也可使用浮点数。 import random import statistics from fracti