关于你不想知道的所有Python3 unicode特性-파이썬 튜토리얼-php.cn

我们想做什么

UNIX里的UNICODE

UNICODE疯狂

C Locale

Python3死于火焰

Python3 cat

跳起编码舞蹈

但你是错误的

집

백엔드 개발

파이썬 튜토리얼

关于你不想知道的所有Python3 unicode特性

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 10, 2016 pm 03:18 PM

python3 unicode

我的读者知道我是一个喜欢痛骂Python3 unicode的人。这次也不例外。我将会告诉你用unicode有多痛苦和为什么我不能闭嘴。我花了两周时间研究Python3，我需要发泄我的失望。在这些责骂中，仍然有有用的信息，因为它教我们如何来处理Python3。如果没有被我烦到，就读一读吧。

这次吐槽的内容会不一样。不会关联到WSGI或者HTTP及与其相关的东西。通常，我被告知我应该停止抱怨Python3 Unicode系统，因为我不写别人经常写的代码（HTTP库之类的东西），所以我这次准备写点别的东西：一个命令行应用程序。我写了一个很方便的库叫click来让编写它更加简单。

注意，我做的是每一个新手Python程序员做的事情：写一个命令行应用程序。Hello World程序。但是不同以往，我想要确保应用程序是稳定的并且对于Python2和Python3的Unicode都是支持的，还能够进行单元测试。所以接下来的就是如何来实现它。

我们想做什么

在Python3我们作为开发者需要好好使用Unicode。显然，我觉得这意味着所有的文本数据都是Unicode，所有非文本数据都是字节。在这么美妙的世界里所有的东西只有黑与白，Hello World的例子非常直截了当。所以让我们来写一些shell工具吧。

这是用Python2形式实现的应用程序：

import sys
import shutil
 
for filename in sys.argv[1:]:
  f = sys.stdin
  if filename != '-':
    try:
      f = open(filename, 'rb')
    except IOError as err:
      print >> sys.stderr, 'cat.py: %s: %s' % (filename, err)
      continue
  with f:
    shutil.copyfileobj(f, sys.stdout)

로그인 후 복사

显然，命令在处理任何命令行选项的时候也不是特别好，不过至少能够用。所以我们开始码代码吧。

UNIX里的UNICODE

上面的代码在Python2是不行的，因为你暗中处理字节。命令行参数是字节，文件名是字节，文件内容也是字节。语言卫道士会指出这是不对的，这样会引发问题，但如果你开始更多考虑它，你会发现这是个不固定的问题。

UNIX是字节，已经被定义成了这样，并且一直会是这样。为了理解为什么你需要观察数据传输的不同场景。

终端
命令行参数
操作系统输入输出层
文件系统驱动

顺便提一下，这不是数据可能通过的唯一东西，但是我们来了解一下，在多少场景下我们能了解一个编码。答案是一个也没有。至少我们需要理解一个编码是终端输出区域信息。这个信息可以用来展现转换，也能够理解文本信息所拥有的编码。

举个例子，如果LC_CTYPE的值为en_US.utf-8告诉应用程序系统使用US English，并且大部分文本数据是utf-8编码。实际上还有很多别的变量，不过我们假定这是我们唯一需要看的。注意LC_CTYPE并不代表所有的数据都是utf-8编码的。它代替通知应用程序如何分类文本特性并且什么时候需要应用转换。

这很重要，原因是因为c locale。c locale是POSIX唯一指定的现场，它说所有ASCII编码和来自命令行工具的回复会按照POSIX spec里定义的来对待。

在我们上面的cat工具里，如果它是比特，没有别的方法来对待这些数据。原因是shell里没有指定这数据是什么。例如你调用cat hello.txt，终端会在对应用程序编码的时候对hello.txt进行编码。

但是现在想想这个例子echo *。Shell会把目前目录的所有文件名传递给你的应用程序。那它们是什么编码？文件名没有编码！

UNICODE疯狂

现在一个用Windows的人看到这里会说：弄UNIX的人在搞什么呢。但这还不算悲惨。产生这些工作的原因是一些聪明的人设计得这个系统能够向后兼容。不像Windows把每个API都定义两次，在POSIX上，最好的处理方法是为了显示的目的将其假定为字节，用默认的编码方式来编码。

用上面的cat命令来举例。比如有一个关于文件无法打开的错误信息，原始是因为它们不存在或者它们是受保护的，或者其他任何的原因。我们假定文件是用latin1编码的，因为它是来自1995年外部驱动。终端会获取标准输出，它将会试着把它用utf-8编码，因为这是它认为的编码。因为字符串是latin1编码的，因为它无法顺利得解码。但是不怕，不会有什么崩溃，因为你的终端在无法处理它的时候会无视它。

它在图形界面上怎样？每种有两个版本。在一个像Nautilus 这样的图形界面上列出所有的文件。它把文件名和图标关联起来，能够双击并且试着使文件名能够显示出来，因而把它解码。例如它会尝试用utf-8解码，错误的地方用问题记号来替代。你的文件名可能不是完全可读的但那是你仍能打开文件。

UNIX上的unicode只在你强制所有东西用它的时候会很疯狂。但那不是unicode在UNIX上工作的方式。UNIX没有区别unicode和字节的API。它们是相同的，使其更容易处理。

C Locale

C Locale在这里出现的次数非常多。C Locale是避免POSIX的规格被强行应用到任何地方的一种手段。POSIX服从操作系统需要支持设置LC_CTYPE，来让一切使用ASCII编码。

这个locale是在不同的情况下挑选的。你主要发现这个locale为所有从cron启动的程序，你的初始化程序和子进程提供一个空的环境。C Locale在环境里复原了一个健全的ASCII地带，否则你无法信任任何东西。

但是ASCII这个词指出它是7bit编码。这不是问题，因为操作系统是能处理字节的！任何基于8bit的内容能正常处理，但你与操作系统遵循约定，那么字符处理会限制在前7bit。任何你的工具生成的信息它会用ASCII编码并且使用英语。

注意POSIX规范没有说你的应用程序应当死于火焰。

Python3死于火焰

Python3在unicode上选择了与UNIX不同的立场。Python3说：任何东西是Unicode（默认情况下，除非是在某些情况下，除非我们发送重复编码的数据，可即使如此，有时候它仍然是Unicode，虽然是错误的Unicode）。文件名是Unicode，终端是Unicode，stdin和stdout是Unicode，有如此多的Unicode。因为UNIX不是Unicode，Python3现在的立场是它是对的UNIX是错的，人们也应该修改POSIX的定义来添加Unicode。那么这样的话，文件名就是Unicode了，终端也是Unicode了，这样也就不会看到一些由于字节导致的错误了。

不是仅仅我这样说。这些是Python关于Unicode的脑残想法导致的bug：

ASCII是很槽糕的文件名编码
用surrogateescape作为默认error handler
Python3在C locale下抛出Unicode错误
LC CTYPE=C，pydoc给终端留下一个不能使用的状态

如果你Google一下，你就能发现如此多的吐槽。看看有多少人安装pip模块失败，原因是changelog里的一些字符，或者是因为home文件夹的原因又，或者是因为SSH session是用ASCII的，或者是因为他们是使用Putty连接的。

Python3 cat

现在开始为Python3修复cat。我们如何做？首先，我们需要处理字节，因为有些东西可能会显示一些不符合shell编码的东西。所以无论如何，文件内容需要是字节。但我们也需要打开基本输出来让它支持字节，而它默认是不支持的。我们也需要分别处理一些情况比如Unicode API失败，因为编码是C。那么这就是，Python3特性的cat。

import sys
import shutil
 
def _is_binary_reader(stream, default=False):
  try:
    return isinstance(stream.read(0), bytes)
  except Exception:
    return default
 
def _is_binary_writer(stream, default=False):
  try:
    stream.write(b'')
  except Exception:
    try:
      stream.write('')
      return False
    except Exception:
      pass
    return default
  return True
 
def get_binary_stdin():
  # sys.stdin might or might not be binary in some extra cases. By
  # default it's obviously non binary which is the core of the
  # problem but the docs recomend changing it to binary for such
  # cases so we need to deal with it. Also someone might put
  # StringIO there for testing.
  is_binary = _is_binary_reader(sys.stdin, False)
  if is_binary:
    return sys.stdin
  buf = getattr(sys.stdin, 'buffer', None)
  if buf is not None and _is_binary_reader(buf, True):
    return buf
  raise RuntimeError('Did not manage to get binary stdin')
 
def get_binary_stdout():
  if _is_binary_writer(sys.stdout, False):
    return sys.stdout
  buf = getattr(sys.stdout, 'buffer', None)
  if buf is not None and _is_binary_writer(buf, True):
    return buf
  raise RuntimeError('Did not manage to get binary stdout')
 
def filename_to_ui(value):
  # The bytes branch is unecessary for *this* script but otherwise
  # necessary as python 3 still supports addressing files by bytes
  # through separate APIs.
  if isinstance(value, bytes):
    value = value.decode(sys.getfilesystemencoding(), 'replace')
  else:
    value = value.encode('utf-8', 'surrogateescape') \
      .decode('utf-8', 'replace')
  return value
 
binary_stdout = get_binary_stdout()
for filename in sys.argv[1:]:
  if filename != '-':
    try:
      f = open(filename, 'rb')
    except IOError as err:
      print('cat.py: %s: %s' % (
        filename_to_ui(filename),
        err
      ), file=sys.stderr)
      continue
  else:
    f = get_binary_stdin()
 
  with f:
    shutil.copyfileobj(f, binary_stdout)

로그인 후 복사

这不是最差的版本。不是因为我想让事情更加复杂，它现在就是有这么复杂。例如在例子里没有做的是在读取一个二进制的东西是强制清理文本stdout。在这个例子里没有必要，是因为这里的print调用去了stderr而不是stdout，但如果你想打印一些stdout，你就必须清理。为什么？因为stdout是别的缓冲区之上的缓冲区，如果你不强制清理它，你的输出顺序可能会出错。

不仅仅是我，例如看：twisted's compat module ，会发现相同的麻烦。

跳起编码舞蹈

为了理解shell里的命令行参数，顺便说一些Python3里最糟糕的情况：

shell把文件名以字节传给脚本
字节在命中你的代码前被Python以预期的解码方式解码。因为这是有损好的过程，Python3使用一个特别的错误处理器来处理解码错误。
Python代码处理一个没有错误的文件，并且需要格式化一个错误信息。因为我们写文本流的时候如果它不是非法的unicode，是不会写替代的。
将包含替代的unicode串编码为utf-8，然后告诉它处理替代转义。
然后我们从utf-8解码并告诉他忽略错误
结果字符串回到只有文本的流里
之后终端会解码我们的字符串来进行显示

以下是Python2里的情况：

shell把文件名作为字节传给脚本
shell解码字符串来进行显示

因为Python2版本里的字符串处理只是在出错的时候进行纠正，因为shell在显示文件名时能做得更好。

注意这没有让脚本更不对。如果你需要对输入数据进行实际的字符串处理，你就要在2.x和3.x里面切换到unicode处理。但在那种情况，你也想让你的脚本支持一个—charset参数，那么在2.x和3.x上做的工作差不多。只是在3.x上会更加糟糕，你需要构建在2.x上不需要的二进制标准输出。

但你是错误的

很显然我错了，我被人告诉这些：

我感到痛苦是因为我不像初学者那样思考，新的unicode系统会对初学者更友好
我不考虑windows用户和新的文本模型对windows用户是多么大的改进
问题不在于Python，问题在POSIX规范
Linux发行版需要开始支持C.UTF-8，因为它们被过去一直阻碍着
问题是SSH发送了错误的编码。SSH需要修复这个问题。
Python3里一大堆unicode错误的真正问题是人们不传递明确的编码而假设Python3作出了正确的决定。
我与分解代码工作，显然这在Python3里会更难。
我应该去改进Python3而不是在twitter和博客上抱怨
你在没有问题的地方制造问题。让每个人修复他们的环境和对任何东西进行编码就很好。这是用户的问题。
Java有这个问题好多年了，这对开发者来说没问题。

你知道吗？我在做HTTP方面的工作的时候就停止了抱怨，因为我接受了这个主意，就是HTTP/WSGI的一大堆问题对人们来说很平常。但你知道什么？在Hello World这样的情况下也有相同的问题。可能我应该放弃获得一个高质量的unicode支持的库，就这么将就了。

我可以对以上观点进行反驳，但最终也没关系了。如果Python3是我唯一使用的Python语言，我会解决所有的问题并且使用它开发。有一个完美的另一个语言叫Python2，它有更大的用户基础，并且用户基础是很牢固的。这时我是非常沮丧的。

Python3可能足够强大，会开始让UNIX走Windows走过的路：在很多地方使用unicode，但我很怀疑这样的做法。

更可能的事情是人们仍旧使用Python2，并且用Python3做一些很烂的东西。或者他们会用Go。这门语言使用了与Python2很相似的模型：任何东西都是字节串。并且假设其编码是UTF-8。到此结束。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7638

Cakephp 튜토리얼

1391

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

150

Related knowledge

PHP에 대한 심층적인 이해: JSON 유니코드를 중국어로 변환하는 구현 방법 Mar 05, 2024 pm 02:48 PM

PHP에 대한 심층적인 이해: JSONUnicode를 중국어로 변환하는 구현 방법 개발 중에 JSON 데이터를 처리해야 하는 상황이 자주 발생하며, JSON의 유니코드 인코딩은 일부 시나리오, 특히 변환해야 할 때 몇 가지 문제를 일으킬 수 있습니다. 유니코드 인코딩을 한자로 변환하는 경우입니다. PHP에는 이러한 변환 프로세스를 달성하는 데 도움이 되는 몇 가지 방법이 아래에 소개되고 구체적인 코드 예제가 제공됩니다. 먼저 JSON의 Un을 먼저 이해해 봅시다.

유니코드를 중국어로 변환하는 방법 Dec 14, 2023 am 10:57 AM

유니코드는 다양한 언어와 기호를 표현하는 데 사용되는 문자 인코딩 표준입니다. 유니코드 인코딩을 중국어 문자로 변환하려면 Python의 내장 함수 chr() 및 ord()를 사용할 수 있습니다.

Eclipse에서 한자 깨짐 문제를 해결하는 방법을 시도해 보세요. Jan 03, 2024 pm 05:28 PM

Eclipse에서 중국어 문자가 깨져서 고민이신가요? 이러한 솔루션을 시도하려면 구체적인 코드 예제가 필요합니다. 1. 배경 소개 컴퓨터 기술이 지속적으로 발전함에 따라 소프트웨어 개발에서 중국어의 역할이 점점 더 중요해지고 있습니다. 그러나 많은 개발자는 중국어 개발에 Eclipse를 사용할 때 잘못된 코드 문제에 직면하여 작업 효율성에 영향을 미칩니다. 그런 다음 이 기사에서는 몇 가지 일반적인 잘못된 코드 문제를 소개하고 독자가 Eclipse에서 중국어 잘못된 코드 문제를 해결하는 데 도움이 되는 해당 솔루션과 코드 예제를 제공합니다. 2. 일반적인 잘못된 코드 문제 및 솔루션 파일

PHP 튜토리얼: JSON 유니코드를 한자로 변환하는 방법 Mar 05, 2024 pm 06:36 PM

JSON(JavaScriptObjectNotation)은 웹 애플리케이션 간의 데이터 교환에 일반적으로 사용되는 경량 데이터 교환 형식입니다. JSON 데이터를 처리할 때 유니코드로 인코딩된 중국어 문자(예: "u4e2du6587")를 자주 접하고 이를 읽을 수 있는 중국어 문자로 변환해야 합니다. PHP에서는 몇 가지 간단한 방법을 통해 이러한 변환을 수행할 수 있습니다. 다음으로 JSONUnico 변환 방법을 자세히 소개하겠습니다.

Java가 MySQL 데이터베이스에 연결할 때 일관되지 않은 유니코드 문자 집합 인코딩 문제를 해결합니다. Jun 10, 2023 am 11:39 AM

빅데이터, 클라우드 컴퓨팅 등 기술의 발전으로 데이터베이스는 기업 정보화의 중요한 초석 중 하나가 되었습니다. Java로 개발된 애플리케이션에서는 MySQL 데이터베이스에 연결하는 것이 표준이 되었습니다. 그러나 이 과정에서 유니코드 문자 세트 인코딩이 일치하지 않는다는 까다로운 문제에 자주 직면합니다. 이는 개발 효율성에 영향을 미칠 뿐만 아니라 애플리케이션의 성능과 안정성에도 영향을 미칩니다. 이 기사에서는 이 문제를 해결하고 Java가 MySQL 데이터베이스에 보다 원활하게 연결되도록 하는 방법을 소개합니다. 1. 유니코드

유니코드와 ASCII의 차이점은 무엇입니까 Sep 06, 2023 am 11:56 AM

유니코드와 ASCII의 차이점에는 인코딩 범위, 저장 공간 및 호환성이 다릅니다. 자세한 소개: 1. 인코딩 범위는 다릅니다. ASCII의 인코딩 범위는 주로 영문자를 나타내는 데 사용됩니다. 유니코드의 인코딩 범위는 훨씬 더 넓으며 거의 모든 언어 문자를 나타낼 수 있습니다. 공백은 다릅니다. ASCII는 일반적으로 문자를 저장하는 데 1바이트를 사용하는 반면, 유니코드는 문자를 저장하는 데 2바이트 이상을 사용할 수 있습니다.

Java에서 유니코드 에이전트 프로그래밍을 사용하는 방법 May 06, 2023 pm 08:43 PM

순차 액세스 순차 액세스는 Java 언어에서 문자열을 처리하기 위한 기본 작업입니다. 이 접근 방식에서는 입력 문자열의 각 문자에 처음부터 끝까지 또는 때로는 끝에서 처음까지 순차적으로 액세스됩니다. 이 섹션에서는 순차 액세스 방법을 사용하여 문자열에서 32비트 코드 포인트 배열을 생성하고 처리 시간을 추정하는 7가지 기술 예제를 논의합니다. 예제 1-1: 벤치마크(서로게이트 쌍 지원 안 함) 목록 1은 서로게이트 쌍을 전혀 고려하지 않고 16비트 char 유형 값을 32비트 코드 포인트 값에 직접 할당합니다. 목록 1. 서로게이트 지원 안 함 쌍 int[]toCodePointArray(Stringstr) {//예1-1intlen=str.length();//t

PHP 프로그래밍 팁: JSON 데이터에서 유니코드 변환을 효율적으로 처리 Mar 05, 2024 pm 05:03 PM

PHP 개발 중에 JSON 데이터 처리는 매우 일반적인 작업입니다. 그러나 유니코드 문자가 포함된 JSON 데이터를 처리할 때, 특히 데이터 변환 및 인코딩 변환에서 몇 가지 문제가 발생할 수 있습니다. 이 기사에서는 JSON 데이터에서 유니코드 변환을 효율적으로 처리하기 위한 몇 가지 PHP 프로그래밍 기술을 소개하고 구체적인 코드 예제를 제공합니다. 유니코드 문자가 포함된 JSON 데이터를 처리할 때 일반적으로 유니코드 문자 변환 및 인코딩이 포함됩니다. PHP로

See all articles

关于你不想知道的所有Python3 unicode特性

我们想做什么

UNIX里的UNICODE

UNICODE疯狂

C Locale

Python3死于火焰

Python3 cat

跳起编码舞蹈

但你是错误的

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제