字符编码 - python使用split(‘中文字符’)出错

Question

根据网页所给的字符编码将其字节数据decode('gb2312')用的是scrapy，从给出的url获取body {代码...} 请问怎么解决？

大家讲道理 · Answer

リーリー

上記のエラーをもう一度見ると、byte 0xa3
だったので、ターミナルで何度か試してみたところ、コロン gb2312 がエンコードされていることがわかりました

リーリー

つまり、Python は gb2312 の本体をデコードするためにデフォルトの utf-8 を使用するはずです。そのため、私が考える 1 つの方法は、デフォルトのエンコード値を変更することです。これは最初の行のステートメントです。# -*- coding: gb2312 -*-
これで操作は成功しましたが、他の方法はありますか?

迷茫 · Answer

<p>Python3<span class="img-wrap"><img src="http://img.php.cn/upload/image/000/000/000/bc10b91fa0cc63b0e50701c2d15fdbdc-0.png"></span></p>

伊谢尔伦 · Answer

デコード後、本文は Unicode エンコードされる必要があります。次の方法を使用します。

リーリー

PHP中文网 · Answer

もう 1 つのエンコーディングの問題については、「人間とコンピューターの対話のための文字エンコーディング」および「5 分で Python 文字エンコーディングを克服する」を参照してください。

リーリー