从 Python 中的字符串中删除不间断空格
使用 Beautiful Soup 解析 HTML 文件时,您可能会遇到表示空格的 xa0 Unicode 字符。本文介绍如何在 Python 2.7 中有效删除这些字符并将它们转换为常规空格。
要解决此问题,只需将 xa0 替换为 u' ',如下所示:
<code class="python">string = string.replace(u'\xa0', u' ')</code>
xa0 字符表示 Latin1 (ISO 8859-1) 编码中的不间断空格。通过使用 u' ' 代替 '',确保它被替换为 Unicode 空格。
使用 .encode() 后遇到 xc2 字符时,表明 Unicode 已编码为 UTF-8。 xa0 由 UTF-8 中的两个字节 xc2xa0 表示。
要了解 Python 中的 Unicode 处理,请参阅 http://docs.python.org/howto/unicode.html 上的文档。请注意,这个答案可以追溯到 2012 年; Python 已经发展,您现在应该考虑使用 unicodedata.normalize 进行 Unicode 规范化。
以上是如何在 Python 中删除字符串中的不间断空格?的详细内容。更多信息请关注PHP中文网其他相关文章!