在 Python 中解码 URL 编码的 UTF-8 字符串
使用 URL 时,您可能会遇到使用 UTF- 编码的字符串8 并使用 URL 引用进行转义。要从这些字符串中提取正确的数据,您需要对它们进行解码。
在 Python 2.7 中,您可以使用 urllib.unquote() 来解码 URL 编码的数据。但是,此方法返回字节,因此您需要进一步解码它们:
<code class="python">from urllib import unquote url = unquote(url).decode('utf8')</code>
在 Python 3 及更高版本中,urllib 包已拆分为 urllib.request、urllib.parse 和 urllib.error。要解码 URL 编码数据,您应该使用 urllib.parse.unquote():
<code class="python">from urllib.parse import unquote url = unquote(url)</code>
此方法处理 URL 编码和 UTF-8 解码,并为您提供一个 unicode 字符串作为结果。
例如:
<code class="python">>>> from urllib.parse import unquote >>> url = 'example.com?title=%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B7%D0%B0%D1%89%D0%B8%D1%82%D0%B0' >>> unquote(url) 'example.com?title=правовая+защита'</code>
通过使用 urllib.parse.unquote(),您可以轻松解码 URL 编码的 UTF-8 字符串,确保您获得正确的数据。
以上是如何在 Python 中解码 URL 编码的 UTF-8 字符串?的详细内容。更多信息请关注PHP中文网其他相关文章!